自然語言處理(NLP)被譽(yù)為人工智能皇冠上的“明珠”。近年來,人工智能(AI)取得了長(zhǎng)足的發(fā)展,其中最重要的技術(shù)進(jìn)步之一發(fā)生在NLP領(lǐng)域。NLP技術(shù)的進(jìn)步使得機(jī)器翻譯質(zhì)量大幅提高,也催生了更多數(shù)字化場(chǎng)景應(yīng)用,隨之國(guó)內(nèi)NLP產(chǎn)業(yè)也迎來快速發(fā)展。據(jù)艾瑞咨詢預(yù)測(cè),2022年NLP相關(guān)產(chǎn)業(yè)規(guī)模將達(dá)到1500億元,到2025年達(dá)到2400億元。微軟亞洲研究院認(rèn)為未來十年是NLP發(fā)展的黃金時(shí)期。
浪潮之下,創(chuàng)新企業(yè)正在成為NLP創(chuàng)新突破的重要力量,中科凡語就是其中的典型代表。中科凡語是中國(guó)科學(xué)院自動(dòng)化研究所孵化、專注于NLP服務(wù)的創(chuàng)新型企業(yè),已發(fā)展成為業(yè)內(nèi)領(lǐng)先的多語言跨領(lǐng)域多模態(tài)自然語言處理方案商、服務(wù)商、運(yùn)營(yíng)商。恰逢中科凡語成立4周年之際,中國(guó)科學(xué)院自動(dòng)化研究所研究員、博士生導(dǎo)師、中科凡語董事長(zhǎng)周玉博士分享了NLP的發(fā)展趨勢(shì)和中科凡語的工作成果。
中國(guó)科學(xué)院自動(dòng)化研究所研究員、
博士生導(dǎo)師、中科凡語董事長(zhǎng)周玉博士
從通用到定制形成動(dòng)態(tài)閉環(huán)
搭建NLP底層技術(shù)平臺(tái)
目前NLP產(chǎn)品的應(yīng)用落地任重道遠(yuǎn),面臨的問題主要有兩個(gè),一是高定制化場(chǎng)景帶來的高溝通門檻,使得溝通效率較低;二是要開發(fā)通用性較強(qiáng)的產(chǎn)品,需要不同的業(yè)務(wù)數(shù)據(jù)支撐,適配過程較為漫長(zhǎng)。面對(duì)NLP產(chǎn)品的定制化和通用性難題,中科凡語獨(dú)辟蹊徑。
周玉研究員表示,“早期可以面對(duì)不同行業(yè)領(lǐng)域客戶先提煉出共性需求,搭建一個(gè)通用的技術(shù)框架,滿足基礎(chǔ)的模塊功能;然后再構(gòu)建通用場(chǎng)景的通用產(chǎn)品;之后再遷移到特定場(chǎng)景進(jìn)行定制化開發(fā);最后在定制化過程中再衍生出面向特定場(chǎng)景的產(chǎn)品??偟膩砜?,其實(shí)是在動(dòng)態(tài)演化過程中不斷完善迭代,從通用到定制形成動(dòng)態(tài)閉環(huán)?!?/span>
NLP產(chǎn)品開發(fā)的底層邏輯是技術(shù)儲(chǔ)備,技術(shù)儲(chǔ)備越豐富,通用技術(shù)模塊越成熟,遷移成本就會(huì)越低,在特定行業(yè)的產(chǎn)品化效率也就越高,行業(yè)壁壘也就隨之建立起來。
基于深厚的技術(shù)積淀,目前中科凡語推出了“信譯”、“信推”、“信析”、“信服”和“信取”五大NLP技術(shù)產(chǎn)品?!靶抛g”是基于為用戶提供優(yōu)質(zhì)、專業(yè)、準(zhǔn)確、高效的機(jī)器翻譯服務(wù);“信推”是針對(duì)長(zhǎng)文本完成多模態(tài)自動(dòng)摘要生成和關(guān)鍵詞提取及內(nèi)容推送;“信取”則提供跨場(chǎng)景、多語言、多粒度的數(shù)據(jù)爬取、融合、分類及管理,等等。目前中科凡語所推出的“五信”,“飛譯”或是“洞知”產(chǎn)品,都是基于客戶普遍的共性需求所建立的。未來的產(chǎn)品開發(fā),還將繼續(xù)朝著系統(tǒng)化、模塊化、工具化的方向出發(fā),為客戶提供更易組裝、更加靈活、適用性更強(qiáng)的智能服務(wù)產(chǎn)品,構(gòu)建多模塊、廣適用、高精度的底層NLP技術(shù)平臺(tái)。
專業(yè)領(lǐng)域億級(jí)語料數(shù)據(jù)
為行業(yè)發(fā)展提供動(dòng)力
高質(zhì)量標(biāo)注數(shù)據(jù)是AI時(shí)代NLP技術(shù)的關(guān)鍵因素。NLP技術(shù)本質(zhì)上是基于深度學(xué)習(xí)的,相比于視覺或音頻信息,自然語言更加抽象,蘊(yùn)含了更加豐富的人類定義的知識(shí)。因此,NLP的技術(shù)效果很大程度上取決于標(biāo)注數(shù)據(jù)的質(zhì)量和規(guī)模。
中科凡語作了大量的基礎(chǔ)工作。在標(biāo)注人員方面,以翻譯樣本標(biāo)注為例,中科凡語同全國(guó)100多所高校外國(guó)語學(xué)院達(dá)成了合作,并建立了與之相對(duì)應(yīng)的人物畫像,豐富語種人才庫的同時(shí),進(jìn)一步提升適配效率;在標(biāo)注數(shù)據(jù)方面,分層分級(jí),重點(diǎn)篩選種子樣本;再通過不斷優(yōu)化迭代算法方面的優(yōu)勢(shì),來最大化的降低標(biāo)注成本,篩選出有價(jià)值的數(shù)據(jù)。同時(shí),通過前臺(tái)數(shù)據(jù)與后臺(tái)算法的深度綁定,中科凡語進(jìn)一步提升了數(shù)據(jù)儲(chǔ)備的質(zhì)量和規(guī)模,形成一個(gè)良性的閉環(huán)。
基于中國(guó)科學(xué)院自動(dòng)化研究所相關(guān)團(tuán)隊(duì)20余年的積累,中科凡語目前已經(jīng)建立了涵蓋特定行業(yè)、教育、醫(yī)療、航空等多個(gè)領(lǐng)域的億級(jí)雙語平行語料,及大規(guī)模涵蓋多語言、多領(lǐng)域、多場(chǎng)景、多任務(wù)、多層次的高精準(zhǔn)標(biāo)注語料,NLP語料數(shù)據(jù)方面行業(yè)領(lǐng)先。同時(shí),通過創(chuàng)新迭代的智能化標(biāo)注算法,中科凡語也在不斷充實(shí)NLP語料池,著力挖掘大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù)。這不僅帶來效率提升、技術(shù)升級(jí),更是NLP發(fā)展的必然趨勢(shì)。
深耕行業(yè)夯實(shí)優(yōu)勢(shì)
NLP下一個(gè)十年中文論劍
縱觀國(guó)內(nèi)外NLP產(chǎn)業(yè)發(fā)展現(xiàn)狀,國(guó)外NLP技術(shù)由于起步早、技術(shù)領(lǐng)先,而國(guó)內(nèi)目前則處于奮起直追階段。隨著中國(guó)企業(yè)逐漸從“輔助角色”進(jìn)化為中堅(jiān)力量,“學(xué)術(shù)界+工業(yè)界”的雙輪驅(qū)動(dòng)推動(dòng)中國(guó)AI力量悄然變化。
中科凡語作為國(guó)產(chǎn)NLP領(lǐng)域先行者,承接了中科院自動(dòng)化所過去20多年在NLP領(lǐng)域技術(shù)積累,在技術(shù)、數(shù)據(jù)乃至人才方面都有著天然優(yōu)勢(shì)。成立四年來,中科凡語已成功落地了100多家G端客戶、50余家B端客戶,同時(shí)還承擔(dān)了多項(xiàng)國(guó)家和政府重大需求項(xiàng)目,例如為“一帶一路”沿線國(guó)家提供翻譯、信息整合及分析服務(wù)等,未來還將持續(xù)深耕認(rèn)知智能、通用智能、因果推斷等技術(shù)領(lǐng)域,進(jìn)一步推動(dòng)NLP成果產(chǎn)業(yè)化。中科凡語還于2020年11月成立了凡語AI研究院,已吸引60多名高級(jí)人才加入,共同進(jìn)行前沿研究,探索新的基礎(chǔ)模型與技術(shù)路線,建立競(jìng)合協(xié)同的行業(yè)生態(tài)。
在政策紅利和藍(lán)海市場(chǎng)的雙重利好下,NLP 已步入發(fā)展快車道,并涌現(xiàn)了許多商業(yè)化應(yīng)用,如機(jī)器翻譯、輿情監(jiān)測(cè)、自動(dòng)摘要、問答機(jī)器人、客服機(jī)器人、電銷機(jī)器人、智能推薦等。隨著AI技術(shù)不斷走向“深水區(qū)”,作為AI最高層次的NLP也將伴隨著數(shù)智化的產(chǎn)業(yè)趨勢(shì)快速迭代更新。中科凡語致力于通過本身在NLP領(lǐng)域積累的人才、算法、數(shù)據(jù)等優(yōu)勢(shì),聯(lián)合業(yè)界的專家學(xué)者、行業(yè)精英,共同推動(dòng)NLP最前沿技術(shù)和應(yīng)用,在國(guó)產(chǎn)NLP的發(fā)展中貢獻(xiàn)力量。
金科君創(chuàng)已投部分TMT企業(yè)
(以投資先后順序排列)