尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
由國際計算語言學協會(The Association for Computational Linguistics,以下簡稱 ACL)主辦的 ACL 2018 年度會議本周正式在墨爾本開幕。
作為計算機室語言學和自然語言理解領域的盛會,這也是近距離觀察該領域發展狀況的窗口。根據會議官方透露的消息,2018 年的 ACL 會議的投稿量非常高,包括 1018 篇長文和 526 篇短文。
而更重要的一個消息則是,ACL 宣布成立面向亞太地區的分學會 AACL (The Asia-Pacific Chapter of the ACL),百度高級副總裁、AI技術平台體系(AIG)總負責人,ACL前任主席王海峰擔任 AACL 創始主席。
此前,1982 年 ACL 成立了面向歐洲地區的 EACL(The European Chapter of the ACL),2000 年則開辟了針對北美地區的NAACL (The North American Chapter of the Association for Computational Linguistics)。也正如赫斯特所言「每隔 18 年就要進行新的動作」,此次成立面向亞太地區的 AACL 以及任命一位中國負責人,凸顯出當下亞太地區,尤其是中國對於自然語言研究的火熱程度。
ACL大會:NLP領域的「奧斯卡」
ACL 會議是計算語言學領域的首要會議,廣泛涉及自然語言的計算方法及其各類研究領域,也是被 CCF(中國計算機學會)認定為A類國際學術會議。
不過,與其他學術領域不同,計算機語言學以及自然語言處理領域的理論進展、更新速度非常快,這也意味著,相對於其他領域的學術期刊為主要交流載體,計算機語言學以及自然語言處理領域更看重參加學術會議或者在會議上發表論文所帶來的價值。
也因此,對於該領域的研究者而言,能在 ACL 上發表論文和現場參加會議討論交流是一件非常有意義的事情。而 ACL 長期以來在論文審核方面的嚴格要求,根據其官方透露的數字,其論文入選率一直保持在 25% 左右,以今年為例,長文有 256 篇被錄用,錄取率 25.1%,相較去年的 18% 有了極大提高。也就是說,至少 3/4 的提交論文會被駁回,其入選幾率之小堪比計算機語言學的「奧斯卡」。
其次,ACL 更像是一年一度的「全球聚會」,歐洲、北美地區的區域性組織 EACL 、NAACL 則負責本地區的學術會議,但亞太地區卻一直沒有相對應的分支,與之相對的,則是近幾年來亞太地區自然語言處理方面的快速發展,下圖展示了全球各地區論文通過率,亞太地區在 2017 年已經達到 33.3%,因此,成立 ACL 的亞太分支 AACL 勢在必行,AACL 可以為亞太地區的研究者提供支持,吸引更多亞太地區研究者投身於自然語言處理領域的研究中,從而進一步促進該領域的發展。
據了解,ACLL 預計在 2020 年舉行首次會議,此後每兩年舉行一次會議,會議地點將設置在亞太地區,同時還將向 個人開放會籍,而AFNLP則主要面向專業研究機構或研究所/大學開放會籍,兩者合作,將為不同學術人群提供更優質的服務。
而此次出任 ACLL 主席的王海峰,則是 ACL 的「老熟人」。
王海峰博士是自然語言處理領域最具影響力的國際學術組織ACL(Association for Computational Linguistics)50多年歷史上唯一出任過主席(President)的華人,是截至目前最年輕的ACL會士(Fellow),同時也是唯一來自中國大陸的 ACL 會士。
與這些學術認可相呼應的,還有王海峰在百度的工程成果。
公開資料顯示,2010-2013 年期間,王海峰先後為百度創建了自然語言處理部、互聯網數據研發部(包括知識圖譜和互聯網數據挖掘)、推薦引擎和個性化部、多媒體部(包括語音和圖像技術)、圖片搜尋部、語音技術部等。
2014 年後,已經晉升為公司副總裁的王海峰,轉崗至搜尋業務群組任副總經理,通過將自然語言理解注入到新產品之中,孵化出度秘 DuerOS 以及信息流兩大重要產品,如今也成為百度的核心產品。
透過 ACL 越來越高的關注度,以及任命在學術界和工業界取得諸多成績的王海峰出任亞太分會負責人,也可以一窺自然語言處理(NLP)當前的重要發展機遇。
從 ACL 再看 NLP 之於人工智能的重要性
實際生活中,不管你是打開搜尋引擎搜尋資料還是使用電子郵箱收發郵件以及當下火熱的智能音箱市場,自然語言處理都在背後提供了技術支持。
但長期以來,自然語言處理都是人工智能領域的重要研究課題。60 多年前,人工智能研究們曾將國際象棋和機器翻譯作為衡量人工智能發展的重要標準。當 1997 年人類在國際象棋正式宣告失敗之後,自然語言理解的研究卻依然沒有突破瓶頸。
近幾年,隨著大數據和基於神經網路的深度學習的發展,自然語言理解的發展也進入到新的階段,也成為巨頭們搶奪的重要戰場。在矽谷,Google 試圖將自然語言處理相關技術納入搜尋和虛擬助理(Google Assistant)之中,亞馬遜則努力在推薦系統里使用自然語言理解技術,在匹配用戶意圖和推薦結果上取得不錯的成績。
在中國,王海峰主管的百度 NLP 團隊已經在此領域積累與沉淀十餘年,已建成世界上最大規模的知識圖譜,並在自然語言句法分析、語義理解、閱讀理解、語言生成、智能寫作、深度問答、對話系統、機器翻譯等方面取得不少突破。
這些 NLP 技術已經廣泛應用於搜尋、地圖、信息流、DuerOS等百度的眾多產品中。
以搜尋為例,當用戶搜尋「竇靖童的爸爸的前妻的前夫」時,機器不僅需要完成快速分詞,還要借助知識圖譜,在這些複雜的人物與關係中找到一條線索;更進一步,如果用戶輸入「給我推薦一個可以看後海荷花的餐廳」,機器要做的,還要去分析、理解用戶的主要意圖,比如到底是去餐廳還是去看荷花。
此次 ACL 上,百度有兩篇關於閱讀理解技術的研究論文被錄用。在論文《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》中,百度提出了一種新的多文檔校驗的深度神經網路建模方法 V-NET,通過注意力機制使不同文檔產生的答案之間能夠產生交換信息互相印證,從而預測出更好的答案。在論文《Joint Training of Candidate Extraction and Answer Selection in Reading Comprehension》中,百度利用強化學習的方法對串行的多文檔閱讀理解模塊進行聯合訓練。
而針對多文檔閱讀理解任務,百度自然語言處理團隊發布了面向真實搜尋應用的最大中文開放領域閱讀理解數據集 DuReader(包含30萬問題、150萬文檔和72萬答案),並基於此數據集舉辦了2018中文閱讀理解技術評測(http://mrc2018.cipsc.org.cn/)。DuReader 數據集以及評測方法的論文也均被 ACL2018閱讀理解研討會(Workshop on Machine Reading for Question Answering)所錄用。
這些研究成果未來將在百度的產品中得以應用,同時,借助百度的 AI 開放平台,包括 NLP 基礎技術平台、語言理解與交互平台 UNIT、機器翻譯開放平台的形式向開發者和行業合作夥伴們賦能。
寫在最後
業界常將自然語言處理比喻為「人工智能皇冠上的明珠」,在人工智能誕生的 62 年時間里,機器早已在記憶、計算層面超越人類,近幾年里,隨著深度學習的廣泛應用,機器也初步具備了「聽覺、視覺和觸覺」,留給機器的下一個挑戰就是:如何理解人類語言,並將其服務於人類。
這也是 ACL 會議持續火熱的真正驅動力,也是中美眾多行業巨頭爭奪的焦點。與此同時,在中國人工智能快速發展的今天,中文自然語言處理的研發熱情也在更具應用場景的需求下被進一步激發。在 2017 年國務院印發的《新一代人工智能發展規劃》里,自然語言處理技術位列八大共性技術之中,尤其提到「跨語言文本挖掘技術和面向機器認知智能的語義理解技術,多媒體信息理解的人機對話系統」,我們也有理由相信,通過 AACL 接下來的努力,以及包括百度在內的眾多企業的支持,亞太地區特別是中國自然語言處理領域會出現更多突破性的發展。