為什麼說 NLP 將是未來數據領域的珠峰?

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

人工智能或許是人類最美好的夢想之一。追溯到公元前仰望星空的古希臘人,當亞里士多德為了解釋人類大腦的運行規律而提出了聯想主義心理學的時候,他恐怕不會想到,兩千多年後的今天,人們正在利用聯想主義心理學衍化而來的人工神經網路,構建的超級人工智能成為最能接近夢想的聖境,並一次又一次地挑戰人類大腦認知的極限。

在以大數據、雲計算為背景的技術框架支撐下,互聯網發展極為迅速,過去一個技術或者行業熱點從誕生到消亡需要幾年乃至更長的時間。

但是最近幾年,其生命周期在不斷縮短,大多數的熱點從產生到消亡只需要1-2年,有些僅僅是半年甚至幾個月的時間。

互聯網行業越來越凸顯出快魚吃慢魚的特點。從技術本身也有體現,比如2012-2014年是移動互聯網的熱潮,Android 和 iOS App 開發工程師當時非常流行。

隨後,2015大數據、雲計算之年,2016年後大數據時代,2017年被稱為人工智能元年,2018年炒得最火的是區塊鏈和幣圈。

在互聯網以這種迅雷不及掩耳之勢的發展速度下,作為初學者就很容易被各種技術概念迷惑,找不到自己想要的突破口和深入的領域,即便是計算機從業者有時候也分不清到底如何定位自己未來的技術方向。

數據領域的發展將何去何從?

首先,我們從中國互聯網的四大浪潮說起。

互聯網從1994年誕生(加入國際互聯網)到現在才短短的24年,就在這24年里,我們經歷了四次非同凡響、一次比一次更徹底的發展大高潮。

第一次互聯網大浪潮(1994年—2000年),以四大門戶和搜尋為代表,能做網站的工程師就可以被稱為技術牛人;

第二次互聯網大浪潮(2001年—2008年),從搜尋到 PC 端社交化網路的發展,我們的社交形態發生了根本的變化,從線下交流正轉變為線上交流,大量的數據開始生成;

第三次互聯網大浪潮(2009年—2014年)PC 端互聯網到移動互聯網,此時各種 App 如雨後春筍般的冒出來,盡管後來有很多 App 都死了,但是移動互聯網幾乎顛覆了整個中國老百姓個人生活和商業形態,改變著我們每一個人的生活、消費、社交、出行方式等。

第四次互聯網大浪潮(2015—至今),是在前三次發展基礎上,以大數據、雲計算為背景發展起來的人工智能技術革命,分布式計算讓大數據處理提速,而昔日隕落的巨星深度學習此刻再次被喚醒,並很快在圖像和語音方面取得重大突破,但在自然語言方面卻顯得有些暗淡,突破並不是很大。

盡管有很多人都去從事計算機視覺、語音等方面的工作,但隨著 AI 的繼續發展,NLP 方向正顯得越來越重要。

接著,我們總結一下數據領域成就和挑戰。有一個不可否認的事實,當前從事互聯網的人們已經製造出了海量的數據,未來還將繼續持續,其中包括結構化數據、半結構化和非結構化數據。

我發現,對於結構化數據而言,在大數據、雲計算技術「上下齊心」的大力整合下,其技術基本趨向成熟和穩定,比如關係型數據庫以及基於 Hadoop 的 HDFS 分布式文件系統、Hive 數據倉庫和非關係型數據庫 Hbase,以及 Elasticsearch 集群等數據存儲的關係數據庫或者 NoSQL,可以用來管理和存儲數據;

基於 MapReduce、Spark 和 Storm、Flink 等大數據處理框架可以分別處理離線和實時數據等。

而半結構化、非結構化的數據,除了以 ELK 為代表的日志處理流程,過去在其它限定領域基於規則和知識庫也取得了一定的成果,因其自身的複雜性,未來更多領域應用都具有很大的困難和挑戰。

最後,我們看看國內外人工智能領域的工業現狀。今年5月19日我有幸在北京國家會議中心參加了2018全球人工智能技術大會(GAITC)。

在大會上,從中國科學院院士姚期智提出人工智能的新思維開始,其重點講述了人工神經網路為代表的深度學習以及量子計算機將是未來發展的新思維;

緊接著中國工程院院士李德毅分享了路測的學問——無人駕駛的後圖靈測試,提出未來無人駕駛挑戰應該是讓無人駕駛具有司機的認知、思維和情感,而不是當前以 GPS 定位和動力學解決無人駕駛的問題;

接下來微軟全球資深副總裁王永東向我們展示的微軟小冰,大家一起見證了微軟小冰在社交互動、唱歌、作詩、節目主持和情感方面不凡的表現,而本人也真實測試了一下,小冰現在的表現已經非常優秀了。

然而要達到一個成年自然人的水平,在某些方面還不能完全表現出人的特性。下面這幅圖是微軟小冰的個人介紹。

為什麼說 NLP 將是未來數據領域的珠峰? 科技 第1張

人工智能產業的快速發展,資本市場大量資金湧入,促使中國人工智能領域投融資熱度快速升溫,這充分表明資本市場對於人工智能發展前景的認可。

《2018年人工智能行業創新企業 Top100》發布,據榜單顯示:進入2018年人工智能行業創新企業前十名的企業分別是:百度、阿里雲、美圖秀秀、華大基因、科大訊飛、微鯨科技、華雲數據、愛馳億維、青雲、七牛雲。

作為人工智能的一個重要組成部分,自然語言處理(NLP)的研究對象是計算機和人類語言的交互,其任務是理解人類語言並將其轉換為機器語言。

在目前的商業場中,NLP 技術用於分析源自郵件、音頻、文件、網頁、論壇、社交媒體中的大量半結構化和非結構化數據,市場前景巨大。

為什麼說未來數據領域的珠穆朗瑪峰是中文自然語言處理?

正是基於上面對中國互聯網發展的總結,對當前數據領域所面臨的挑戰以及資本市場對人工智能的認可分析,未來數據領域的重點是自然語言處理技術及其在智能問答、情感分析、語義理解、知識圖譜等應用方面的突破。

對於我們國內中文來說,如何更好的把前面所說的應用在中文處理上,顯得更為重要和急迫。

如何快速入門中文自然語言處理?

作為初學者,我們目前面臨這樣的尷尬:網上大部分自然語言處理內容都是英文為基礎,大多數人先是學好了英語的處理,回頭來再處理中文,卻發現有很大的不同,這樣不僅讓中文自然語言處理學習者走了彎路,也浪費了大量時間和精力。

中文的處理比英文複雜的多,網上中文相關資料少之又少,國內純中文自然語言處理書籍只有理論方面的,卻在實戰方面比較空缺,這讓中文自然語言處理的研究開發工作感到舉步維艱,很難下筆。

《中文自然語言處理入門實戰》是我在 GitChat 平台獨家首發的入門教程,針對想邊學邊實戰的初學者設計。

我希望從中文實際出發,針對中文語料以小數據量的「簡易版」實例,通過實戰帶大家快速掌握 NLP 在中文方面開發的基本能力。

當然作為讀者,我默認你已經掌握 Python 編程語言和有一定的機器學習理論知識,當然不會也沒關係,可以邊學邊做,還是那句老話:「只要功夫深鐵杵磨成針」。

本課程共包含 19 節(包括開篇詞)。

為什麼說 NLP 將是未來數據領域的珠峰? 科技 第2張

《中文自然語言處理入門實戰》

課程大綱

課程各小節之間並沒有緊密耦合,但是整個內容還是遵循一定的開發流程。

比如,按照中文語料處理的過程,在獲取到語料之後開始分詞,分詞之後可以進行一些統計和關鍵字提取,並通過數據可視化手段熟悉和了解你的數據。

緊接著通過詞袋或者詞向量,把文本數據轉換成計算機可以計算的矩陣向量。

後續從機器學習簡單的有監督分類和無監督聚類入手,到深度學習中神經網路的應用,以及簡易聊天機器人和知識圖譜的構建。

帶你直觀深入、高效地了解 NLP 開發的流程,全方位提升你的技術實力與思維方式。

無論是初入 AI 行業的新人,還是想轉行成為 AI 領域的技術工程師,都可以從本場達人課中,收獲中文自然語言處理相關知識。

因為篇幅原因,本課程無法包含 NLP 的所有知識以及比較前沿的知識,但是我會在講好每節課的前提下,盡量分享一些比較前沿的知識來作為補充。

為什麼說 NLP 將是未來數據領域的珠峰? 科技 第3張

訂購本課程可獲得專屬海報,分享專屬海報每成功邀請一位好友購買,即可獲得 25% 的返現獎勵,多邀多得,上不封頂,立即提現。

點擊 閱讀原文 ,免費試讀了解

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!