尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
作者 | William Vorhies
翻譯 | Mika
本文為 CDA 數據分析師原創作品,轉載需授權
2018年剛剛結束,在2019年到來之際,讓我們一起展望在今年數據科學、機器學習和人工智能領域會有怎樣的發展趨勢。
首先讓我們快速回顧一下,去年我們曾做出了哪些預測。
2018年預測回顧
預測1
模型生產和數據準備都將越來越自動化。
大型的數據科學操作將集中在一個平台上。這樣做的初衷是為了提高效率,從而讓更少的數據科學家完成更多工作。
結果
預測正確。 無需的數據科學和端對端集成平台都處於上升發展階段。
預測2
數據科學將繼續專業化,意味著全棧型數據科學家將逐漸消失。
結果
如今,比起數據科學家,數據工程師更受關注。數據工程師是那些讓數據科學模型在現實中發揮作用的人。
預測3
非數據科學家將比數據科學家執行更多複雜的分析。
結果
這是真的。Data Viz和Visual Analytics等技術作為橋梁,讓非數據科學家能夠從複雜的數據科學工具中獲取更多價值。
預測4
深度學習很複雜,很少有數據科學家掌握剛領域的技能,這將阻礙人工智能的應用,除非深度學習平台變得更為簡化和產品化。
結果
微軟和Google都在2018年推出了自動化深度學習平台。這些平台從轉移學習開始,正朝著完整自動化深度學習發展。同時也還有一些集成自動深度學習平台。OneClick.AI有完整的自動化機器學習和自動化深度學習平台。
預測5
盡管有大肆宣傳和炒作,但人工智能和深度學習在各大市場中滲透的速度和廣度都比你想像更慢更窄。
結果
除了聊天機器人的出現,人工智能在商業中的實際應用非常有限。有研究表明,在大型公司中,只有五分之一到三分之一的公司在大規模實施人工智能。在較小的公司中,這個比例要小得多。而且我們不確定那是否是「真正的」人工智能。
預測6
政府將開始認真看待人工智能對社會和隱私的影響,無論是有意還是無意。
結果
只要看到這方面的新聞就會發現,政府在針對這方面出台相關的監管機制,對人工智能設計的隱私等方面進行規定。
我們對2018年的預測基本正確,當中有些預測趨勢也可以用於新的一年。下面繼續看到對2019年數據科學、機器學習和人工智能領域的預測。
2019年預測
預測1:數據變得比算法更重要
我們已經有一年多沒在深度學習和機器學習方面取得任何重大突破了。當中也有一些漸進式的改進,比如使用時間卷積網(TCN)而不是RNN來減少NLP的延遲,但沒有很大的新創新。性能最佳的算法很有名,或者可通過自動機器學習輕鬆發現。
目前,隨著公司開始做到數字化轉型,擁有更多更好的數據是成功的關鍵。實際上,這為同時為多個方向提供數據相關解決方案的提供了競爭機會。
一個方面,獲得準確標記的圖像或文本的訓練數據仍然非常昂貴且耗時。Figure Eight這樣專注於標記數據的公司正在推廣智能的成本效益策略,比如Active Learning,讓你在標記數據和模型準確性之間取得最佳權衡。這涉及多次迭代,添加人工標記或機器標記的數據,然後重新訓練以找到最佳方案。
第二個方面是訪問第三方數據。像DymstData這樣的服務公司已經進入該領域,作為數百種附加數據的結算方。他們還承擔著確保敏感PII受到保護等服務,這些信息在金融和醫療服務中尤為重要。
第三個方面是自動跟蹤並記錄模型中使用數據的來源。特別是當不同來源的流數據被集成,且隨時間變化時,知道其來源以和使用方式對準確性和合規性都是至關重要的。Tibco和其他分析平台正在整合此功能。圍繞數據的服務產品在今年將大幅擴展。
預測2:人工智能和機器學習將從分析平台轉移到行業或流程特定應用
縱觀人工智能和機器學習創業公司,可以看到競爭正在轉向行業或流程特定的應用。這些應用程序或小型平台主要解決市場行銷、B2B銷售、醫療保健、金融技術等行業特定問題。
這些新應用程序專注於嵌入人工智能和機器學習,從而企業在進行更新和改進時,只需依賴這些開發人員,而無需大型內部數據科學家團隊。
有人將這稱之為人工智能和機器學習商品化,但更準確地說,你可以將其視為人工智能和機器學習的專業化。
如果你熟悉90年代後期從流程再造(Reengineering)到企業資源計劃(ERP)的過渡,其實這是一回事。最初,流程再造呼籲公司使用複雜的定制IT解決方案來改進流程,因為當時還不存在標準化解決方案。這為Oracle、PeopleSoft、SAP等採用集成ERP的企業帶來了機遇。我們的行業目前正在經歷同樣的變化。
這些新的企業都致力於在各自特定領域提供廣泛的解決方案,但不可避免地最終得到不太大的ERP規模平台。
還要注意中小型公司中人工智能和機器學習的採用率,這些公司不再需要大型數據科學團隊,而可以完全依賴定制的開發模型。
預測3:數據工程師和數據分析師的崛起
這並不是說數據科學家已經不受歡迎了,遠非如此。當缺乏某種技能人才時,市場會以不同的方式填補這種短缺。
一種方法是通過上文討論的行業和流程特定智能應用,有了這些應用程序就不需要大量的數據科學家;
第二種方法是通過自動機器學習平台。這意味著效率的提高,更少的數據科學家能夠完成更多的工作。
模型的數量沒有減少,而是增加了,這將工作負荷轉移到具備兩方面技能的數據工程師上。
第一是能夠創建數據科學所需的基礎架構,如數據湖和Spark實例;
第二是採用模型,確保模型在操作系統中做到,並跟蹤模型的準確性和更新。
一些數據工程師還負責數據操作,確保數據流乾淨和預處理環節。
分析平台的另一個發展是視覺分析和數據可視化工具的發展。如今,這些工具大多與數據科學工具集完全集成,讓數據分析師和高層能從中提取更多價值,甚至指導分析工作。他們不會取代數據科學家,但強化了高級分析中的團隊作用。
預測4:神經形態晶片:人工智能助力物聯網走向前沿
這兩種不同的技術同時達到半成熟階段,從而解決長期存在的延遲問題。
例如,當你想用移動設備自動將文本或圖像外來詞翻譯成其他語言時,你的設備將信號發送到雲端進行翻譯,然後傳回設備。
Google等即時翻譯服務已經從RNN轉為專門的CNN結構,稱為時間卷積網。因為RNN 不能很好地適應大規模並行處理,而CNN可以。這樣能夠減少延遲,但仍然保證信號的完整傳輸。
解決這個問題的兩種技術之一是5G網路。5G速度更快,但其真正的好處是能夠承載的流量密度。這能夠讓一切信息都能在互聯網上傳輸,具體的傳輸量還有待觀察。
第二種解決方案是引入新的且更好的神經形態晶片(又稱脈沖神經網路)。我們希望這些全新的神經網路能夠做到通用人工智能,雖然這還有很長的路要走。
如今,主要的晶片製造商和幾家初創公司都在發布現在正在發布脈沖神經晶片,專門針對晶片上的CNN和RNN型號進行了優化。其中一些還針對極低功耗進行了優化。
這些特性結合在一起非常適合將深度學習轉移到網路邊緣的晶片上。從今年開始,隨著這些新功能的出現,物聯網和其他流媒體數據應用程序將出現爆炸式增長。
預測5:不同的人工智能框架將能夠相互溝通
隨著文本、語音、圖像和視頻模型已成為主流,我們遇到了意想不到的障礙。在一個框架(Caffe2、PyTorch、Apache MXNet、Microsoft Cognitive Toolkit和TensorFlow)上構建的模型無法輕鬆移植到不同的框架。
不過這個痛點也推動了創新。AWS、Facebook和Microsoft合作構建了開放式神經網路交換(ONNX),使模型可以在不同的框架上做到相互操作。
隨著開發人員、應用程序和設備之間共享的模型數量越來越多,ONNX將成為今年的關鍵技術。
結語
以上就是2019年數據科學、機器學習和人工智能領域的相關預測。讓我們拭目以待,期待這些領域在今年的發展和創新。
https://www.datasciencecentral.com/profiles/blogs/5-predictions-about-data-science-machine-learning-and-ai-for-2019