人工智能訓練師:讓機器學會「通人性」

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

人工智能訓練師是一個全新的工種,他們制定數據標的規則,再將數據「喂」給機器人,對其進行「調教」、不斷優化,讓機器人「通情理、懂人性」,更好地為人類服務。

Shana是追一科技一名資深人工智能訓練師,她帶著對互聯網公司的文化和氛圍的喜愛,以語言學的學科背景「闖進」了人工智能領域,從數據標註成長為人工智能訓練師。在工作中,她賦予機器人「人格」,給企業客服配備了閒聊的服務功能,客戶可以跟它調侃、閒聊,讓它更通人性。

文、圖/廣州日報全媒體記者 李華

Shana是北方人,在北京待了三年攻讀研究生,專業學的是語言學。在北京讀書的時候,她曾在一家互聯網巨頭公司有過兩段實習經歷:一段經歷是做產品經理,另一段經歷是做數據標註。

人工智能訓練師:讓機器學會“通人性”

Shana

不想做老師要進互聯網

那時是2013、2014年。「當時數據標註是在NLP(自然語言處理)部門做的,算是開始接觸這個行業。」與局外人認知不同,數據標註並不是理工科學生的天下,反而是文科生施展拳腳的舞台。Shana觀察到,和她一同實習的小夥伴基本上是語言學背景的同學,「因為數據標註要求處理數據的時候比較細心,甚至有時需要一定的語言學背景知識」。

當時這份實習更多的是偏重具體操作,數據標註的規則已制定好了,實習生按步就班完成,沒有太多主觀能動性發揮的空間,「數據標註基於提供的語料,然後你在語料上做一定的處理,它的一個很重要的規則就是統一性。」

畢業之後,Shana又到香港進修了一年。之後,她到深圳工作。但那時其實AI還遠未像如今這樣如火如荼。她感覺「AI落地生花其實也是兩年前左右的事情」。剛剛畢業,Shana在深圳沒有發現非常對口的人工智能方面的崗位,偶然的一個契機,她在朋友的推薦下,前往追一科技面試,然後正式開始了數據標註的工作,從而打進了理工科學生的領域。

Shana的職業選擇並不是一時興起,她對自己有著清晰的認識。她本科學的是師范類的專業,那時她就意識到自己不太想做老師,而是對高科技的東西比較感興趣,於是最終她選擇了IT公司。

成為人工智能訓練師

工作後,Shana正式跨入人工智能領域,那時的她對技術的理解還比較淺,「我只是單純的從興趣出發,我學的是語言學,雖然不想做老師,但我還是希望自己的專業能夠有所用。」在他看來,數據標註是給機器人提供語料,這屬於機器人教育,它不是教人而是教機器人學習某個東西,這與她的專業相近,能讓她發揮所長。傳統語言學的研究一直處在一個不溫不火的狀態,但AI的興起讓我覺得傳統語言學有了一個 新髮展的方向——怎麼樣把語言學研究的成果應用到機器人的教育當中來。」這個方向其實也是Shana最感興趣的一個點。

傳統NLP需要詞性標註、語法樹的標註,這都可以用到語言學的一些東西,雖然用得比較淺,但是在深度學習領域可以怎麼用?她也在思考,「最近發現機器人智能化的表現是趨向於用對話來解決問題,而不是像以前需要點擊螢幕。智能化發展的一個方向是對話交互,那怎樣可以增加對話的輪次,讓機器好像有了主動意識,從而更好地做到人機交互,可以持續性地聊下去,這是一個難點。」比如,通過智能客服訂機票或是詢問某支基金的情況,這樣的應用場景就需要開展多輪對話,因為這樣相對複雜的業務流程不是簡單的對話就能完成。

Shana的工作主要是根據客戶的需求對數據進行標註。這通常跟項目有關,有金融類型的,也有互聯網的企業,也有傳統企業。她的工作范疇也遠超出數據標註,而是跨入人工智能訓練師的全流程作業——首先要跟客戶對接需求,明確要做一個怎樣的機器人,然後需要跟客戶去溝通訓練機器人語料的問題,這需要保質保量,之後對數據進行清洗,再制定規則進行數據標註和訓練機器人,這些都由AI訓練師來做。

Shana從數據標註自然而然轉身成為人工智能訓練師。在她印象中,人工智能訓練師其實也是大概兩年前的時候才誕生的新興職業,剛開始並沒有AI訓練師這個叫法,這個稱呼是從一家互聯網巨頭公司傳出來的。此後,人工智能訓練師成為特定的一個崗位,這也是大量需求背後促進社會分工進一步細化。

如今,人工智能訓練師成為一種炙手可熱的新職業,人工智能訓練師赫然出現在許多互聯網科技公司的招聘名單之中。甚至有城市向人工智能訓練師發出招賢令,獲得高級專項能力認證的人工智能訓練師有機會申請公租房及落戶加分等政策福利。

讓機器人更懂人性

人工智能訓練師的工作說通俗點,就是把機器訓練得更加「通情理、懂人性」,讓它更加適應人類。

比如關於態度情緒標註任務,標註類型是情緒厭惡,「我討厭你,你走開」和「哎喲,我討論你」(這是撒嬌的語氣),中文的文法表達多樣,主體詞組相同,而不同的語氣和聲調可能表達的意思卻有天壤之別。人類很容易辨別,那機器如何通人性,通懂得人類的情感呢?

Shana說,在這個例子中,兩組數據很明顯的區別在於是否有語氣詞,那麼針對這個特徵可以制定一個規則。如果將這個案例進一步延伸,可能會有更多類似的表達,但意思可能大不相同,這些人工智能訓練師往往通過詞語和句式兩方面加以區分,「你要理解機器學習,它最根本的是學習人類的文字表達,它最底層的邏輯就是統計,統計和概率沒有邏輯推理,所以你要從字面上去盡量找區別特徵,其實通過文字特徵已經可以解決大量的問題了。」

讓機器更通人性是人工智能訓練師的重要工作,但現在大背景是目前人工智能還處於弱人工智能時代,在業界,人工智能訓練師也處於嘗試階段,「像剛剛提到的情感分析,還有怎麼樣去賦予一個機器人性格,其實都是可以提升人性的。」Shana說,提升機器人性有兩個層次,好比人跟人對話溝通首先要理解,第二個才是表達。「理解這一塊之於機器人就是識別的準確率,所以訓練的第一步是要先提升識別準確率,機器人先要知道人說的是什麼,然後第二步才是表達方式。」具體到客戶需求,她會根據企業不同屬性和類別而做不同的訓練,她舉例說,金融行業的智能客服(機器人)會更加嚴肅一些,而互聯網企業可能就會比較活潑,對合作夥伴式表述風格可以更多樣,甚至可以用淘寶體,「所以針對不同的行業、不同的企業,它的表述的風格是可以不一樣的。」

為了讓智能客服更通人性,Shana還給企業客服配備了閒聊的服務功能,客戶可以跟它調侃、閒聊,「你可以問它今天天氣怎麼樣,你叫什麼名字,你是男生女生等等一些比較有意思的問題。」在人工智能訓練師的手筆之下,原本死板的機器增加了人性的感覺和元素,而不是只能回答專業問題。

「機器人通過敏感情感識別之後,它會根據用戶的狀態,做一些情緒安撫。」她說,在這個層次上,機器人對人類語言的理解超越說的話是什麼意思,而進入第二層次——理解你的情緒。機器人從人的語音、文字當中感知情緒,甚至感知人話語中是否有敏感的信息。她舉例說,出行行業的智能客服對車禍這類字眼或者事件會比較敏感,機器人也可以理解客戶的情緒,理解他目前的處境是否有危險。如果他有情緒的話,可以對他進行安撫,如果遇到車禍可以幫他緊急處理。「其實還是非常通情達理的一種方式。」

「我們的閒聊功能也會不斷增加機器人的一些技能,你為什麼喜歡跟這個人交流,其中一個因素就是這個人很博學,假如機器人的他能夠回答你的問題越多,你會覺得它很聰明,然後願意跟它交流。」Shana和其他人工智能訓練師會增加機器人寫詩、做對聯的功能,讓它更通人性。

文科生在AI領域揮灑才能

在行業浸染中,Shana摸爬滾打逐漸淬煉成「老兵」。「成為人工智能訓練師你需要具備數據分析能力、熟悉產品能力、溝通能力、對AI技術理解力以及行業背景知識。」Shana以文科生的身份進入,在工作中不斷去磨練技能,特別是數據分析能力。。

目前,Shana「調教」的機器人它主要應用到客戶咨詢、還款提醒、滿意度回訪等,「客服這個領域就比較確定,它是很明確的一個場景。智能客服應用最多是是金融領域,然後是電商。」

Shana看好人工智能訓練師的前景,「對這個崗位的需求量肯定是會越來越大的,因為AI時代確實已經到來了,現在全行業都在嘗試AI怎麼樣去落地,怎麼樣去跟當前的場景結合,這個結合都離不開技術,離不開數據,所以要訓練師的需求量肯定會越來越大。同時對訓練師的技能要求會越來越高。」

Shana以文科生的身份「闖進」人工智能理工科學生的天地,占據了一席之地,在人工智能訓練師這樣一個非技術類「新職位」中,文科生有了揮灑才能的機會。

「技術這一塊確實是還是理工科學生的天下,但是為算法模型提供數據,確實是文科生更加適合一些,尤其是涉及到一些對話交互這種比較細致的工作。文科理科在AI上都可以各展所長,共同促進社會的發展進步。「

廣州日報機動記者部出品

報料、投稿、轉載、合作等

請聯繫[email protected]

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!