尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
李根 乾明 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
潮水轉關,並非毫無徵兆。
不知道AI落地趨勢變化是否已讓你感知?2018年下半年開始,技術先發正在被產品、場景為王替代。
之前,打造通用AI技術公司風頭無兩。如今,垂直化場景公司拿起AI武器,數據和場景加速轉換為勢能。
今天要講的是一樁在線教育領域的AI變革。
一起作業 → 一起教育科技
一起教育科技,之前更為大眾知的是一起作業,一家主打K12進校的教育公司,提供的是互聯網在線作業和練習系統。
從2018年起,升級更名,以一起教育科技行世。
名頭更大,意味著想得更大、做得更多,更多科技賦能產業。
而這個科技,最核心的就是AI,唯有AI,才能做到他們智能化教育的目標。
實際上,在E輪2.5億美元融資之前,他們就已於2017年年末組建了AI團隊,並從微信團隊挖來負責人。
即便「一起」搞AI算不上早,但也並非沒有優勢。
歷經7年創業,用戶規模7900萬,K12領域的數據資源更是壁壘深厚。
這不,牛刀初試便鋒芒外露。
去年下半年,他們對外推出一款AI口語評測引擎,用於K12領域口語測評打分。
之前,行業內有技術領域出發的先發產品,涵蓋訊飛、思必馳、雲知聲和騰訊等玩家。
但一起這個引擎,一出手便展現場景公司威力——在橫向對比中,擊敗所有同類項。
How?
亮結果
一起教育科技展示了由業內教育專家組織的評測結果。
評測涉及兩個方面,分別是句子層面和單詞層面,核心指標是分數分布和分差分布。
分數分布指的是口語評測引擎為樣本打分的情況。分差分布代表的是引擎打分與人類專家打分的差。
在分數分布上,一起教育科技的引擎在單詞和句子上的打分,與其他各家更趨近人類專家的水平。
分差分布上,一起教育科技自研的引擎表現也很亮眼。
在單詞層面,分差在0~1之間的概率近70%。
句子層面上,分差在0~1之間的概率達到80%,比排在其後的競品高出10個百分點。
一起教育科技透露,整個評測過程實際也是「人機大戰」:
- 首先是從數據庫中隨即抽取1000個語音樣本,有詞,有短語,也有句子。
- 其次邀請兩位人類專家雙盲交叉評分(8分制),並力爭一致性在90%以上。
- 同時進行的還有各家AI對該評測數據的打分。
- 最後比較AI給分和人類專家給分的分差——分差越小,AI引擎越好。
- 於是有了這份結果。
為什麼要這樣測?
一起教育科技方面解釋,一方面是基於K12教學大綱進行考察,要涵蓋音素準確率、內容完整度、流利度、重音、 韻律(語調,停頓)等。
另一方面符合國人學英語的習慣,如果AI引擎直接按照標準國際口語打造,最後就會與人類專家打分出入很大——國情和語言環境所限,AI評測首要問題是「聽懂」,才能精確打分。
這實際上並非輕而易舉。
達成如此結果,背後不僅有一支類似教AlphaGo下棋的圍棋國手們,也有一支50多人規模的AI作戰團,且整個打造過程歷時2年之久。
為什麼這麼久?
模型打造挑戰
口語測評與語音識別等一般的機器學習問題不同,是一個主觀性的問題,需要考慮到評分的標準,以及評分的一致性。
這對於模型的穩定性提出了更高的要求。尤其是在作業和考試場景,對打分的準確率要求更高。
種種因素決定,自研口語測評引擎,並不能簡單地將通用聲學模型搬來套用,而是要針對具體場景構建模型。
相對於其他各家來說,一起教育科技的口語測評引擎,不論是在模型上、標準上,還是在訓練數據上,都更加專注於K12教育場景。
口語測評的任務中,語音對應的文字,引擎是事先知道的,其關鍵任務就是給用戶的語音做一個精確的評價。
通常情況,語音識別的聲學模型,都是基於音素(phoneme)來構建的。
但進行口語測評,對用戶的發音要求比較高,如果單獨看某些音素(清輔音),並不能準確給出評估。
一起教育科技的解決方案是,構建基於音素和音節(syllable)的聲學模型,對於無法單獨評估的因素,將其置於音節之中,結合場景給出評估。
在評估發音準確度方面,業界通常採用的是GOP (Goodness of Pronunciation) 算法。
這一算法的核心,是計算用戶發出的語音與系統已知文字對應的可能性。可能性越高,發音就越準確。
這個可能性,就是系統已知發音和未知發音的似然比(likelihood ratio)。
似然比的計算,通常基於聲學模型。大部分成熟的聲學模型,使用的訓練數據通常都是都是英語為母語的人的錄音。
對於發音水平較好的學生,GOP算法能夠給出一個相對準確的評估。
但對於發音較差、中式英語痕跡很重的學生,其似然比區分度很低,這個算法就很難奏效。
對於這個問題,一起教育科技採用兩個解決辦法。
首先是訓練模型的數據,來自於自己收集的作業數據,經由教研團隊仔細標註。目前,一起教育科技已經積累了萬小時級別的口語數據集。
其次是評分標準,只是將GOP算法作為其中的一個維度。在構建評分決策樹中,集成了更多其他符合K12教學場景的特徵。
比如長元音和短元音應該怎麼去分析、音素錯誤的位置對評分產生什麼樣的影響,等等。
這些特徵,由教研團隊從教學大綱和口考標準中提煉而出,既符合教學目標,技術上也有可行性。
評分標準更加細化,也減少了模型訓練時對數據的需求。目前,口語測評引擎已經融入到了一起教育科技的產品之中。
一起教育科技介紹稱,引擎每天承接的請求量達到億級,用戶對於引擎打分不準的建議率在萬分之幾的水平。
將AI融入「血液」
不過,這只是序幕而已。
一起教育科技的壯志雄心,不止於口語測評。2017年,「一起」從微信模式識別中心挖來饒豐組建AI團隊,當時就有短中長規劃。
第一步,先從語音是識別入手,解決英語學科測評打分的老師痛點。
第二步,圍繞圖像領域展開,推出口算拍照等產品,且對數學試題中的「邏輯」能有清晰理解。
此外,還有推薦引擎機制,通過智能化推薦方式,做到千人千面、因材施教,讓學生在測試中不斷完善短板。
目前,一起教育科技已經組建起一只能打好用的AI團隊。
未來目標是能夠打造完美AI助教,讓AI真正做到賦能教育。
優勢也很明顯,在「一起」,教育場景能不斷給AI模型反饋,而AI則能第一時間落地作用於教育,循環往復,生生不息。
當然,對於一起教育科技來說,AI只是「科技」的一部分。
去年第四季度,他們從奇虎360挖來前搜尋事業部總經理楊康擔任技術總負責人,負責將公司進一步科技化,打造K12智能教育平台。
△楊康
這位前360的No.53號員工,擁有十多年的研發及業務管理經驗。
他說,一起教育科技,教育在前科技在後,「一起」的核心著力始終是教育,但科技會是最佳手段,能夠幫助教育不斷提升效率降低成本。
除了AI團隊,一起教育科技還有大數據等團隊,希望把7年深耕教育獲得的數據更好歸因、分類,然後更好使用。
在楊康看來,目前教育最大問題並不是內容匱乏,而是很難給每個孩子找到適合自己情況的學習方式與思維方式。
AI與大數據的結合,能夠很好地解決這個問題,這能夠為每個學生打造一個「私人助教」,而 非「大班制教學」走馬觀花式學習。
在他們內部,首先是數據帶動信息化,其次是AI等模型引擎作用其中,最後以智能化產品發揮更大價值。
毫無疑問,這也會是整個教育行業的趨勢。
這個趨勢已經開始,這個趨勢不會停止。
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI · 頭條號簽約作者
վ’ᴗ’ ի 追蹤AI技術和產品新動態