尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
人工智能快速發展的今天,現在最高的境界是做到更好的人機對話,人機對話的第一步,就是讓機器學會「聽」和「說」。聽是聽從命令,更好的運行程序,是不斷追求準確度,說則是要讓機器人大腦也就是所謂的控制器有人性,有人味。
作為控制器最基本的能力之一,做到「聽」這一功能的語音識別技術研究經歷了從標準模板轉向基於統計模型再到深度神經網路的過程。說起聽的過程就不得不說語音識別,語音識別最難得在於嚴重地方口音的普通話,標準普通話的識別率已經不是問題,要識別體系做到方言識別,至少需要720小時的語料訓練,從聲音,內容再到說話者,都要不斷變化提升系統的敏感度。
要想讓機器人說話是一件很難的事情,要讓機器人說出有認味的話更是難上加難。聲學模型決定了語言的發音,每個字,系統都會在原始數據音庫中找到合適的發音,然後讀出來。要讓電子發音有人味,就要簡歷相應的發音庫。然後讓機器模仿出來。