Python讓你的電腦「開口說話」

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

Python讓你的電腦“開口說話”

前言

本篇文章主要介紹,如何利用Python來做到將文字轉成語音

將文字轉成語音主要有兩種不同的做到方法:一種是先將文字轉成語音,然後再通過讀取語音做到發音,一種是直接調用系統內置的語音引擎做到發音,後一種方法的做到主要利用第三方庫。

環境

  • Python版本:Anaconda 4.4.10
  • 操作系統:win10

注意:在使用第三方庫的時候,不同的操作系統和Python版本代碼可能有所差別。

調用api

可以調用第三方的語音合成api生成音頻文件,然後再播放音頻文件即可,這里我使用的是百度語音合成api。

1. 註冊帳號創建應用

在使用之前,需要先註冊一個百度帳號,然後再創建一個語音合成的api,需要拷貝AppIDAPI KeySecret Key後面調用接口的時候需要使用。

Python讓你的電腦“開口說話”

2. 調用語音合成接口

python調用百度語音合成api接口詳細文檔:http://yuyin.baidu.com/docs/tts/196

3. 安裝百度提供的Python庫

  • 如果已安裝pip,執行pip install baidu-aip即可。
  • 如果已安裝setuptools,執行python setup.py install即可。
from aip import AipSpeech
""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
result = client.synthesis('你好嗎?', 'zh', 1, {
 'vol': 5,
})
# 識別正確返回語音二進制 錯誤則返回dict 參照下面錯誤碼
if not isinstance(result, dict):
 with open('auido.mp3', 'wb') as f:
 f.write(result)

播放音頻文件

安裝playsound:pip install playsound

from playsound import playsound
playsound("auido.mp3")

利用系統內置語音引擎做到發音

1. Pyttsx

Pyttsx是一個跨平台將文字轉成語音的第三方庫,它對操作系統內置的語音引擎做到了包裝。

  • Pyttsx安裝
  • Python2:pip install pyttsx
  • Python3:pip install pyttsx3
  • 代碼
import pyttsx3
engine = pyttsx3.init()
engine.say("Good")
engine.runAndWait()

pyttsx默認使用的是讀取英文引擎,如果需要讀取中文時需要修改語言設置,不然可能會報錯或者無法發音,首先我們需要參考系統支持的語言類型和參數,通過以下代碼可以查看

engine = pyttsx3.init()
voices = engine.getProperty("voices")
for item in voices:
 print(item.id,item.languages)

Python讓你的電腦“開口說話”

可以看到ZH-CN的參數,表示的是中文,然後將代碼修改成如下即可

engine = pyttsx3.init()
engine.setProperty("voice","HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Sp
				eech\Voices\Tokens\TTS_MS_ZH-CN_HUIHUI_11.0")
engine.say("你好嗎?")
engine.runAndWait()

2. gTTS

gTTS可以將文字轉成語音進行保存為MP3格式,然後再讀取語音做到發音,它是通過調用Google提供的TTS服務來做到將文字轉語音的,因為需要調用Google的服務,所以需要翻牆,因為缺少環境所以下面的代碼是沒有測試過的。調用下面代碼的時候,需要設置在代碼中設置代碼或者全局代理。

from gtts import gTTS
import os
tts = gTTS(text="come on",lang="en")
tts.save("test.mp3")
os.system("mpg321 test.mp3")

如果需要生成wav格式的音頻文件,可以利用FFmpeg將MP3的音頻文件轉成wav格式。

操作系統內置引擎

利用win32com來調用Windows操作系統內置的語音引擎做到文字的發音

import win32com.client as win
speak = win.Dispatch("SAPI.SpVoice")
speak.Speak("come on")
speak.Speak("你好"

最近開通了微信公眾號,在微信公眾號上,分享了一些資料,搜尋”Python機器學習之路”關注我即可獲取,有什麼問題歡迎咨詢,大家一起學習相互提高。

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!