最近做字幕的時候發(fā)現(xiàn)一個通過聲音控制IE瀏覽器的方法。本來是要制作字幕的,后來想想如果純手工制作字幕的話那么效率肯定非常低,做為程序員,本能的想到了讓計算機來幫忙。做字幕就是從聲音識別出文字,然后在校對時間軸。很機械化的操作,非常適合計算機的來做。通過搜索很快找到了解決方案。使用Microsoft Speech SDK+Python+PythonWin。雖然微軟的語音識別引擎已經(jīng)很強大了,但是要用它來制作字幕還有很長的路要走。字幕做不成了,不過用它來操控瀏覽器還是錯錯有余的。發(fā)現(xiàn)使用語音功能操作IE瀏覽器還是非常方便,只要設置好語句,IE瀏覽器就可以自動進行相關的操作。
下面是我已經(jīng)實現(xiàn)的一些功能。(=>符號前面是你要說的話,后面是瀏覽器執(zhí)行的操作)
“顯示瀏覽器”=>打開瀏覽器,“谷歌”=>進入谷歌的頁面,“百度”=>進入百度的頁面,“優(yōu)酷”=>進入優(yōu)酷的頁面等等,“后退”=>返回上一個頁面,“最大化”=>最大化瀏覽器,“下拉”=>下拉網(wǎng)頁,“上拉”=>上拉網(wǎng)頁,“放大”=>放大網(wǎng)頁,“縮小”=>縮小網(wǎng)頁,“關閉瀏覽器”=>關閉瀏覽器。
搭建測試環(huán)境:
1.從微軟官網(wǎng)下載SpeechSDK51.exe和SpeechSDK51LangPack.exe
2.下載Python2.6+PythonWin+wxPython和啟動語音識別的腳本文件。從這里打包下載。
3.安裝SpeechSDK51.exe,SpeechSDK51LangPack.exe
4.安裝Python2.6,PythonWin,wxPython
5.運行開始菜單->所有程序->Python2.6— >PythonWin,選擇Tools -> COM MakePy utility -> Microsoft Speech Object Library 5.0
6.在控制面板的語音里面,在語言里選Microsoft Simplified Chinese Recognizer,在語音選擇里選Microsoft Simplified Chinese
環(huán)境搭建完成,運行SpeechGui.py腳本就可以來用聲音操控瀏覽器。不過由于Python+PythonWin的強大威力,不單單只有IE瀏覽器可以進行該操作,只要軟件能夠支持com的應用就都可以顯示語音操控,比如微軟的Windows Media Player,Word,Excel等軟件。強烈建議大家自己手動去發(fā)掘和制作更多有意思的功能。
新聞熱點
疑難解答
圖片精選