引言
語(yǔ)音端點(diǎn)檢測(cè)最早應(yīng)用于電話傳輸和檢測(cè)系統(tǒng)當(dāng)中,用于通信信道的時(shí)間分配,提高傳輸線路的利用效率.端點(diǎn)檢測(cè)屬于語(yǔ)音處理系統(tǒng)的前端操作,在語(yǔ)音檢測(cè)領(lǐng)域意義重大. 
但是目前的語(yǔ)音端點(diǎn)檢測(cè),尤其是檢測(cè) 人聲 開始和結(jié)束的端點(diǎn)始終是屬于技術(shù)難點(diǎn),各家公司始終處于 能判斷,但是不敢保證 判別準(zhǔn)確性 的階段. 
 
 
現(xiàn)在基于云端語(yǔ)義庫(kù)的聊天機(jī)器人層出不窮,其中最著名的當(dāng)屬amazon的 Alexa/Echo 智能音箱. 

國(guó)內(nèi)如雨后春筍般出現(xiàn)了各種搭載語(yǔ)音聊天的智能音箱(如前幾天在知乎上廣告的若琪機(jī)器人)和各類智能機(jī)器人產(chǎn)品.國(guó)內(nèi)語(yǔ)音服務(wù)提供商主要面對(duì)中文語(yǔ)音服務(wù),由于語(yǔ)音不像圖像有分辨率等等較為客觀的指標(biāo),很多時(shí)候憑主觀判斷,所以較難判斷各家語(yǔ)音識(shí)別和合成技術(shù)的好壞.但是我個(gè)人認(rèn)為,國(guó)內(nèi)的中文語(yǔ)音服務(wù)和國(guó)外的英文語(yǔ)音服務(wù),在某些方面已經(jīng)有超越的趨勢(shì). 

通常搭建機(jī)器人聊天系統(tǒng)主要包括以下三個(gè)方面:
語(yǔ)音轉(zhuǎn)文字(ASR/STT)
在將語(yǔ)音傳給云端API之前,是本地前端的語(yǔ)音采集,這部分主要包括如下幾個(gè)方面:
python 端點(diǎn)檢測(cè)
由于實(shí)際應(yīng)用中,單純依靠能量檢測(cè)特征檢測(cè)等方法很難判斷人聲說(shuō)話的起始點(diǎn),所以市面上大多數(shù)的語(yǔ)音產(chǎn)品都是使用喚醒詞判斷語(yǔ)音起始.另外加上聲音回路,還可以做語(yǔ)音打斷.這樣的交互方式可能有些傻,每次必須喊一下 喚醒詞 才能繼續(xù)聊天.這種方式聊多了,個(gè)人感覺(jué)會(huì)嘴巴疼:-O .現(xiàn)在github上有snowboy喚醒詞的開源庫(kù),大家可以登錄snowboy官網(wǎng)訓(xùn)練自己的喚醒詞模型.
考慮到用喚醒詞嘴巴會(huì)累,所以大致調(diào)研了一下,Python擁有豐富的庫(kù),直接import就能食用.這種方式容易受強(qiáng)噪聲干擾,適合一個(gè)人在家玩玩.
當(dāng)檢測(cè)到持續(xù)時(shí)間長(zhǎng)度 T1 vad檢測(cè)都有語(yǔ)音活動(dòng),可以判定為語(yǔ)音起始; 
當(dāng)檢測(cè)到持續(xù)時(shí)間長(zhǎng)度 T2 vad檢測(cè)都沒(méi)有有語(yǔ)音活動(dòng),可以判定為語(yǔ)音結(jié)束;
新聞熱點(diǎn)
疑難解答
圖片精選