2016年4月參加了哈爾濱工業(yè)大學(xué)深圳研究生院舉辦的創(chuàng)新創(chuàng)業(yè)比賽,司職算法組長(zhǎng),切入點(diǎn)定在了音色識(shí)別和相似明星音才藝展示推薦算法上,不才,拿到了一等獎(jiǎng),趁佳節(jié)未散與大家分享。
2016年1月~2016年3月:前期工作中了解學(xué)習(xí)了語音信號(hào)處理的基本原理,查閱有關(guān)文獻(xiàn)了解到了聲音音色信息的描述方式,梅爾(Mel)倒譜系數(shù)的意義,推導(dǎo)了相關(guān)公式并實(shí)現(xiàn)了MFCC(Mel Frequency Cepstral Coefficient)參數(shù)的計(jì)算,閱讀并了解了有關(guān)說話人識(shí)別,音色識(shí)別和MFCC參數(shù)的相關(guān)應(yīng)用情況。
2016年4月~2016年6月:后期工作中組內(nèi)部分成員同軟件組(還是什么組?)共同合作完成了由算法向?qū)嶋H應(yīng)用的轉(zhuǎn)化,另一部分成員進(jìn)行了后續(xù)的算法優(yōu)化,添加了噪聲預(yù)處理環(huán)節(jié),并期待利用支持向量機(jī)(SVM),K-均值聚類(K-means)等機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)更好的音色識(shí)別效果。
在MFCC參數(shù)提取方面,我們遵循[1]中所述的計(jì)算流程,編程實(shí)現(xiàn)了對(duì)一段語音的MFCC參數(shù)提取:
具體的編程環(huán)節(jié)這里暫時(shí)不介紹,從Mel刻度轉(zhuǎn)換后我們得到的MFCC參數(shù)多達(dá)40余個(gè),為了避免特征泛化導(dǎo)致識(shí)別率降低,我們需要對(duì)這些特征進(jìn)行篩選。還好這個(gè)工作已經(jīng)有人替我們完成[2],通過離散傅里葉變換(DCT),我們可以得到需要的C2~C16的特征值作為說話人的音色描述子。用了別人的工作,我們還應(yīng)該本著嚴(yán)謹(jǐn)?shù)膽B(tài)度對(duì)其進(jìn)行驗(yàn)證。這里我們?cè)O(shè)計(jì)一個(gè)二類分類實(shí)驗(yàn),利用SVM來進(jìn)行音色描述子優(yōu)劣的描述。利用現(xiàn)有數(shù)據(jù)庫的測(cè)試數(shù)據(jù),我們實(shí)現(xiàn)了如下的測(cè)試結(jié)果:

SVM十次十折實(shí)驗(yàn)利用MFCC參數(shù)作為特征可實(shí)現(xiàn)97.5%的識(shí)別準(zhǔn)確率。
SVM再處理多類分類問題時(shí)存在著運(yùn)算速度和效率上的限制,從這一點(diǎn)考慮,我們先使用了最簡(jiǎn)單的最小歐式距離法進(jìn)行識(shí)別,該算法在小參考集下運(yùn)算速度較快,但大參考集時(shí)運(yùn)算耗時(shí)會(huì)嚴(yán)重增長(zhǎng),為了解決這個(gè)問題,我們提出了使用K-means聚類+最小歐式距離結(jié)合的方法,利用聚類算法,將大型的數(shù)據(jù)集分成若干個(gè)小的數(shù)據(jù)集,并且以聚類中心作為該集合的label,識(shí)別過程中首先進(jìn)行類間匹配,接下來再進(jìn)行類內(nèi)匹配。
算法上的項(xiàng)目創(chuàng)新點(diǎn)有二:
其一,首次使用MFCC參數(shù)作為歌手的識(shí)別推薦系統(tǒng)下,需要解決很多噪聲處理和歌手特征提取的難題;
其二,在識(shí)別過程中采用了無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)結(jié)合的方法,加快識(shí)別速度。目前采用的特征還只是MFCC參數(shù)這一個(gè)角度,特征的類型較為單一,在未來的研究中,可以增加一些更為有效的特征作為音色的描述,同時(shí),可以引進(jìn)更大的標(biāo)準(zhǔn)數(shù)據(jù)庫,在互聯(lián)網(wǎng)上利用爬蟲等數(shù)據(jù)挖掘手段收集更多的明星聲音來擴(kuò)充我們的標(biāo)準(zhǔn)庫。作為一款?yuàn)蕵窇?yīng)用,這個(gè)APP已經(jīng)具備了初步市場(chǎng)化的能力,但是一首歌終究還是由音色,音調(diào)和節(jié)奏等多方面組成,我們推薦結(jié)果的好壞是一個(gè)取決于APP使用者很主觀的評(píng)價(jià)準(zhǔn)則。如何實(shí)現(xiàn)APP的可持續(xù)發(fā)展,如何讓APP保持活力,維持用戶數(shù)量和用戶活躍度等等都是很不確定的因素。
[1]http://PRacticalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/#deltas-and-delta-deltas
[2]甄斌,吳璽宏,劉志敏,遲惠生. 語音識(shí)別和說話人識(shí)別中各倒譜分量的相對(duì)重要性[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2001,03:371-378.
展示一下最后APP的結(jié)果:

以及移動(dòng)端的邏輯關(guān)系:

新聞熱點(diǎn)
疑難解答
圖片精選
網(wǎng)友關(guān)注