【理論到操作實(shí)現(xiàn)】讓AI玩具機(jī)器人等智能硬件在嘈雜環(huán)境中只聽(tīng)我說(shuō)話
前言
本文分享的小聆AI相關(guān)的理論和聲紋技術(shù),主要是用來(lái)提升 AI 智能玩具、機(jī)器人等智能硬件在實(shí)際場(chǎng)景的語(yǔ)音交互體驗(yàn)。在用戶使用中通常會(huì)遇到這些問(wèn)題:1、身邊人交談干擾;2、用戶發(fā)音模糊;3、玩具碰撞聲、哭鬧聲等突發(fā)高頻噪聲易被聲學(xué) VAD 誤判為語(yǔ)音;4、呼吸聲、風(fēng)聲等高頻干擾導(dǎo)致語(yǔ)音失真。針對(duì)這些影響人機(jī)交互的常見(jiàn)問(wèn)題,小聆AI做了對(duì)應(yīng)處理,并在小程序端增加了單獨(dú)人聲慮噪的配置功能,大家按照文章中的步驟操作即可自主實(shí)現(xiàn)智能硬件對(duì)應(yīng)功能。下方視頻為實(shí)際人機(jī)交互場(chǎng)景中的率噪效果。
https://docs2.listenai.com/z/233.mp4
單獨(dú)人聲慮噪的實(shí)現(xiàn)理論
為保證AI玩具機(jī)器人等智能硬件在嘈雜環(huán)境中只聽(tīng)“我”說(shuō)話的效果,從以下幾點(diǎn)進(jìn)行了優(yōu)化:
1、 語(yǔ)音VAD優(yōu)化:消除非人聲噪聲,不響應(yīng)常見(jiàn)家居噪聲(如風(fēng)扇、電視等)
2、 聲紋過(guò)濾:對(duì)人聲進(jìn)行聲紋對(duì)比,只保留指定聲紋的音頻
3、 語(yǔ)義VAD噪聲過(guò)濾:分析上下文語(yǔ)義,用戶附和時(shí)不打斷播報(bào),用戶猶豫、停頓延長(zhǎng)拾音時(shí)間
實(shí)現(xiàn)步驟
1、 準(zhǔn)備一個(gè)語(yǔ)音交互硬件,可以是CSK6大模型開(kāi)發(fā)板、聆思Arcs mini大模型MCP開(kāi)發(fā)板、也可以是ESP32語(yǔ)音模組
2、 打開(kāi)“小聆AI”小程序,點(diǎn)擊添加設(shè)備,選擇對(duì)應(yīng)硬件按提示操作即可完成綁定進(jìn)行配置 (ESP32的開(kāi)發(fā)板可以選擇【開(kāi)源套件】)
3、 綁定成功后,進(jìn)入【語(yǔ)音識(shí)別配置】→【識(shí)別模式】→ 【僅識(shí)別已注冊(cè)聲紋的用戶】
識(shí)別默認(rèn)默認(rèn)為【所有人】
識(shí)別已注冊(cè)聲紋的用戶:在連續(xù)交互模式下,僅識(shí)別已注冊(cè)聲紋的用戶語(yǔ)音,如果只想讓AI語(yǔ)音只回復(fù)指定人可以選擇這項(xiàng)
識(shí)別喚醒設(shè)備的用戶:在連續(xù)交互模式下,僅支持喚醒設(shè)備的用戶繼續(xù)交互,其余人的語(yǔ)音將不會(huì)被識(shí)別 (可以理解為AI語(yǔ)音只回復(fù)用名字叫醒它的那個(gè)人)
4、 點(diǎn)擊【確認(rèn)】后,進(jìn)入聲紋注冊(cè)頁(yè)面,點(diǎn)擊【開(kāi)始錄音】,按文本讀完后點(diǎn)擊創(chuàng)建即可。
5、 聲紋創(chuàng)建成功后會(huì)進(jìn)入聲紋對(duì)應(yīng)的【編輯畫(huà)像】界面,這個(gè)頁(yè)面可以手動(dòng)填入聲紋主人的興趣愛(ài)好、需要AI長(zhǎng)期記憶的內(nèi)容。
畫(huà)像編輯完成后返回【識(shí)別模式】界面,選擇【僅識(shí)別已注冊(cè)聲紋的用戶】即可實(shí)現(xiàn)視頻中的效果。
小聆AI語(yǔ)音交互的更多資料和玩法實(shí)現(xiàn)參考
小聆AI詳細(xì)配置參考:https://docs2.listenai.com/x/S_TEd8h7C
零代碼克隆原神可莉?qū)崿F(xiàn)桌面陪伴參考: https://docs2.listenai.com/x/x7CVdoQI3
更多個(gè)性配置方法可以參考官方開(kāi)發(fā)文檔:https://docs2.listenai.com/x/S_TEd8h7C
CSK6大模型開(kāi)發(fā)板的硬件資料:https://docs2.listenai.com/x/nTn9kMMCU
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
89文章
37535瀏覽量
293277 -
聲紋
+關(guān)注
關(guān)注
0文章
24瀏覽量
4518 -
大模型
+關(guān)注
關(guān)注
2文章
3396瀏覽量
4874
發(fā)布評(píng)論請(qǐng)先 登錄

理論到操作實(shí)現(xiàn) 讓AI玩具機(jī)器人等智能硬件在嘈雜環(huán)境中只聽(tīng)我說(shuō)話
評(píng)論