ppyppav,天天摸天天碰天天弄天天爽

【拆·應用】是為開源鴻蒙應用開發(fā)者打造的技術分享平臺，是匯聚開發(fā)者的技術洞見與實踐經(jīng)驗、提供開發(fā)心得與創(chuàng)新成果的展示窗口。誠邀您踴躍發(fā)聲，期待您的真知灼見與技術火花！

引言

本期內容由AI Model SIG提供，介紹了在開源鴻蒙中，利用sherpa_onnx開源三方庫進行ASR語音識別與TTS語音合成應用開發(fā)的流程。

ASR/TTS介紹

ASR也就是自動語音識別（Automatic Speech Recognition），其主要作用是把人類語音里的詞匯內容轉變?yōu)橛嬎銠C能夠讀取的文本形式。

TTS也就是文本轉語音（Text-to-Speech），它主要的功能是把計算機里以文本形式存在的信息轉變成人耳可聽見的語音。

ASR/TTS有著廣泛的用途，例如語音助手聊天、設備控制、新聞播報、有聲閱讀等。

Sherpa_onnx介紹

sherpa-onnx是一個開源語音處理工具包，具有輕量級、跨平臺和高性能的語音識別推理能力。它基于ONNX Runtime，支持CPU/GPU加速，且內存占用低、延遲小，適合實時流式語音處理。它兼容多種端到端語音模型（如Transformer、RNN-T），提供簡潔的C++/Python API，并支持動態(tài)斷句和流式識別，開箱即用。相比傳統(tǒng)方案（如Kaldi），sherpa_onnx依賴更少、部署更簡單，特別適合移動端、離線語音助手、實時字幕等場景兼顧效率與易用性。

sherpa_onnx已經(jīng)移植到開源鴻蒙，直接支持ArkTS接口，本示例用到的接口如下：

開發(fā)準備

1.環(huán)境搭建：確保安裝了ArkUI開發(fā)所需的IDE，如DevEco Studio，并配置好相應的開發(fā)環(huán)境，包括SDK（本示例Api11及以上）版本等。

2.了解ArkUI框架特性：熟悉ArkUI的布局和組件使用方法，例如文本輸入框用于接收用戶輸入，按鈕組件用于觸發(fā)ASR語音識別操作等。還要了解ArkUI的數(shù)據(jù)綁定機制，方便將ASR識別結果和TTS合成狀態(tài)等信息實時顯示在界面上。

示例界面設計

底部欄：語音采集與文本輸入切換按鈕，點擊切換。

中間區(qū)：文本顯示區(qū)，呈現(xiàn)識別后文本和輸入內容。

頭部欄：標題、語音播放按鈕（播放中間區(qū)域文本）、設置按鈕（語速設置和聲音模型切換）。

示例功能邏輯

示例基于sherpa_onnx三方庫開發(fā)，此庫在OpenHarmony三方庫中心倉下載安裝，鏈接如下：

https://ohpm.openharmony.cn/#/cn/detail/sherpa_onnx

以下所展示的是本示例的流程圖，該流程圖涵蓋了從Vad聲音活動檢測的初始化階段，音頻采集器與渲染器初始化過程，接著是ASR（自動語音識別）模型和TTS（文本到語音）模型的加載，直至最終成功實現(xiàn)語音識別與語音生成的流程。

ASR模型解析核心實現(xiàn)

1.初始化Vad

Vad聲音活動檢測（Voice activity detection），也稱為語音活動檢測或語音檢測（speech activity detection或者speech detection），是檢測人類語音存在與否的技術，主要用于語音處理。Vad的主要用途在于說話人分割（speaker diarization）、語音編碼（speech coding）和語音識別（speech recognition），初始化vad過程如下：