阿里云通義千問開源兩款語音基座模型-AET-電子技術(shù)應(yīng)用

阿里云通義千問開源兩款語音基座模型

識別效果優(yōu)于 OpenAI Whisper

日期： 2024-07-09

來源：IT之家

關(guān)鍵詞： 阿里云通義千問 SenseVoice 語音基座模型 CosyVoice

7 月 9 日消息，阿里云通義千問開源了兩款語音基座模型 SenseVoice（用于語音識別）和 CosyVoice（用于語音生成）。

SenseVoice 專注于高精度多語言語音識別、情感辨識和音頻事件檢測，有以下特點(diǎn)：

多語言識別：采用超過 40 萬小時(shí)數(shù)據(jù)訓(xùn)練，支持超過 50 種語言，識別效果上優(yōu)于 Whisper 模型

富文本識別：具備優(yōu)秀的情感識別，能夠在測試數(shù)據(jù)上達(dá)到和超過目前最佳情感識別模型的效果；支持聲音事件檢測能力，支持音樂、掌聲、笑聲、哭聲、咳嗽、噴嚏等多種常見人機(jī)交互事件進(jìn)行檢測

高效推理： SenseVoice-Small 模型采用非自回歸端到端框架，推理延遲極低，10s 音頻推理僅耗時(shí) 70ms，15 倍優(yōu)于 Whisper-Large

微調(diào)定制：具備便捷的微調(diào)腳本與策略，方便用戶根據(jù)業(yè)務(wù)場景修復(fù)長尾樣本問題

服務(wù)部署：具有完整的服務(wù)部署鏈路，支持多并發(fā)請求，支持的客戶端語言有 python、c++、html、java 與 c#等

與開源情感識別模型進(jìn)行對比，SenseVoice-Large 模型可以在幾乎所有數(shù)據(jù)上都達(dá)到了最佳效果，而 SenseVoice-Small 模型同樣可以在多數(shù)數(shù)據(jù)集上取得超越其他開源模型的效果。

CosyVoice 模型同樣支持多語言、音色和情感控制，該模型在多語言語音、零樣本語音生成、跨語言語音克隆和指令跟隨等功能方面表現(xiàn)出色。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

阿里云通義千問開源兩款語音基座模型

日期： 2024-07-09

來源：IT之家

相關(guān)內(nèi)容