日常溝通與文字最大的不同點在于我們擁有的語調(diào)與節(jié)奏,而谷歌最新的人工智能翻譯原型不僅能翻譯書面上的意思,連聲音的音調(diào)與節(jié)奏也能一并拿下,。
這個系統(tǒng)被稱為Translatotron,谷歌的研究人員在最近的一篇博客中詳細介紹了它的工作原理,。他們并沒有表示Translatotron很快就會進入商業(yè)領(lǐng)域,,但這很可能會實現(xiàn)。正如谷歌的翻譯主管今年早些時候向The Verge解釋的那樣,,該公司目前的目標是為其翻譯工具添加更多的細微差別,,創(chuàng)造更逼真的語音。
雖然捕捉人類聲音的變化對外行人來說是最令人印象深刻的,,但Translatotron對人工智能工程師的吸引力在于,,它可以直接將語音從音頻輸入轉(zhuǎn)換為音頻輸出,而無需將其轉(zhuǎn)換為通常的中間文本,。
這種人工智能模型被稱為端到端系統(tǒng),,因為輔助任務(wù)或操作沒有停止,。谷歌說,讓端到端的翻譯更快地產(chǎn)生結(jié)果,,同時避免了在多個翻譯步驟中引入錯誤的風險,。
更有趣的是,模型處理的數(shù)據(jù)不是原始音頻,。相反,,它使用光譜圖數(shù)據(jù),或聲音的可視化詳情,。從本質(zhì)上說,,這意味著我們相當于在用圖片的形式把一種語言翻譯成另一種語言,這令人難以置信,。
盡管谷歌經(jīng)常推出新語言和翻譯工具,,但它們的表現(xiàn)往往不如預(yù)期那樣,包括現(xiàn)在這個人工智能模型,,其適應(yīng)性和準確性仍有待考究,,但人工智能一直在前進,未來也將會越來越好,。
本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]。