2月13日,,預(yù)熱許久的小米10終于正式登場,。由于肺炎疫情,這場發(fā)布會采用了純線上直播的模式,,但這絲毫不影響它極高的關(guān)注度,。作為國內(nèi)首款驍龍865旗艦,小米10實現(xiàn)了自我突破,,帶來了不少驚喜,。
除了驍龍865處理器、LPDDR5內(nèi)存等亮眼的參數(shù)信息外,,小米自研AI技術(shù)展現(xiàn)出的成果同樣值得關(guān)注,,它們已經(jīng)滲透到小米產(chǎn)品上的各個角落,對相機,、系統(tǒng),、語音等多個方面的使用體驗都產(chǎn)生了深遠的影響。
小米AI語音,,變得更強了,!
1、小米語音AI技術(shù)在快速普及
2017年7月的一場小米發(fā)布會上,,小米AI音箱正式發(fā)布,,小米開啟了自研語音AI技術(shù)在市場上的試水。
短短兩年多的時間,,小米自研的語音AI技術(shù)已經(jīng)滲透到各個類型的小米產(chǎn)品中,,除了智能音箱,小米手機,、小米電視,、小愛老師等小米產(chǎn)品都配備了“小愛同學(xué)”。集成了小米語音智能助理的設(shè)備,,通過語音這種新交互方式讓產(chǎn)品使用起來更加便利,。
語音交互解放了用戶的雙手,降低了學(xué)習(xí)成本,、提升了用戶體驗,,而且增強了產(chǎn)品的競爭力。
2,、小米10上的智能助理,,更有看點
目前來說,,智能手機上的語音助手發(fā)出的語音都是人工合成的,基本不會提供個性化的服務(wù),,實際使用起來難免感覺機械和不自然,,和真人發(fā)出的聲音差距還是比較大的。
而小米10上的一大驚喜就是配備了個性化語音合成服務(wù),。它采用了最新的合成技術(shù),,用戶只需要在安靜環(huán)境下錄制少量的聲音樣本并上傳,服務(wù)器進行識別,、訓(xùn)練并建模后,,就能獲得定制化的AI語音助手了。
別人手機的語音助理發(fā)出的語音千篇一律,,而小米手機上的小愛同學(xué)卻能做到千人千音,,感覺就像手機里有一個真人助理一樣。
3,、AI語音技術(shù)上,,小米展現(xiàn)了哪些功力?
市面上主流語音合成技術(shù)有很多不足,,具體表現(xiàn)為發(fā)出的語音過于機械,,像機器人說話一樣,還有就是在中英文混合語音中,,雙語切換的停頓節(jié)奏,、過度感覺也不自然等。
小米10上的個性化語音合成服務(wù),,則瞄準了這些問題進行改進,。具體來說,它的實現(xiàn)過程可以分為這么幾步,。
首先,,用戶要在安靜的環(huán)境下錄制目標聲音;
然后,,系統(tǒng)會對采集到的聲音信息進行降噪,、檢錯等處理;
接著,,處理完的目標聲音會被提取特征,;
最后,小米云端服務(wù)器將收集到的信息進行在線模型訓(xùn)練,、部署,,生成語音合成引擎。
這個技術(shù)過程看起來比較清晰,但存在很多難點,。例如,,它對目標聲音的數(shù)據(jù)質(zhì)量要求比較高,,在線訓(xùn)練模型費時費力以及小數(shù)據(jù)量能否訓(xùn)練出滿意的效果,。
不過,小米已經(jīng)完美地解決了這些問題,,模型訓(xùn)練耗時大大縮短,,用戶完成整個過程只要20-30分鐘,此外,,它的合成效果穩(wěn)定,,甚至沒有英文語料的情況下,也能合成簡單的英文語音,。
AI加持,,小米10把相機玩出了新花樣
相機方面的提升是小米10系列最重要的賣點之一,1億像素,、四顆后置鏡頭等都吸引了無數(shù)人的關(guān)注,。除了硬件上瘋狂堆料外,小米10的相機也展現(xiàn)出了軟件算法上的功力,。
1,、小米10換天更強了
小米CC9的“一鍵換天”功能得到了很多用戶的歡迎,照片拍好后,,只需要在編輯選項中輕輕一點,,就能把照片中的天空換成自己想要的效果,例如晴天,、夕陽,、暮光等。
這次小米10換天功能在之前的基礎(chǔ)上,,新增了雨天和雪天,,更為強大。從小米的演示對比來看,,它在和各類第三方APP PK中大獲全勝,,換天效果非常自然,基本能達到以假亂真的程度,。
小米10換天功能背后,,是小米在視覺成像技術(shù)上的持續(xù)投入。MIUI 10推出時,,就帶來了AI自拍虛化的功能,,單攝相機也能有人像虛化效果,就是通過出色的算法實現(xiàn)的。
小米把之前自拍虛化的算法經(jīng)驗和技術(shù)運用在了換天功能上,,標注了數(shù)萬張實際拍攝的天空圖片進行訓(xùn)練,,并且優(yōu)化天空分割模型,最終達到了現(xiàn)在的驚人效果,。不得不說,,實際采集樣張,用AI技術(shù)來訓(xùn)練模型,,相當(dāng)費時費力,,需要長期投入大量的成本。
當(dāng)然,,這種算法對成像的幫助,,也不是一般軟件優(yōu)化所能比的。其實,,憑借著出色的成像效果秒天秒地的谷歌Pixel系列,,在相機算法上,也是通過實際樣張采集訓(xùn)練AI模型的思路,。這方面,,小米和谷歌想到了一起去。
2,、拍vlog也能一鍵搞定
短視頻的蓬勃發(fā)展讓vlog流行起來,,但一般人想要剪出很酷很精致的vlog并不容易。首先,,視頻后期比圖片要復(fù)雜,,而且vlog制作還涉及音樂、字幕,、特效等,。
而小米已經(jīng)敏銳地意識到用戶的需求,投入了多個團隊來幫助大家搞定入門vlog,。簡單來說,,它優(yōu)化了這么幾個方面。
首先,,自動運鏡功能讓用戶不動手機也能有出色的效果,,不需要學(xué)習(xí)滑軌、手搖等很專業(yè)的技能,。不過具體實現(xiàn)過程中,,技術(shù)難度不小。
自動運鏡時,,視頻每一幀的角度要精準匹配,,還要對4K分辨率的數(shù)據(jù)做實時的縮放、轉(zhuǎn)場等計算,對算法的精度有很高的要求和考驗,。小米AI實驗室通過算法優(yōu)化和調(diào)校,,把CPU、GPU,、解碼器等多個計算單元結(jié)合,,“榨干”了手機的計算性能。
另外,,語音轉(zhuǎn)字幕這個功能也值得點贊,。給視頻手動加字幕非常麻煩,有了語音AI技術(shù)后,,小米手機就能把錄制視頻里的語音自動轉(zhuǎn)為文本字幕,幫vlog制作者省了很多事情,。
3,、文檔掃描這件“小事”,小米10做到了極致
小米10相機上另外一個極具亮點的功能是“小米拍文檔”,,它解決了手機文檔掃描過程中的諸多痛點:邊框識別不準,、細節(jié)丟失、顯示不清晰,、變形,、陰影等。
小米拍文檔給人印象比較深刻的是AI技術(shù)對文檔掃描這個功能的巨大幫助,,比如說它的裁剪校正能力很強,,即使拍攝文檔的背景非常雜亂無章,也能精準的定位到文檔邊界,,并準確地裁切和矯正文檔區(qū)域,,將有干擾的多余元素去除。
此外,,很多時候,,拍攝文檔的環(huán)境光學(xué)不理想,成像區(qū)域一部分很暗,、一部分很亮,,非常影響最終的掃描效果。小米拍文檔通過針對性的陰影消除技術(shù)來解決問題,,讓文檔掃描的成功率大大提升,。
技術(shù)創(chuàng)新鑄就了小米拍文檔的出色體驗,通過神經(jīng)網(wǎng)絡(luò)區(qū)分圖像中光照和陰影部分,,利用邊緣算法幫助用戶對文檔進行精確定位,,并實際采集多樣化的文檔使用場景進行訓(xùn)練優(yōu)化。
值得一提的是,小米拍文檔完全由小米AI實驗室武漢視覺團隊獨立負責(zé)完成,,疫情當(dāng)前,,他們的工作和貢獻值得點贊。
小米自研AI技術(shù),,值得更進一步的期待
這次的小米10發(fā)布會,,讓我們看到了很多小米過去容易被忽視的地方,自研AI技術(shù)就是其中一個重要的部分,。
首先,,小米10為代表的產(chǎn)品展現(xiàn)出了小米在自研AI技術(shù)上的強勁實力。不管是個性化語音合成服務(wù),、一鍵換天,、vlog自動字幕等AI助力的具體功能,還是通過采集真實數(shù)據(jù)訓(xùn)練模型的AI研發(fā)思路,,都讓我們看到了小米在自研AI技術(shù)上的用心,。
其次,研究AI技術(shù)的廠商很多,,但像小米這樣精準瞄準用戶體驗的,,不太多見。前面我們提到的掃描文檔,、制作vlog等功能,,第三方應(yīng)用其實都能實現(xiàn),手機廠商一般不會在這些細節(jié)上下太多的功夫,。
但這些看起來不起眼的細節(jié),,都和用戶需求息息相關(guān)。小米把自研AI技術(shù)的成果都投入到這些領(lǐng)域,,讓自家用戶能最直接地享受到AI技術(shù)發(fā)展的紅利,。小米AI技術(shù)更加注重和用戶體驗相關(guān)的場景落地,每個技術(shù)創(chuàng)新都能找準用戶的實際需求,、提升用戶體驗,。當(dāng)然,這種注重用戶體驗的基因,,從MIUI誕生開始就一直存在,,現(xiàn)在刻入到了小米的AI技術(shù)研發(fā)中。
此外,,小米涉足的領(lǐng)域遠不只手機,,家電、智能家居,、PC等等行業(yè),,都能看到小米活躍的身影,。而小米的自研AI技術(shù),也不局限于給手機功能添磚加瓦,。未來,,我們有望看到小米自研AI技術(shù)未來在影像、語音,、5G,、IoT等多個領(lǐng)域的爆發(fā)成果,這非常值得期待,。