谷歌今天介紹了TensorFlow.Text,,一個(gè)使用TensorFlow預(yù)處理語(yǔ)言模型的庫(kù),。由谷歌Brain團(tuán)隊(duì)創(chuàng)建的開(kāi)源機(jī)器學(xué)習(xí)框架已經(jīng)被下載了4100多萬(wàn)次,。
TensorFlow.Text可以使用PIP安裝,,并附帶使用記號(hào)來(lái)拆分和分析文本(如單詞,、數(shù)字和標(biāo)點(diǎn)符號(hào))的功能,。
在啟動(dòng)時(shí),,TensorFlow.Text可以識(shí)別空白,、unicode腳本和預(yù)先確定的單詞片段序列,比如谷歌調(diào)用的后綴或前綴,。單詞通常用于BERT之類(lèi)的方法中,,BERT是去年秋季為谷歌開(kāi)源語(yǔ)言模型提供的一種預(yù)培訓(xùn)技術(shù)。
根據(jù)媒體發(fā)布的消息,,該庫(kù)還附帶用于標(biāo)準(zhǔn)化的ops,、n-grams和用于標(biāo)記的序列限制。
TensorFlow.Text的標(biāo)記器使用RaggedTensors,,這是一種新的文本識(shí)別張量,。谷歌工程師Mark Omernick在今年早些時(shí)候的TensorFlow開(kāi)發(fā)峰會(huì)上首次詳細(xì)介紹了RaggedTensors和Unicode對(duì)TensorFlow的支持。
這一消息是在TensorFlow 2.0 beta版發(fā)布幾天后公布的,。谷歌的開(kāi)源框架的最新版本是在3月份的TensorFlow開(kāi)發(fā)峰會(huì)上以alpha版本發(fā)布的,。TensorFlow 2.0使用更少的APIs、更深層次的Keras integration以及對(duì)運(yùn)行時(shí)的改進(jìn),,以實(shí)現(xiàn)快速執(zhí)行,。
TensorFlow.Text是谷歌在過(guò)去幾個(gè)月推出的最新專(zhuān)用庫(kù),用于幫助人們完成機(jī)器學(xué)習(xí)的特定任務(wù),。上個(gè)月發(fā)布的TensorFlow Graphics旨在為圖形和3D模型帶來(lái)更多的深度學(xué)習(xí),。
谷歌在今年早些時(shí)候表示,也許最受歡迎的是用于嵌入式設(shè)備的TensorFlow Lite,,目前有超過(guò)20億臺(tái)設(shè)備在使用它,。谷歌使用TensorFlow Lite支持GBoard上的語(yǔ)音檢測(cè)和谷歌照片中的邊緣檢測(cè)等功能。
今年3月,,谷歌推出了TensorFlow Privacy和TensorFlow Federated,,這是一種能更好地保護(hù)用戶隱私的設(shè)備內(nèi)置機(jī)器學(xué)習(xí)方法,。該公司將其視為開(kāi)發(fā)人員優(yōu)先考慮隱私的一種方式。面向JavaScript和iOS開(kāi)發(fā)人員的框架版本TensorFlow.js和TensorFlow Swift今年春季也得到了升級(jí),。