聽懂聲音——ADI公司的人工智能如何大幅延長(zhǎng)設(shè)備的正常運(yùn)行時(shí)間-AET-電子技術(shù)應(yīng)用

聽懂聲音——ADI公司的人工智能如何大幅延長(zhǎng)設(shè)備的正常運(yùn)行時(shí)間

日期： 2019-06-13

作者：Sebastien Christian

關(guān)鍵詞： 設(shè)備健康監(jiān)測(cè) 聲音振動(dòng) ADI

簡(jiǎn)介

任何深諳設(shè)備維護(hù)必要性的人都知道，設(shè)備發(fā)出的聲音和振動(dòng)有多重要。通過(guò)聲音和振動(dòng)進(jìn)行適當(dāng)?shù)?a class="innerlink" href="http://forexkbc.com/tags/設(shè)備健康監(jiān)測(cè)" target="_blank">設(shè)備健康監(jiān)測(cè)，可以將維護(hù)成本降低一半，使用壽命延長(zhǎng)一倍。實(shí)現(xiàn)實(shí)時(shí)聲學(xué)數(shù)據(jù)和分析是另一種重要的基于狀態(tài)的系統(tǒng)監(jiān)測(cè) (CbM) 方法。

我們可以學(xué)著了解設(shè)備發(fā)出的正常聲音是什么樣的。當(dāng)聲音出現(xiàn)變化時(shí)，我們可以確認(rèn)出現(xiàn)異常。然后我們可以了解是什么問(wèn)題，通過(guò)這樣的方式把聲音和特定的問(wèn)題聯(lián)系在一起。識(shí)別異常可能需要進(jìn)行幾分鐘的訓(xùn)練，但將聲音、振動(dòng)和原因結(jié)合起來(lái)實(shí)施診斷可能需要一輩子的時(shí)間。經(jīng)驗(yàn)豐富的技工人員和工程師可能具備這種知識(shí)，但他們屬于稀缺資源。單單通過(guò)聲音本身識(shí)別問(wèn)題可能相當(dāng)困難，即使使用錄音、描述性框架或接受專家親自培訓(xùn)也是如此。

因此，ADI 公司團(tuán)隊(duì)在過(guò)去 20 年里一直致力于理解人類是如何解讀聲音和振動(dòng)的。我們的目標(biāo)是建立一個(gè)系統(tǒng)，能夠?qū)W習(xí)來(lái)自設(shè)備的聲音和振動(dòng)，破譯它們的含義，以檢測(cè)異常行為，并進(jìn)行診斷。本文詳細(xì)介紹了 OtoSense 的體系結(jié)構(gòu)，它是一種設(shè)備健康監(jiān)測(cè)系統(tǒng)，支持我們所說(shuō)的計(jì)算機(jī)聽覺，讓計(jì)算機(jī)能夠理解設(shè)備行為的主要指標(biāo)：聲音和振動(dòng)。

該系統(tǒng)適用于任何設(shè)備，可以實(shí)時(shí)工作，無(wú)需網(wǎng)絡(luò)連接。它已被應(yīng)用于工業(yè)應(yīng)用，支持實(shí)現(xiàn)一個(gè)可擴(kuò)展的高效設(shè)備健康監(jiān)測(cè)系統(tǒng)。

本文探討了引導(dǎo) 開發(fā)OtoSense 的原則，以及在設(shè)計(jì) OtoSense 期間，人類聽覺所發(fā)揮的作用。然后，本文討論了聲音或振動(dòng)特性的是如何被設(shè)計(jì)出來(lái)的、如何從這些特性了解其代表的意義，以及在持續(xù)學(xué)習(xí)中如何不斷改變和改進(jìn) OtoSense，用于執(zhí)行愈加復(fù)雜的診斷，且結(jié)果更為精準(zhǔn)。

指導(dǎo)原則

為了保證耐用、不可知且高效，OtoSense 設(shè)計(jì)理念秉持幾個(gè)指導(dǎo)原則：

從人類神經(jīng)學(xué)中獲得靈感。人類可以以一種非常節(jié)能的方式學(xué)習(xí)和理解他們聽到的任何聲音。
能夠?qū)W習(xí)靜態(tài)聲音和瞬態(tài)聲音。這需要不斷調(diào)整功能和持續(xù)實(shí)施監(jiān)測(cè)。
在靠近傳感器的終端進(jìn)行識(shí)別。應(yīng)該無(wú)需通過(guò)網(wǎng)絡(luò)連接遠(yuǎn)程服務(wù)器來(lái)做出決策。
與專家互動(dòng)，向他們學(xué)習(xí)，前提是盡可能避免干擾他們的日常工作，且過(guò)程要盡可能愉悅。

人類聽覺系統(tǒng)和對(duì) OtoSense 的解析

聽覺是一種關(guān)乎生存的感覺。它是對(duì)遙遠(yuǎn)的、看不見的事件的整體感覺，在出生前就已成熟。

人類感知聲音的過(guò)程可以用四個(gè)熟悉的步驟來(lái)描述：聲音的模擬獲取、數(shù)字轉(zhuǎn)換、特征提取和解讀。在每個(gè)步驟中，我們都會(huì)將人耳與 OtoSense 系統(tǒng)比較。

模擬獲取和數(shù)字化。中耳中的膜和杠桿捕捉聲音，然后調(diào)整阻抗，將振動(dòng)傳輸?shù)匠湟呵坏乐校谀抢铮硪粚幽?huì)根據(jù)信號(hào)中存在的光譜成分選擇性地移位。這反過(guò)來(lái)彎曲了彈性單元，這些單元發(fā)出數(shù)字信號(hào)，反映出彎曲程度和強(qiáng)度。然后，這些單獨(dú)的信號(hào)通過(guò)按頻率排列的平行神經(jīng)傳遞到初級(jí)聽覺皮層。

在 OtoSense 中，這項(xiàng)工作由傳感器、放大器和編解碼器來(lái)完成。數(shù)字化過(guò)程使用固定的采樣速率，可在 250 Hz 和 196 kHz 之間調(diào)節(jié)，波形在 16 位編碼，然后存儲(chǔ)到大小在 128 到 4096 之間的緩沖區(qū)。

特性提取發(fā)生在初級(jí)皮層：頻率域特性，如主頻率、諧波和頻譜形狀，以及時(shí)間域特性，如脈沖、強(qiáng)度變化和在大約 3 秒時(shí)間窗內(nèi)的主要頻率成分。

OtoSense 使用一個(gè)時(shí)間窗，我們稱之為“塊”，它以固定的步長(zhǎng)移動(dòng)。這個(gè)塊的大小和步長(zhǎng)范圍為 23 毫秒到 3 秒，具體由需要識(shí)別的事件和在終端提取特性的采樣率決定。在下一節(jié)中，我們會(huì)就 OtoSense 提取的特性進(jìn)行更詳細(xì)地解釋。

解析發(fā)生在聯(lián)絡(luò)皮層，它融合了所有的感知和記憶，并賦予聲音以含義（比如通過(guò)語(yǔ)言），在塑造感知期間起著核心作用。解析過(guò)程會(huì)組織我們對(duì)事件的描述，遠(yuǎn)遠(yuǎn)不止是對(duì)它們進(jìn)行命名這么簡(jiǎn)單。為一個(gè)項(xiàng)目、一個(gè)聲音或一個(gè)事件命名可以讓我們賦予它更大、更多層的含義。對(duì)于專家來(lái)說(shuō)，名字和含義能讓他們更好地理解周圍的環(huán)境。

這就是為什么 OtoSense 與人的互動(dòng)始于基于人類神經(jīng)學(xué)的視覺、無(wú)監(jiān)督的聲音映射。OtoSense 利用圖形表示所有聽到的聲音或振動(dòng)，它們按相似性排列，但不嘗試創(chuàng)建固定分類。這讓專家們能夠組織屏幕上顯示的組，并為它們命名，而無(wú)需嘗試人為創(chuàng)建有界線的類別。他們可以根據(jù)自身的知識(shí)、感知和對(duì) OtoSense 最終輸出的期望構(gòu)建語(yǔ)義地圖。對(duì)于同樣的音景，汽車機(jī)械師、航空工程師，或者冷鍛壓力機(jī)專家，甚至是研究相同領(lǐng)域，但來(lái)自不同公司的人員，都可以按不同的方式進(jìn)行劃分、組織和標(biāo)記。OtoSense 則與塑造語(yǔ)言意義一樣，使用相同的自下而上的方法來(lái)給定意義。

從聲音和振動(dòng)到特性

經(jīng)過(guò)一段時(shí)間（如之前所示，時(shí)間窗或塊），我們會(huì)給某個(gè)特征分配一個(gè)單獨(dú)的編號(hào)，用于描述該時(shí)間內(nèi)聲音或振動(dòng)的給定屬性/質(zhì)量。OtoSense 平臺(tái)選擇特性的原則如下：

對(duì)于頻率域和時(shí)域，特征都應(yīng)該盡可能完整地描述環(huán)境，提供盡可能多的細(xì)節(jié)。它們必須描述靜止的嗡嗡聲，以及咔噠聲、嘩啦聲、吱吱聲和任何瞬間變化的聲音。
特征應(yīng)盡可能按正交方式構(gòu)成一個(gè)集合。如果一個(gè)特征被定義為“塊上的平均振幅”，那么就不應(yīng)該有另一個(gè)特征與之高度相關(guān)，例如“塊上的總光譜能量”。當(dāng)然，正交性可能永遠(yuǎn)無(wú)法實(shí)現(xiàn)，但不應(yīng)將任何一種表述為其他特征的組合，每種特征都必須包含單一信息。
特性應(yīng)該最小化計(jì)算量。我們的大腦只知道加法、比較和重置為 0。大多數(shù) OtoSense 特性都被設(shè)計(jì)成增量，這樣每個(gè)新示例都可以通過(guò)簡(jiǎn)單的操作修改特性，而不需要在完整的緩沖區(qū)，或者更為糟糕的，在塊上重新進(jìn)行計(jì)算。最小化計(jì)算量還意味著可以忽略標(biāo)準(zhǔn)物理單元。例如，嘗試用值（以 dBA 為單位）表示強(qiáng)度是沒有意義的。如果需要輸出 dBA 值，則可以在輸出時(shí)完成（如果必要）。

在 OtoSense 平臺(tái)的 2 到 1024 個(gè)特性中，有一部分描述了時(shí)域。它們要么是直接從波形中提取，要么是從塊上任何其他特性的演化中提取。在這些特性中，有些包括平均振幅和最大振幅、由波形線性長(zhǎng)度得到的復(fù)雜度、振幅變化、脈沖的存在與否和其特性、第一個(gè)和最后一個(gè)緩沖區(qū)之間相似性的穩(wěn)定性、卷積的超小型自相關(guān)或主要頻譜峰值的變化。

在頻域上使用的特性提取自 FFT。FFT 在每個(gè)緩沖區(qū)上計(jì)算，產(chǎn)生從 128 到 2048 個(gè)單獨(dú)頻率的輸出。然后，該過(guò)程創(chuàng)建一個(gè)具有所需維數(shù)的向量，該向量比 FFT 小得多，但仍能細(xì)致地描述環(huán)境。OtoSense 最初使用一種不可知的方法在對(duì)數(shù)頻譜上創(chuàng)建大小相同的數(shù)據(jù)桶。然后，根據(jù)環(huán)境和要識(shí)別的事件，這些數(shù)據(jù)桶將重點(diǎn)放在信息密度高的頻譜區(qū)域，要么是從能夠熵最大化的無(wú)監(jiān)督視角，要么是從使用標(biāo)記事件作為指導(dǎo)的半監(jiān)督視角來(lái)判斷。這模擬了我們的內(nèi)耳細(xì)胞結(jié)構(gòu)，在語(yǔ)言信息密度最大的地方，語(yǔ)音細(xì)節(jié)更密集。

結(jié)構(gòu)：支持終端和本地?cái)?shù)據(jù)

OtoSense 在終端位置實(shí)施異常檢測(cè)和事件識(shí)別，無(wú)需使用任何遠(yuǎn)程設(shè)備。這種結(jié)構(gòu)確保系統(tǒng)不會(huì)受到網(wǎng)絡(luò)故障的影響，且無(wú)需將所有原始數(shù)據(jù)塊發(fā)送出去進(jìn)行分析。運(yùn)行 OtoSense 的終端設(shè)備是一種自包含系統(tǒng)，可以實(shí)時(shí)描述所鑒聽設(shè)備的行為。

圖1.OtoSense 系統(tǒng)。

運(yùn)行 AI 和 HMI 的 OtoSense 服務(wù)器一般托管在本地。云架構(gòu)可以將多個(gè)有意義的數(shù)據(jù)流聚合成為 OtoSense 設(shè)備的輸出。對(duì)于一個(gè)專門處理大量數(shù)據(jù)并在一個(gè)站點(diǎn)上與數(shù)百臺(tái)設(shè)備交互的 AI 來(lái)說(shuō)，使用云托管的意義不大。

從特性到異常檢測(cè)

正常/異常評(píng)估無(wú)需與專家進(jìn)行太多交互。專家只需要幫忙確定表示設(shè)備聲音和振動(dòng)正常的基線。然后，在推送給設(shè)備之前，先將這個(gè)基線在 Otosense 服務(wù)器上轉(zhuǎn)換為異常模型。

然后，我們使用兩種不同的策略來(lái)評(píng)估傳入的聲音或振動(dòng)是否正常：

第一種策略是我們所說(shuō)的“常態(tài)性”，即檢查任何進(jìn)入特性空間的新聲音的周圍環(huán)境、它與基線點(diǎn)和集群的距離，以及這些集群的大小。距離越大，集群越小，新的聲音就越不尋常，異常值也就越高。當(dāng)這個(gè)異常值高于專家定義的閾值時(shí)，相應(yīng)的塊將被標(biāo)記為不尋常，并發(fā)送到服務(wù)器供專家查看。
第二種策略非常簡(jiǎn)單：任何特性值高于或低于特性定義的基線的最大值或最小值的傳入塊都被標(biāo)記為“極端”，并發(fā)送到服務(wù)器。

異常和極端策略的組合很好地涵蓋了異常的聲音或振動(dòng)，這些策略在檢測(cè)日漸磨損和殘酷的意外事件方面也表現(xiàn)出色。

從特征到事件識(shí)別

特征屬于物理領(lǐng)域，含義屬于人類認(rèn)知。要將特征與含義聯(lián)系起來(lái)，需要 OtoSense AI 和人類專家之間展開互動(dòng)。我們花了大量時(shí)間研究客戶的反饋，開發(fā)出人機(jī)界面 (HMI)，讓工程師能夠高效地與 OtoSense 交互，設(shè)計(jì)出事件識(shí)別模型。這個(gè) HMI 允許探索數(shù)據(jù)、標(biāo)記數(shù)據(jù)、創(chuàng)建異常模型和聲音識(shí)別模型，并測(cè)試這些模型。

OtoSense Sound Platter（也稱為 splatter）允許通過(guò)完整概述數(shù)據(jù)集來(lái)探索和標(biāo)記聲音。Splatter 在完整的數(shù)據(jù)集中選擇最有趣和最具代表性的聲音，并將它們顯示為一個(gè)混合了標(biāo)記和未標(biāo)記聲音的 2D 相似性地圖。

圖2.OtoSense Sound Platter 中的 2D splatter 聲音地圖。

任何聲音或振動(dòng)，包括其環(huán)境，都可以通過(guò)許多不同的方式進(jìn)行可視化——例如，使用 Sound Widget（也稱為 Swidget）。

圖3.OtoSense sound widget (swidget)。

在任何時(shí)候，都可以創(chuàng)建異常模型或事件識(shí)別模型。事件識(shí)別模型是一個(gè)圓形的混淆矩陣，它允許 OtoSense 用戶探索混淆事件。

圖4.可以基于所需的事件創(chuàng)建事件識(shí)別模型。

異常可以通過(guò)一個(gè)顯示所有異常和極端聲音的界面進(jìn)行考察和標(biāo)記。

圖5.在 OtoSense 異常可視化界面中，聲音分析隨時(shí)間的變化。

持續(xù)學(xué)習(xí)過(guò)程——從異常檢測(cè)到日益復(fù)雜的診斷

OtoSense 的設(shè)計(jì)初衷是向多位專家學(xué)習(xí)，并且隨著時(shí)間推移，進(jìn)行越來(lái)越復(fù)雜的診斷。常見過(guò)程是 OtoSense 和專家之間的循環(huán)：

異常模型和事件識(shí)別模型都是在終端運(yùn)行。這些模型為潛在事件發(fā)生的概率以及它們的異常值創(chuàng)建輸出。
超出定義閾值的異常聲音或振動(dòng)會(huì)觸發(fā)異常通知。使用 OtoSense 的技術(shù)人員和工程師可以檢查該聲音和其前后聲音信息。
然后，這些專家會(huì)對(duì)這個(gè)異常事件進(jìn)行標(biāo)記。
對(duì)包含這些新信息的新識(shí)別模型和異常模型進(jìn)行計(jì)算，并推送給終端設(shè)備。

結(jié)論

ADI 公司提供的 OtoSense 技術(shù)旨在使聲音和振動(dòng)專業(yè)知識(shí)在任何設(shè)備上都持續(xù)可用，且無(wú)需連接網(wǎng)絡(luò)來(lái)執(zhí)行異常檢測(cè)和事件識(shí)別。在航空航天、汽車和工業(yè)監(jiān)測(cè)應(yīng)用中，該技術(shù)被越來(lái)越多地用于設(shè)備健康監(jiān)測(cè)，這表示，在曾經(jīng)需要專業(yè)知識(shí)，以及涉及嵌入式應(yīng)用的場(chǎng)景中，尤其是對(duì)于復(fù)雜設(shè)備而言，該技術(shù)都表現(xiàn)出了不錯(cuò)的性能。

參考資料

Sebastien Chistian，“文字如何創(chuàng)造世界。”TEDxCambridge，2014 年。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

聽懂聲音——ADI公司的人工智能如何大幅延長(zhǎng)設(shè)備的正常運(yùn)行時(shí)間

日期： 2019-06-13

作者：Sebastien Christian

相關(guān)內(nèi)容