數(shù)據幾乎支撐著當今世界的方方面面,而生成、處理,、共享或以其他方式處理的數(shù)據量也在逐年增加,。據估計,,全球90%的數(shù)據都是在過去兩年中產生的,,超過80%的組織預計將在2025年管理ZB級別的數(shù)據,,僅在2024年就會產生了147 ZB數(shù)據,。從這個角度看,,如果一粒米是一個字節(jié),,那么一ZB的米就可以覆蓋整個地球表面幾米厚。
數(shù)據爆炸意味著它能提供更有價值的洞察力,,但同時也增加了漏洞或攻擊的可能性,,并引發(fā)安全和數(shù)據合理使用的難題。因此,,組織不僅要制定有效的管理策略,,還要制定確保數(shù)據完整性的策略,尤其是用于開發(fā)模型或推動決策或創(chuàng)新的數(shù)據,,這一點至關重要,。
在這種情況下,數(shù)據溯源的概念——跟蹤每個數(shù)據點從源頭開始的移動和轉換——已經從錦上添花的防御措施逐漸發(fā)展成為網絡安全的關鍵組成部分,。隨著企業(yè)不斷采用人工智能和機器學習技術,,這一點變得尤為重要,因為只有底層的數(shù)據才是可信和可靠的,。
數(shù)據完整性的堅實基礎
數(shù)據溯源是防止數(shù)據篡改和設計可信,、合規(guī)安全系統(tǒng)的關鍵。在高層面上,,這一過程涉及將元數(shù)據與數(shù)據加密綁定,,以創(chuàng)建每個節(jié)點完整歷史的透明記錄,從而確保其完整性并幫助應對網絡威脅,。溯源系統(tǒng)的工作原理是從起源點跟蹤數(shù)據到當前使用狀態(tài)的整個過程,,從而創(chuàng)建一個不間斷的信任鏈。
當信息在系統(tǒng)中首次數(shù)字化時,,需要標注上時間,、日期、地點,、源設備類型,、隱私權等信息。然后,,所有這些信息都會以加密方式與數(shù)據本身綁定,,記錄不可更改的時間點。雖然當今的系統(tǒng)對數(shù)據來源的理解能力各不相同,,但我們的目標是在整個系統(tǒng)的每個轉換點添加和重新綁定元數(shù)據,。區(qū)塊鏈和其他分布式記賬等新興技術將成為這些防篡改系統(tǒng)的基礎,。
未重視數(shù)據溯源的組織可能會根據不準確或被篡改的信息做出決策,從而導致負面結果,,甚至損害客戶利益,。就生成式人工智能和大型語言模型(LLM)而言,如果不能正確追蹤數(shù)據的歷史,,也會導致版權問題,。然而,如果企業(yè)成功實施了溯源系統(tǒng),,在數(shù)據的每一步都對其真實性進行評估,,他們就能贏得客戶、合作伙伴甚至監(jiān)管方的信賴,,從而創(chuàng)造優(yōu)勢,。
增強人工智能的透明度
在各行各業(yè)中,運營中嵌入AI和ML系統(tǒng)的情況顯著增加,。雖然這種創(chuàng)新提高了效率,,但人工智能系統(tǒng)也容易受到威脅,從而損害數(shù)據完整性,,而且這些威脅正變得越來越復雜,。
想象一個使用基于人工智能的數(shù)字孿生技術來模擬和優(yōu)化生產的智能工廠。只有當系統(tǒng)中使用的訓練數(shù)據準確,、高時效時,,這種方法才能發(fā)揮作用,因此數(shù)據的可信度至關重要,。數(shù)據溯源系統(tǒng)可以讓工廠查看模型的源記錄,,以及是否和何時對其進行了修改,從而讓工廠管理人員能夠驗證輸出結果,,并更輕松地檢測數(shù)據保真度中的潛在威脅或基于時間的漂移,。
遺憾的是,盡管數(shù)據溯源對于構建和維護可信的人工智能系統(tǒng)至關重要,,但它并沒有得到應有的廣泛認可,。部分原因是缺乏可遵循的廣泛標準,如今大多數(shù)模型幾乎都沒有實施或強制執(zhí)行必要的要求,,因此容易受到不法分子的威脅:
·數(shù)據中毒,。不法分子可以破壞訓練數(shù)據,干擾模型的準確性或引入偏差,。
·惡意訓練,。萊迪思分享了一個關于汽車行業(yè)惡意訓練潛在后果的例子,其中提到了一項研究,,研究中自動駕駛汽車中的人工智能系統(tǒng)被故意誤導,,將停車標志識別為限速提高,,這顯示了惡意訓練在現(xiàn)實世界中的危險性。
即使沒有外部干預,,缺乏溯源洞察力也會給企業(yè)帶來很多問題,,比如數(shù)據漂移,。當算法所訓練的數(shù)據屬性發(fā)生變化,,而模型沒有相應調整時,就會出現(xiàn)這種情況,,從而降低輸出的準確性,。維護數(shù)據溯源是確保這些系統(tǒng)的輸出長期可靠的最佳途徑。
FPGA初露鋒芒
為提高網絡彈性,,系統(tǒng)設計人員可將FPGA 集成到數(shù)據溯源系統(tǒng)中,。與固定功能的處理器不同,F(xiàn)PGA作為真正靈活,、可重新編程的硬件,,能夠進行并行處理和實時安全操作。其內置的安全功能,,如加密和驗證機制,,有助于在處理過程中保護和安全地標記數(shù)據。由于FPGA通常是系統(tǒng)數(shù)據的源點,,因此在加密綁定過程中發(fā)揮著重要作用,。此外,F(xiàn)PGA固有的靈活性允許對其進行編程和重新編程,,可以隨著時間的推移執(zhí)行特定任務,。這種可定制性使企業(yè)能夠根據自身需求的變化,調整采集和管理溯源信息的方法,。
FPGA還能優(yōu)化系統(tǒng)性能,,包括AI和ML模型。由于具有實時處理能力,,F(xiàn)PGA能夠以最小的延遲管理不同來源的大量數(shù)據,。這種處理速度可確保數(shù)據交易得到及時記錄和加密綁定,并確保溯源記錄反映最新信息,,更好地為數(shù)據溯源提供支持,。此外,F(xiàn)PGA可以并行執(zhí)行許多操作,。這使它們能夠同時實現(xiàn)收集數(shù)據,、執(zhí)行加密操作和監(jiān)控安全性,而不會影響系統(tǒng)的性能,。
量子計算的影響
由于加密操作對元數(shù)據綁定過程至關重要,,因此所使用的加密算法必須面向未來,。這個問題非常緊迫,因為量子計算的發(fā)展有可能對我們今天所依賴的經典非對稱加密保護造成巨大威脅,。
為了在即將到來的量子計算機時代保護我們的數(shù)字數(shù)據,,我們需要轉向后量子加密(PQC)這一新型加密技術。PQC算法使用不同以往的創(chuàng)新的數(shù)學模型,,能夠抵御量子威脅,。由于這種加密方法非常新穎,因此更加凸顯了FPGA的 “加密靈活性 ”,。如果運行PQC算法的FPGA在現(xiàn)場部署后發(fā)現(xiàn)漏洞,,可以更新編程而無需更換硬件。這種靈活性使FPGA成為向PQC過渡和遵守不斷變化的法規(guī)的先行者,。
構建可信任的未來
隨著數(shù)據溯源越來越受關注,,行業(yè)和政府標準機構需要制定新的溯源指南,要求至少在一定程度上披露模型的數(shù)據溯源完整性,。不過,,目前還不清楚這些措施最終會采取什么形式。
一種方案是根據數(shù)據溯源系統(tǒng)的穩(wěn)健性對其進行分級,,最底層代表缺乏數(shù)據溯源機制,,最高層代表有明確記錄的信任鏈,概述數(shù)據點的歷史,。同樣,,合規(guī)性和執(zhí)行機制也需要在此框架內進行評估,以降低與數(shù)據濫用相關的風險,,確保透明度和問責制,。此外還需要對這些標準的遵守情況進行獨立的第三方驗證,減少潛在的利益沖突,,并確保達成評估數(shù)據溯源可信度的最佳實踐,。
在不久的將來,隨著開發(fā)人員接受數(shù)據記錄后不得更改或刪除的理念,,我們還可能看到不可變數(shù)據方案的實施越來越多,。區(qū)塊鏈技術就是這樣一種解決方案,因為它具有去中心化的安全性和分布式屬性,。在區(qū)塊鏈網絡中,,每筆交易或每條數(shù)據都與前一筆交易或數(shù)據有加密鏈接,一旦交易被添加到區(qū)塊鏈中,,就幾乎不可能被修改或刪除,,從而形成不可更改的鏈條。
開發(fā)關鍵系統(tǒng)和推動重要決策離不開數(shù)據支持,,因此企業(yè)必須能夠跟蹤并信任數(shù)據,。人工智能系統(tǒng)的興起進一步強調了對有效數(shù)據溯源的需求,,便于檢測對這些模型的威脅并確保其長期可靠性。2025年及以后,,數(shù)據溯源將成為網絡安全,、網絡彈性和網絡信任的基石,幫助企業(yè)識別數(shù)據完整性面臨的威脅,,遵守新法規(guī),,并在客戶和合作伙伴網絡中建立信任。
更多精彩內容歡迎點擊==>>電子技術應用-AET<<