文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.12.009
引用格式: 王慶才,,劉貴全. 基于混合表征學(xué)習(xí)的專利分類方法研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,,40(12):51-59.
0 引言
專利分類是專利挖掘和管理中重要的基礎(chǔ)任務(wù),。其主要目的是通過自然語言處理等方法提取專利文檔中的重要特征,然后將這些特征輸入分類器中,,其輸出結(jié)果表示專利文檔所屬的標(biāo)簽,。通常一個(gè)專利具有一個(gè)或多個(gè)標(biāo)簽。面對每年快速增長的專利申請數(shù)量,,實(shí)現(xiàn)高效的,、自動(dòng)化的專利分類算法可以大大減少專利機(jī)構(gòu)的人工成本和時(shí)間成本。目前,,自動(dòng)化專利分類算法已被專利機(jī)構(gòu)廣泛使用,,為專利檢索[1]、專利價(jià)值評估[2],、專利訴訟風(fēng)險(xiǎn)評估[3]等專利智能服務(wù)提供支持,。
因此,這吸引了許多研究人員來研究自動(dòng)專利分類問題[4-6],并且這些方法中的大多數(shù)將其視為多標(biāo)簽文本分類任務(wù)[4-5],。專利的主要內(nèi)容為其組件和創(chuàng)新的詳細(xì)說明文檔,,該任務(wù)的目標(biāo)是針對專利自動(dòng)化預(yù)測一組標(biāo)準(zhǔn)化的類別。傳統(tǒng)的專利分類方法大多基于統(tǒng)計(jì)學(xué)和自然語言處理方法人工構(gòu)造特征信息,,輸入到機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練,,然后預(yù)測未知專利的類別信息。這些方法大多屬于淺層模型,,僅僅學(xué)習(xí)了專利文本簡單的詞義信息,,無法獲取深層的上下文語義信息。而且專利中包含了大量的非結(jié)構(gòu)化信息,,如專利之間的引用信息,,通常將專利作為網(wǎng)絡(luò)節(jié)點(diǎn)構(gòu)建專利引用網(wǎng)絡(luò),然后基于網(wǎng)絡(luò)分析的方法對專利節(jié)點(diǎn)進(jìn)行分類,。此類方法專注于學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)信息,,忽略了專利文本信息對預(yù)測專利類別的影響。
本文詳細(xì)內(nèi)容請下載:http://forexkbc.com/resource/share/2000003896.
作者信息:
王慶才1,,2,,劉貴全1,2
(1.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,,安徽 合肥230027,;
2.大數(shù)據(jù)分析與應(yīng)用安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 合肥230027)