緒論 - 關鍵詞與階層式詞彙文本分群之應用

5G 興起的物聯網(Internet of Things)產業、因區塊鏈(Blockchain)而擴展的加密貨幣與信任交易。大數據分析則是發展這些產業的基石，透過處理龐大數據使數位科技走進日常生活中，協助人們解決各方面的需求，舉凡職場上輔佐決策判斷，或是社會上促進人與人的互動，都與如何解讀資訊息息相關。

在數據分析的領域中，資料可根據是否可以量化與明確定義區分成結構型資料(Structured data)與非結構型資料(Unstructured data)。結構型與非結構型資料差異與應用，多年來已經有許多學者提出兩者的差異，包括 Inmon and Nesavich (2008)在《Tapping Into Unstructured Data》第二章提及了這兩者的優勢與發展。

結構型資料泛指每筆資料有固定欄位、固定格式、以及固定順序，最常見的例子

‧

在文字分析領域中，主題式文本分群（Topic Modelling）一直是現今運用在各個主題研究與商業產品中主要技術之一。在專利產業中，專利權人藉由檢

主題式文本分析是現今文字分析中的主要方向之一(Michael, 2004)，透過資料導向快速理解文本的內涵意義，並歸類文本所屬類別，而最常被探討的問題是「非結構化資料如何轉換成結構化資料」，不僅僅要擷取出與主題相關的訊息，還要考量簡化非結構文本的複雜度。現行析方法主要透過文字的斷詞、詞性、詞幹化、片語化、去除標點符號與停用字、詞義消歧(Word Sense

Disambiguation)的處理與關鍵詞檢索等文字前處理，將非結構資料轉換成結構型資料，隨後再使用結構型資料計算每篇文本間的相似性。最常使用的相似性公式為餘弦值(cosine)，然後套用分群模型，評估分群群數多少時效果最佳 (Shraddha 等人，2017)。

然而現今許多分析者並未考量文本型態的差異，流於將相同技術套用在不

‧

公司開發新產品的過程中最常使用的技術之一，從產品製作前的前案(Prior Art) 檢索來評估新穎性，到研發完成之後的專利佈局，亦或是在後續利用前案撤銷對手專利等等過程，豐富的檢索經驗與能力確保公司企業不陷入侵權危機，然而專利文本撰寫並未規定文本用詞，使得為了避免公司專利太容易被他人檢索，文本用詞往往過於冷僻，如Article Digital Media 代表 DVD，孟山都農業技術公司使用「對植物的外來化學品」代替除草劑、殺蟲劑等，這類的語意關係

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Passos and Wainer(2009)的文本間空間距離(metric space)，實驗結果為詞網並未提升分群效果。

透過文獻探討與實證分析，本文的研究目的在於改上以上提出的關鍵詞與詞網面臨的問題，嘗試改良TF-IDF 調整並引入文章長度與文本特性等影響因素，並以資料導向建立詞網，嘗試彌補特殊領域厦文本詞彙關係界定不全的現象，再透過文本歸類準確率評估仿詞網的效果。本文第二章呈現文字處理的流程、工具與相關的文獻探討；第三章呈現本文研究方法，包含現今最常使用的關鍵詞檢索工具TF-IDF 在文本的效益並提出本文的優化想法，與詞網工具的缺點與替代技術；第四章呈現本文所使用的三大資料庫與細部內容；第五章呈現各文本分析結果與探討是否有改良之處，最後第六章則會提出本研究的結論與後續建議。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中關鍵詞與階層式詞彙文本分群之應用 - 政大學術集成 (頁 9-13)

緒論

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學