5G 興起的物聯網(Internet of Things)產業、因區塊鏈(Blockchain)而擴展的加密貨 幣與信任交易。大數據分析則是發展這些產業的基石,透過處理龐大數據使數 位科技走進日常生活中,協助人們解決各方面的需求,舉凡職場上輔佐決策判 斷,或是社會上促進人與人的互動,都與如何解讀資訊息息相關。
在數據分析的領域中,資料可根據是否可以量化與明確定義區分成結構型資 料(Structured data)與非結構型資料(Unstructured data)。 結構型與非結構型資料差 異與應用,多年來已經有許多學者提出兩者的差異,包括 Inmon and Nesavich (2008)在《Tapping Into Unstructured Data》第二章提及了這兩者的優勢與發展。
結構型資料泛指每筆資料有固定欄位、固定格式、以及固定順序,最常見的例子
‧
在文字分析領域中,主題式文本分群(Topic Modelling)一直是現今運用 在各個主題研究與商業產品中主要技術之一。在專利產業中,專利權人藉由檢
主題式文本分析是現今文字分析中的主要方向之一(Michael, 2004),透過資 料導向快速理解文本的內涵意義,並歸類文本所屬類別,而最常被探討的問題 是「非結構化資料如何轉換成結構化資料」,不僅僅要擷取出與主題相關的訊 息,還要考量簡化非結構文本的複雜度。現行析方法主要透過文字的斷詞、詞 性、詞幹化、片語化、去除標點符號與停用字、詞義消歧(Word Sense
Disambiguation)的處理與關鍵詞檢索等文字前處理,將非結構資料轉換成結構 型資料,隨後再使用結構型資料計算每篇文本間的相似性。最常使用的相似性 公式為餘弦值(cosine),然後套用分群模型,評估分群群數多少時效果最佳 (Shraddha 等人,2017)。
然而現今許多分析者並未考量文本型態的差異,流於將相同技術套用在不
‧
公司開發新產品的過程中最常使用的技術之一,從產品製作前的前案(Prior Art) 檢索來評估新穎性,到研發完成之後的專利佈局,亦或是在後續利用前案撤銷 對手專利等等過程,豐富的檢索經驗與能力確保公司企業不陷入侵權危機,然 而專利文本撰寫並未規定文本用詞,使得為了避免公司專利太容易被他人檢 索,文本用詞往往過於冷僻,如Article Digital Media 代表 DVD,孟山都農業技 術公司使用「對植物的外來化學品」代替除草劑、殺蟲劑等,這類的語意關係‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
Passos and Wainer(2009)的文本間空間距離(metric space),實驗結果為詞網並未 提升分群效果。
透過文獻探討與實證分析,本文的研究目的在於改上以上提出的關鍵詞與 詞網面臨的問題,嘗試改良TF-IDF 調整並引入文章長度與文本特性等影響因 素,並以資料導向建立詞網,嘗試彌補特殊領域厦文本詞彙關係界定不全的現 象,再透過文本歸類準確率評估仿詞網的效果。本文第二章呈現文字處理的流 程、工具與相關的文獻探討;第三章呈現本文研究方法,包含現今最常使用的 關鍵詞檢索工具TF-IDF 在文本的效益並提出本文的優化想法,與詞網工具的 缺點與替代技術;第四章呈現本文所使用的三大資料庫與細部內容;第五章呈 現各文本分析結果與探討是否有改良之處,最後第六章則會提出本研究的結論 與後續建議。