• 沒有找到結果。

5G 興起的物聯網(Internet of Things)產業、因區塊鏈(Blockchain)而擴展的加密貨 幣與信任交易。大數據分析則是發展這些產業的基石,透過處理龐大數據使數 位科技走進日常生活中,協助人們解決各方面的需求,舉凡職場上輔佐決策判 斷,或是社會上促進人與人的互動,都與如何解讀資訊息息相關。

在數據分析的領域中,資料可根據是否可以量化與明確定義區分成結構型資 料(Structured data)與非結構型資料(Unstructured data)。 結構型與非結構型資料差 異與應用,多年來已經有許多學者提出兩者的差異,包括 Inmon and Nesavich (2008)在《Tapping Into Unstructured Data》第二章提及了這兩者的優勢與發展。

結構型資料泛指每筆資料有固定欄位、固定格式、以及固定順序,最常見的例子

在文字分析領域中,主題式文本分群(Topic Modelling)一直是現今運用 在各個主題研究與商業產品中主要技術之一。在專利產業中,專利權人藉由檢

主題式文本分析是現今文字分析中的主要方向之一(Michael, 2004),透過資 料導向快速理解文本的內涵意義,並歸類文本所屬類別,而最常被探討的問題 是「非結構化資料如何轉換成結構化資料」,不僅僅要擷取出與主題相關的訊 息,還要考量簡化非結構文本的複雜度。現行析方法主要透過文字的斷詞、詞 性、詞幹化、片語化、去除標點符號與停用字、詞義消歧(Word Sense

Disambiguation)的處理與關鍵詞檢索等文字前處理,將非結構資料轉換成結構 型資料,隨後再使用結構型資料計算每篇文本間的相似性。最常使用的相似性 公式為餘弦值(cosine),然後套用分群模型,評估分群群數多少時效果最佳 (Shraddha 等人,2017)。

然而現今許多分析者並未考量文本型態的差異,流於將相同技術套用在不

公司開發新產品的過程中最常使用的技術之一,從產品製作前的前案(Prior Art) 檢索來評估新穎性,到研發完成之後的專利佈局,亦或是在後續利用前案撤銷 對手專利等等過程,豐富的檢索經驗與能力確保公司企業不陷入侵權危機,然 而專利文本撰寫並未規定文本用詞,使得為了避免公司專利太容易被他人檢 索,文本用詞往往過於冷僻,如Article Digital Media 代表 DVD,孟山都農業技 術公司使用「對植物的外來化學品」代替除草劑、殺蟲劑等,這類的語意關係

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Passos and Wainer(2009)的文本間空間距離(metric space),實驗結果為詞網並未 提升分群效果。

透過文獻探討與實證分析,本文的研究目的在於改上以上提出的關鍵詞與 詞網面臨的問題,嘗試改良TF-IDF 調整並引入文章長度與文本特性等影響因 素,並以資料導向建立詞網,嘗試彌補特殊領域厦文本詞彙關係界定不全的現 象,再透過文本歸類準確率評估仿詞網的效果。本文第二章呈現文字處理的流 程、工具與相關的文獻探討;第三章呈現本文研究方法,包含現今最常使用的 關鍵詞檢索工具TF-IDF 在文本的效益並提出本文的優化想法,與詞網工具的 缺點與替代技術;第四章呈現本文所使用的三大資料庫與細部內容;第五章呈 現各文本分析結果與探討是否有改良之處,最後第六章則會提出本研究的結論 與後續建議。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件