文字探勘工具 - 法人說明會資訊對供應鏈上下游公司分析師預測之影響-以我國半導體產業為例

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第五節文字探勘工具

Sullivan（2001）定義文字探勘（Text Mining）為一種編輯、組織及分析大量文件的過程，用以符合使用者的特定資訊需求及發現某些特徵間的關聯，文件中的關鍵資訊包括人、事、時、地、物、關鍵字及關鍵概念階層。因文件型資料的內容冗長，文件的特徵和屬性不易明確的定義和界定。所以文字探勘需要龐大的人力篩選，以及對複雜的特徵和屬性進行擷取，進行文字探勘工作較常見的執行活動有中文斷詞、特徵擷取及向量空間模型。

詞是自然語言處理上最基本的單位，所謂的詞是指語言學家所定義的「能夠獨立運用，具有完整語意的最小語言成分」。在進行中文斷詞時無法直接使用英文斷詞方式作為分析基礎，因英文的每個單字都可以成為詞，具有自己的意義，

且每個單字之間都有明顯的空白作為分隔，沒有詞法分析上的困擾。而中文在書寫時，詞與詞之間並不會以空白做為區分，也就是說，單就文字的表現形式來看，

中文並沒有詞這個單位，且中文詞並不像英文詞一樣有時態或是單複數的變化，

可能會發生同一個詞擔任不同語法功能時，形式卻是完全相同的情況。因此，如何將正確的詞切割出來，就成為中文斷詞系統的重要工作。中文斷詞系統的目的主要是對句子句法及語意進行初步分析，藉由分析過程，電腦可辨識出文件中各關鍵字及片語所扮演的角色、句子的基本構造間的關係。並將輸入的字串分隔成串，以便找出正確的詞串，例如輸入的字串為“我昨天下午到電影院看電影”，理論上應該產生正確的詞串為“我；昨天；下午；到；電影院；看；電影”，但也有可能產生不正確的詞串為“我昨；天下午；到電影；院看電影”。因此，斷詞結果的正確性與完整性及其效率，就顯得相當重要，因為斷詞系統效能的優劣將會影響到後續的處理工作。

無論台灣或大陸地區，近幾年都開發出很多重要的資源，目前有些現有的斷詞處理系統可供相關的研究者使用，較著名的有中研院中文斷詞系統和漢語詞法分析系統。

‧

多層隱碼模型的漢語詞法分析系统(Institute of Computing Technology, Chinese Lexical Analysis System)，此系統的分類功能有：中文分詞、詞性標註、未登錄詞識別等，關於詞性標註集如表 2-2。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

立索引的方法為針對系統中整體文件集合 D，找出一組屬性為(W1,W2,…,Wk)，

並在文件集合 D 中找出某一文件 Di 能有一組屬性值為(Wi1,Wi2,…,Wik)，使得文件 Di 具有足夠的資訊以代表文件集合 D。該組屬性值稱為文件 Di 的索引向量元素，即所謂的權重。利用向量代表各個文件，不但可以清楚呈現各個文件間的關係，且彼此間的相似度也較易計算，當文件意義相近時，可能會有很多相同的關鍵詞，若利用向量空間作表達時，這些向量會較接近。

在一份文件集中，每個索引關鍵詞都代表空間中的一個維度，維度上的值代表該文件在此維度上的重要程度，此值稱為該索引關鍵詞的權重值。而權重值之計算方式則有，IDF（Inverse Document Frequency）加權模式、TF（Term Frequency）

加權模式、TFIDF（Term Frequency / Inverse Document Frequency）加權模式及 TFITF（Term Frequency / Inverse Total Term Frequency）加權模式等。

IDF 概念由 Spark(1972)提出，TF 概念則是 Salton and McGill (1983)所提，至於 TFIDF 加權模式是以相關性回饋(Relevance Feedback)演算法為基礎所提出的一系列相關研究，為了進行特徵擷取所發展出的一個演算法，有兩個重要的組成部分，TF(Term Frequency；詞頻)與 IDF(Inverse Document Frequency；逆向文件頻率)，主要用途在於幫助判斷詞在一份文件的重要性，藉由這個模式計算後可得到關鍵詞的權重值，最後得到每份文件的詞鍵權重列表，也就是文件的向量。

詞頻計算(TF)為統計某一特定文字檔中，特定詞彙的次數，邏輯為若同一個詞彙於一篇文章中出現越多次，則此詞彙越不重要。公式如下：

為詞彙 j 在文件 i 出現總數

為文件 i 中關鍵詞總數

逆向文件頻率(IDF)是用來測驗一個詞彙之普遍重要性，邏輯為若同一個詞彙於所有文章中出現越多次，則此詞彙越是重要。公式為：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

N：文件總數。

：詞彙j 出現的文章總數。

計算出詞頻與逆向文件頻率後，可計算出詞義在文件中的權重值(Weight)，

也可說是其顯著值。當詞義出現在多份的文件中時，則此項因子會修正其重要性。

＝ ^*

：即為詞義 j 在文件 i 中的權重值

關鍵詞相似度是一個主觀性較強的概念，很難得到一個統一的定義，因為詞彙間的關係複雜，相似與差異其實很難用一個簡單的數值衡量。從某一角度看，

兩詞語可能具有極高的相似度，但從另一角度看，相似度的差異可能就顯得非常大。相似度是一個數值，值的範圍通常介於 0 與 1 之間。一個詞語本身的相似度

為 1。如果兩個詞語與其上下文完全無法互相替代，那麼兩詞語的相似度為 0。

當文件以向量空間模型呈現以後，就可利用相似度的計算公式計算文件或文句間的相似度，更明確的表達詞彙間的關係。本研究採用 Cosine 係數計算 (Salton ,1988)，其概念是要計算代表兩文件的向量夾角，夾角越小表示兩文件越相似。公式如下：

|X∩Y| / 或

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第參章研究設計

本章共分成四節：第一節推導出本文之研究假說、第二節為本研究之研究方法介紹、第三節為研究模型之建立、第四節詳細的定義了研究模型所使用的變數以及變數衡量方法、第五節說明本研究所使用的樣本及資料蒐集的方式。

在文檔中法人說明會資訊對供應鏈上下游公司分析師預測之影響-以我國半導體產業為例 - 政大學術集成 (頁 26-31)

文字探勘工具

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五節 文字探勘工具

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

|X∩Y| / 或

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第參章 研究設計

立政治大學

第五節文字探勘工具

立政治大學

立政治大學

立政治大學

第參章研究設計