第二章、 文獻探討
第二節、 文字探勘與其相關技術
2.2.2. 文字探勘的架構
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
類、分群問題(國家實驗研究院, 2009)。因此,文字探勘可以說是結合資料探勘 的技術,將非結構化文字資料做前處理後,轉化為資料探勘可以使用的結構化 資料,藉此用來處理大量非結構化的文字分析,舉凡關鍵字關聯、文件分類、
文件分群皆屬文字探勘技術下的議題。
網際網路發達造成的資訊超載,讓使用者難以找到所需之資訊,文字探勘 技術透過電腦的運算能力,能將大量的文字內容過濾並轉化為讓人更有效率的 運用,使得此技術愈來愈受到重視,許多學者將其應用在不同領域上,近幾年 相關應用研究歸納出顧客關係管理、主題分析管理、網站內容管理及趨勢預測 管理等四種類型,此研究即為趨勢預測管理的一種應用。
2.2.2.
文字探勘的架構Tan(1999)所提出的文字探勘所運作的架構中主要包含文本萃取(text refining)及知識淨化(knowledge distillation)兩個重要步驟,其中「文本萃取」主 要是把各式各樣不規則的文件轉化為中間形式;而「知識淨化」則是將上述文 本萃取後的中間形式所呈現的內容歸納出範型或知識。文件所轉化的中間形式 又可以分為文件中間形式(document-based)、概念中間形式(concept-based)兩類,
文件中間形式主要是以一份文件來表示一個分析實體,可以在文件中歸納出範 型或彼此之間的關係,例如: 集群分析、分類分析或視覺化呈現等;而概念中 間形式則是以一個物件或特定領域的概念來表示一個分析實體,分析的結果包 含預測性模型、整合性發現及視覺化呈現等,也可以根據物件或特定領域概念 對文件中間形式進行資訊萃取,轉換成概念中間形式,如圖2-2 所示。
‧
‧
2.統計式斷詞法(Fan, 1988;Sproat, 1990):
需要先經由大量文件或大型語言資料庫(Corpus)的訓練,透過統計鄰近字元
1. TF(字詞頻率,Term Frequency)
在整個斷過詞的文件集中,每一篇文件中的字詞組合不同,且字詞出現的 頻率也不同,原則上愈重要愈能代表該文件的字詞,理因出現較多次,所以為 了找出能代表此文件的代表性特徵,可以透過計算文件組成的字詞詞頻,也就 是其TF 值,愈是重要能代表該文件的字詞,在該篇所有字詞中出現的頻率愈
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
高。
2. IDF(反向文件頻率,Inverse Document Frequency)
愈重要愈能代表該文件的字詞,理應出現較多次這個基本概念,在實際操 作卻會遇到一個嚴重的問題,在自然語言中,有些字詞是基本對話中常用到或 者必定會用到的,所以這些字詞在TF 的觀念中,必然是該篇文中頻率甚高的 字詞,且在每一篇文件中,也必然都會出現這些高頻率的字詞;而足以代表該 篇文件特徵重要性的字詞,理應只會在這些文件中出現頻率較高,並不會在每 一篇文件都有很高的頻率,於是使用IDF 反向文件頻率概念修正這些問題,其 主要目的是修正字詞在所有文件和該篇文件中的權重。
3. TF-IDF
將TF 做 IDF 的修正後即為 TF-IDF,其值為 TF 與 IDF 兩者之乘積,所代 表之意義為字詞在文件中的重要性,與其在該文件中出現的頻率成正比,但與 其在所有文件集中出現的文件數量成反比,原因是字詞在該文件中出現頻率愈 高代表其重要性愈高,而該字詞在所有文件集中出現之頻率愈低代表該字詞在 該文件重要性愈高。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4. Weight 正規畫
當兩篇文件之其中一字詞分別出現1 次和 10 次,而文件長度卻分別是 100 字和1000 字時,字詞之權重有可能受到文件長度而受到影響,為了避免這種情 況發生,須對權重針對其文件長度做正規劃。
2.2.6.
向量空間模型的運用向量空間模型(Vector Space Model,VSM) 是一種簡便且高效率的文件表示 模型,能將非結構化的文件資訊,以向量的形式建構在模型中,為往後的各種 文件資訊處理操作奠定了數學計算的基礎,是目前最廣為使用的資訊檢索模 型。
向量空間模型的關鍵在於特徵向量的權值計算和特徵向量的選取兩個部 分,將使用者的查詢要求(query)和資料庫中的所有文件,依照前述之文件特徵 值選取,依其關鍵字詞之權種所組成的向量,將這些向量建構在模型中,透過 計算向量之間的距離,即可判斷使用者的查詢要求和模型中所有文件的相似程 度,根據相似度查詢結果來做下一步分析計算。下圖2-3 為一個向量空間模型 基本的呈現方式,並針對其向量表示法和以字詞為單位組成的文件矩陣做說 明。
圖 2-3 向量空間模型 (資料來源:Salton & Gill, 1983)
TERM1
TERM2
TERM3
DOC1 = (TERM11, TERM12, TERM13)
DOC2 = (TERM21, TERM22, TERM23)
DOC3 = (TERM31, TERM32, TERM33)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
1. 向量表示法:
在向量空間模型的概念中,不論文件長短(文章、段落、句子),我們可以 將每一份文件,以文件為單位分別轉化為向量來表示,一份文件即為空間中的 一個向量,而向量的組成則為其文件中所有字詞的權重值來表示,假設一份文 件用DOC 表示,而 w1、w2、w3…為其文件組成字詞之權重值,故文件 DOC 的向量可以寫成DOC = (w1,w2,w3,…,wn)一向量表示。
2. 字詞-文件矩陣(Term-DocumentMatrix):
當所有文件都轉換為向量呈現以後,為了針對所有文件做分析計算,便將 所有文件之向量集合以文件矩陣方式呈現,如下圖2-4 所示(i 篇文件、j 個相異 的字詞特徵權重)。在資訊檢索中,藉此方便計算使用者的查詢要求和文件間的 相似度;或者在其他文字分析處理中供後續計算,例如:文件的分群和分類處 理中,也必須利用此方式計算文件間向量的相似度來進行處理。
圖 2-4 向量空間模型中的字詞-文件矩陣 (資料來源:本研究整理)
DOC1 W11 W12 … … … W1j
DOC2 W21 W22 … … … W2j
DOCi Wi1 Wi2 … … … Wij
… … … … … … …
… … … … … … …
… … … … … … …
‧
的相似度程度,最常使用的方法為計算兩文件向量的餘弦相似度(CosineSimilarity),計算時須以兩組基底和維度相同的文件向量,利用餘弦夾角公式計
‧
2.3.1. k-最鄰近演算法(k-Nearest Neighbor ,kNN)
k-最鄰近法是由 T.M. Cover 和 P.E. Hart 兩位學者在 1967 年所提出,在過去
‧
了。(mmdays,2007)本研究將使用kNN 群集分析法,將上述新聞文件透過中文斷詞、特徵值選 檢索中常見的評估的方式來評估分群結果之績效,如:精確率(Precision Rate)、
召回率(Recall Rate)等,精確率是指搜尋到的所有結果中,含有正確的結果比 例,而召回率則是所有正確的結果中,被搜尋到的比例,二者間,只要將搜尋 的樣本數縮小即可提升精確率,但也因樣本大幅縮小,造成召回率大幅下降;
而將搜尋的樣本提升,則召回率就會提高,相對地也會搜尋到許多的錯誤結 果,造成精確率下降。因此為了避免造成不同指標之結果不一的情況發生,可 以使用F-measure 方法改善,F-Measure 是精確率與召回率二個數值的協調平均 值,各取所長之結果,其值介於0 和 1 之間。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 2-7 評估標準示意圖 (資料來源:陳柏均, 2011) 第四節、 文獻探討小結
由文獻探討得知新聞與股價波動具有一定的相關性和連動性,且口碑提供 潛在顧客使用經驗的參考來源,以及提供相關性與完整性更高的參考價值,可 以降低投資風險與不確定性,又網路口碑具有即時性無時空限制,可馬上進行 詢問與回應,或歷史資訊也很好取得,而網路新聞之評論屬於網路口碑的一 種,因此本研究將透過網路新聞平台上的新聞文章及其閱讀者的回應,用文字 探勘的相關技術及kNN 分群技術,配合歷史股價資訊,試圖找出和股價波動的 相關性,進而提出預測。
TN
TP FP
TP:資料屬於該類別,系 統判斷屬於該類別 FP:資料不屬於該類別,
系統判斷屬於該類別 TN:資料屬於該類別,系 統判斷不屬於該類別 FN:資料不屬於該類別,
系統判斷不屬於該類 別
TP+FP:系統分類結果 TP TN 正確的分類結果 FN
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
領域的專業程度不一,所以只選擇Yahoo 奇摩新聞平台之財經分類新聞中鉅亨 網的新聞做為資料來源,截至2012 年 05 月 21 日~2013 年 01 月 24 日止,共計 1068 篇之網路新聞與其閱讀者之評論,為了考量資料的週延性和預測性,這些 資料的前三分之二也就是前712 篇做為訓練資料之用途,後 356 篇則作為後續 測試資料之預測用途,而訓練資料中,為了確保能在上漲與下跌這個週期中皆 能有資料入選,故接著在訓練資料中,隨機抽取三分之二的資料量作為真正的 訓練資料,而剩餘的資料則可以做為回顧這個模型的資料。新聞與評論之範例 如下頁中表3-1、表 3-2。
另外,本實驗也同步蒐集個股之歷史股價交易資料,經由台灣證券交易所 的網頁中,擷取存入本實驗資料庫,作為後續計算分類模組的重要資料。
圖 3-2 上漲、下跌週期圖示
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 3-1 網路新聞範例
標題:鴻海80 元保衛戰!今年市值蒸發 1065 億元 每個交易日少 28 億元...
發布時間:2013-03-05 13:30
蘋果(US-APPL)股價仍未見止跌,續跌 2.4%,在 420 美元附近掙扎,鴻海 (2317-TW)股價也難擺脫蘋果拖累,今天
還是上演開高走低,日線拉出第7 根黑棒,面臨 80 元關卡保衛戰,早盤並曾 失守80 元。鴻海今年以來,是讓投資人最傷心的標的之一,今年以來跌幅達 1 成,市值蒸發約 1065 億元,以今年以來 38 個交易日估算,平均每個交易 日市值跌掉28 億元。
鴻海去年底收盤價為88.9 元,隨蘋果訂單雜音不斷,蘋果股價持續走軟,鴻 海今年以來,遭到內外資法人聯手砍殺,今年以來,外資共賣超鴻海達19 萬 張,投信、自營商也聯手賣超6.7 萬張,三大法人今年以來共賣超鴻海逾 25 萬張。
鴻海今年以來股價跌多漲少,今天盤中曾失守80 元大關,盤中低點打到 79.7 元,以80 元估算,鴻海今年以來市值蒸發達 1065 億元,而今年以來僅 38 個 交易日,平均每個交易日鴻海市值徵發達28 億元。
雖然鴻海今天後半場奮力守住80 元,但法人對鴻海走勢看法依舊保守,後續 將有2 大觀察重點,一是 3 月底鴻海公布去
年年報,另一則是期待蘋果發表新產品的訊息,鴻海股價未能站回月線之
年年報,另一則是期待蘋果發表新產品的訊息,鴻海股價未能站回月線之