文字探勘的架構 - 文字探勘與其相關技術 - 文獻探討 - 應用kNN文字探勘技術於分析新聞評論影響股價漲跌趨勢之研究

第二章、文獻探討

第二節、文字探勘與其相關技術

2.2.2. 文字探勘的架構

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

類、分群問題(國家實驗研究院, 2009)。因此，文字探勘可以說是結合資料探勘的技術，將非結構化文字資料做前處理後，轉化為資料探勘可以使用的結構化資料，藉此用來處理大量非結構化的文字分析，舉凡關鍵字關聯、文件分類、

文件分群皆屬文字探勘技術下的議題。

網際網路發達造成的資訊超載，讓使用者難以找到所需之資訊，文字探勘技術透過電腦的運算能力，能將大量的文字內容過濾並轉化為讓人更有效率的運用，使得此技術愈來愈受到重視，許多學者將其應用在不同領域上，近幾年相關應用研究歸納出顧客關係管理、主題分析管理、網站內容管理及趨勢預測管理等四種類型，此研究即為趨勢預測管理的一種應用。

2.2.2.

文字探勘的架構

Tan（1999）所提出的文字探勘所運作的架構中主要包含文本萃取(text refining)及知識淨化(knowledge distillation)兩個重要步驟，其中「文本萃取」主要是把各式各樣不規則的文件轉化為中間形式；而「知識淨化」則是將上述文本萃取後的中間形式所呈現的內容歸納出範型或知識。文件所轉化的中間形式又可以分為文件中間形式(document-based)、概念中間形式(concept-based)兩類，

文件中間形式主要是以一份文件來表示一個分析實體，可以在文件中歸納出範型或彼此之間的關係，例如: 集群分析、分類分析或視覺化呈現等；而概念中間形式則是以一個物件或特定領域的概念來表示一個分析實體，分析的結果包含預測性模型、整合性發現及視覺化呈現等，也可以根據物件或特定領域概念對文件中間形式進行資訊萃取，轉換成概念中間形式，如圖2-2 所示。

‧

2.統計式斷詞法(Fan, 1988;Sproat, 1990)：

需要先經由大量文件或大型語言資料庫(Corpus)的訓練，透過統計鄰近字元

1. TF(字詞頻率,Term Frequency)

在整個斷過詞的文件集中，每一篇文件中的字詞組合不同，且字詞出現的頻率也不同，原則上愈重要愈能代表該文件的字詞，理因出現較多次，所以為了找出能代表此文件的代表性特徵，可以透過計算文件組成的字詞詞頻，也就是其TF 值，愈是重要能代表該文件的字詞，在該篇所有字詞中出現的頻率愈

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

高。

2. IDF(反向文件頻率,Inverse Document Frequency)

愈重要愈能代表該文件的字詞，理應出現較多次這個基本概念，在實際操作卻會遇到一個嚴重的問題，在自然語言中，有些字詞是基本對話中常用到或者必定會用到的，所以這些字詞在TF 的觀念中，必然是該篇文中頻率甚高的字詞，且在每一篇文件中，也必然都會出現這些高頻率的字詞；而足以代表該篇文件特徵重要性的字詞，理應只會在這些文件中出現頻率較高，並不會在每一篇文件都有很高的頻率，於是使用IDF 反向文件頻率概念修正這些問題，其主要目的是修正字詞在所有文件和該篇文件中的權重。

3. TF-IDF

將TF 做 IDF 的修正後即為 TF-IDF，其值為 TF 與 IDF 兩者之乘積，所代表之意義為字詞在文件中的重要性，與其在該文件中出現的頻率成正比，但與其在所有文件集中出現的文件數量成反比，原因是字詞在該文件中出現頻率愈高代表其重要性愈高，而該字詞在所有文件集中出現之頻率愈低代表該字詞在該文件重要性愈高。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4. Weight 正規畫

當兩篇文件之其中一字詞分別出現1 次和 10 次，而文件長度卻分別是 100 字和1000 字時，字詞之權重有可能受到文件長度而受到影響，為了避免這種情況發生，須對權重針對其文件長度做正規劃。

2.2.6.

向量空間模型的運用

向量空間模型(Vector Space Model，VSM) 是一種簡便且高效率的文件表示模型，能將非結構化的文件資訊，以向量的形式建構在模型中，為往後的各種文件資訊處理操作奠定了數學計算的基礎，是目前最廣為使用的資訊檢索模型。

向量空間模型的關鍵在於特徵向量的權值計算和特徵向量的選取兩個部分，將使用者的查詢要求(query)和資料庫中的所有文件，依照前述之文件特徵值選取，依其關鍵字詞之權種所組成的向量，將這些向量建構在模型中，透過計算向量之間的距離，即可判斷使用者的查詢要求和模型中所有文件的相似程度，根據相似度查詢結果來做下一步分析計算。下圖2-3 為一個向量空間模型基本的呈現方式，並針對其向量表示法和以字詞為單位組成的文件矩陣做說明。

圖 2-3 向量空間模型 (資料來源：Salton & Gill, 1983)

TERM1

TERM2

TERM3

DOC1 = (TERM11, TERM12, TERM13)

DOC₂ = (TERM₂₁, TERM₂₂, TERM₂₃)

DOC₃ = (TERM₃₁, TERM₃₂, TERM₃₃)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

1. 向量表示法：

在向量空間模型的概念中，不論文件長短(文章、段落、句子)，我們可以將每一份文件，以文件為單位分別轉化為向量來表示，一份文件即為空間中的一個向量，而向量的組成則為其文件中所有字詞的權重值來表示，假設一份文件用DOC 表示，而 w1、w2、w3…為其文件組成字詞之權重值，故文件 DOC 的向量可以寫成DOC = (w1,w2,w3,…,wn)一向量表示。

2. 字詞-文件矩陣(Term-DocumentMatrix)：

當所有文件都轉換為向量呈現以後，為了針對所有文件做分析計算，便將所有文件之向量集合以文件矩陣方式呈現，如下圖2-4 所示(i 篇文件、j 個相異的字詞特徵權重)。在資訊檢索中，藉此方便計算使用者的查詢要求和文件間的相似度；或者在其他文字分析處理中供後續計算，例如：文件的分群和分類處理中，也必須利用此方式計算文件間向量的相似度來進行處理。

圖 2-4 向量空間模型中的字詞-文件矩陣 (資料來源：本研究整理)

DOC1 W11 W12 … … … W1j

DOC2 W₂₁ W₂₂ … … … W_2j

DOCi W_i1 W_i2 … … … W_ij

… … … … … … …

‧

的相似度程度，最常使用的方法為計算兩文件向量的餘弦相似度(Cosine

Similarity)，計算時須以兩組基底和維度相同的文件向量，利用餘弦夾角公式計

‧

2.3.1. k-最鄰近演算法(k-Nearest Neighbor ,kNN)

k-最鄰近法是由 T.M. Cover 和 P.E. Hart 兩位學者在 1967 年所提出，在過去

‧

了。(mmdays,2007)

本研究將使用kNN 群集分析法，將上述新聞文件透過中文斷詞、特徵值選檢索中常見的評估的方式來評估分群結果之績效，如：精確率(Precision Rate)、

召回率(Recall Rate)等，精確率是指搜尋到的所有結果中，含有正確的結果比例，而召回率則是所有正確的結果中，被搜尋到的比例，二者間，只要將搜尋的樣本數縮小即可提升精確率，但也因樣本大幅縮小，造成召回率大幅下降；

而將搜尋的樣本提升，則召回率就會提高，相對地也會搜尋到許多的錯誤結果，造成精確率下降。因此為了避免造成不同指標之結果不一的情況發生，可以使用F-measure 方法改善，F-Measure 是精確率與召回率二個數值的協調平均值，各取所長之結果，其值介於0 和 1 之間。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2-7 評估標準示意圖 (資料來源：陳柏均, 2011) 第四節、 文獻探討小結

由文獻探討得知新聞與股價波動具有一定的相關性和連動性，且口碑提供潛在顧客使用經驗的參考來源，以及提供相關性與完整性更高的參考價值，可以降低投資風險與不確定性，又網路口碑具有即時性無時空限制，可馬上進行詢問與回應，或歷史資訊也很好取得，而網路新聞之評論屬於網路口碑的一種，因此本研究將透過網路新聞平台上的新聞文章及其閱讀者的回應，用文字探勘的相關技術及kNN 分群技術，配合歷史股價資訊，試圖找出和股價波動的相關性，進而提出預測。

TP FP

TP：資料屬於該類別，系統判斷屬於該類別 FP：資料不屬於該類別，

系統判斷屬於該類別 TN：資料屬於該類別，系統判斷不屬於該類別 FN：資料不屬於該類別，

系統判斷不屬於該類別

TP+FP：系統分類結果 TP TN 正確的分類結果 FN

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

領域的專業程度不一，所以只選擇Yahoo 奇摩新聞平台之財經分類新聞中鉅亨網的新聞做為資料來源，截至2012 年 05 月 21 日~2013 年 01 月 24 日止，共計 1068 篇之網路新聞與其閱讀者之評論，為了考量資料的週延性和預測性，這些資料的前三分之二也就是前712 篇做為訓練資料之用途，後 356 篇則作為後續測試資料之預測用途，而訓練資料中，為了確保能在上漲與下跌這個週期中皆能有資料入選，故接著在訓練資料中，隨機抽取三分之二的資料量作為真正的訓練資料，而剩餘的資料則可以做為回顧這個模型的資料。新聞與評論之範例如下頁中表3-1、表 3-2。

另外，本實驗也同步蒐集個股之歷史股價交易資料，經由台灣證券交易所的網頁中，擷取存入本實驗資料庫，作為後續計算分類模組的重要資料。

圖 3-2 上漲、下跌週期圖示

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 3-1 網路新聞範例

標題：鴻海80 元保衛戰！今年市值蒸發 1065 億元每個交易日少 28 億元...

發布時間：2013-03-05 13:30

蘋果(US-APPL)股價仍未見止跌，續跌 2.4%，在 420 美元附近掙扎，鴻海 (2317-TW)股價也難擺脫蘋果拖累，今天

還是上演開高走低，日線拉出第7 根黑棒，面臨 80 元關卡保衛戰，早盤並曾失守80 元。鴻海今年以來，是讓投資人最傷心的標的之一，今年以來跌幅達 1 成，市值蒸發約 1065 億元，以今年以來 38 個交易日估算，平均每個交易日市值跌掉28 億元。

鴻海去年底收盤價為88.9 元，隨蘋果訂單雜音不斷，蘋果股價持續走軟，鴻海今年以來，遭到內外資法人聯手砍殺，今年以來，外資共賣超鴻海達19 萬張，投信、自營商也聯手賣超6.7 萬張，三大法人今年以來共賣超鴻海逾 25 萬張。

鴻海今年以來股價跌多漲少，今天盤中曾失守80 元大關，盤中低點打到 79.7 元，以80 元估算，鴻海今年以來市值蒸發達 1065 億元，而今年以來僅 38 個交易日，平均每個交易日鴻海市值徵發達28 億元。

雖然鴻海今天後半場奮力守住80 元，但法人對鴻海走勢看法依舊保守，後續將有2 大觀察重點，一是 3 月底鴻海公布去

年年報，另一則是期待蘋果發表新產品的訊息，鴻海股價未能站回月線之

在文檔中應用kNN文字探勘技術於分析新聞評論影響股價漲跌趨勢之研究 - 政大學術集成 (頁 21-0)

文字探勘的架構

第二章、 文獻探討

第二節、 文字探勘與其相關技術

2.2.2. 文字探勘的架構

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.2.

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.6.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

2.3.1. k-最鄰近演算法(k-Nearest Neighbor ,kNN)

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章、文獻探討

第二節、文字探勘與其相關技術

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學