資料前處理模組 - 研究設計 - 研究方法與設計 - 應用文字探勘文件分類分群技術於股價走勢預測之研究─以台灣股票市場為例

第三章研究方法與設計

第二節研究設計

3.2.2 資料前處理模組

國

立政治大學

‧

Na tiona

l Ch engchi University

第二節研究設計

3.2.1 資料來源

本研究的主要資料分為個股相關新聞和台北股市的歷史交易資料。由於資訊與網路的發達，現今除了如 Google、Yahoo、PCHome 等入口網站之外，

亦有如鉅亨網、MoneyDJ 理財網等專門提供財經資訊的網站，或聯合知識庫這類的大型書報資料庫網站，皆有提供內容豐富的財經相關新聞，因此在搜尋個股相關新聞時有非常多的資料來源可供選擇。

而在檢視過各網站的新聞文件後，由於多數網站內的新聞，皆有一篇新聞內含多支個股訊息的情況，考慮到新聞品質對往後研究的影響，本研究採用能提供較高品質新聞的鉅亨網作為資料來源；而台北股市的歷史交易資料則使用台灣證券交易所作為資料來源。

為了符合本研究之需求，必須選擇股價波動大，新聞發布量多的個股進行實驗，因此挑選下列三檔個股為本研究實驗使用之指標：宏達電(2498)、

台積電(2330)與鴻海(2317)，新聞的時間區間介於 2012 年 6 月至 2013 年 5 月，總篇數共 731 篇。

3.2.2 資料前處理模組

1. 中文斷詞：

目前坊間能提供中文斷詞的工具有中研院研發的 CKIP 中文斷詞系統、

Yahoo! Content Analysis API、Mmseg4j、Lemur(Indri)等四種，本研究經測試後發現，由於 CKIP 內建的中文詞庫對於本研究之新聞文件能做有效且快速的斷詞，且本身有提供 client 端的 API，在操作上也相當方便，故採用該工具作為本研究的斷詞工具，以下為 CKIP 處理斷詞前後的對照範例：

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

斷詞前：

花旗：宏達電高階市場難禦蘋果、三星夾擊下修目標價至 310 元

斷詞後：

花旗(N) ：(COLONCATEGORY) 宏達電(N) 高階(A) 市場(N) 難(Vi) 禦(VC) 蘋果(N) 、(PAUSECATEGORY) 三星(N) 夾擊(Vt) 下修(Vt) 目標價(N) 至(C)

３１０(DET) 元(N)

CKIP 中文斷詞系統會依照內建詞庫將輸入文章做斷詞處理並標上詞性，本研究僅採用的形容詞(A)、名詞(N)、不及物動詞(Vi)與及物動詞(Vt) 等四種詞性之詞彙，而其他如連接詞(C)、數量(DET)、介詞(P)等詞性之詞彙或標點符號在本研究中較不具影響力，因此在這個階段會被過濾掉不進入資料庫。經過斷詞處理後可以得知文章內各詞彙之詞性，當未來我們需要刪減文件特徵時，也能透過判斷詞彙詞性的方式，擷取出較具代表性的特徵詞彙，並刪除較不具有實質意義的詞性之詞彙。

2. 特徵值選取：

為了讓文件達到自動化分類，必須由各篇文件中擷取出足以代表該文件的特徵。本研究使用 TFIDF 和 TFC-Weighting 作為新聞文件的特徵值：

(1) TFIDF：

TF 為一詞彙出現在某一文章內的次數，記為𝑡𝑡𝑡𝑡𝑡𝑡,𝑑𝑑，t 和 d 分別代表對應的詞彙和文件。 IDF 為 DF 之倒數取對數後的結果，假定 DF 記為 𝑑𝑑𝑡𝑡𝑡𝑡，表示出現詞彙 t 的所有文件總數，所有文件的總數是N，詞彙 t 的 IDF 定義如下：

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

𝑖𝑖𝑑𝑑𝑡𝑡𝑡𝑡 = 𝑙𝑙𝑙𝑙𝑙𝑙_{𝑑𝑑𝑑𝑑}^𝑁𝑁

𝑡𝑡 ………(1)

而一詞彙 t 的 TFIDF 為 TF(詞頻)和 IDF(逆文件頻率)之乘積：

𝑡𝑡𝑡𝑡𝑖𝑖𝑑𝑑𝑡𝑡_𝑡𝑡 = 𝑡𝑡𝑡𝑡_{𝑡𝑡,𝑑𝑑}∗ 𝑙𝑙𝑙𝑙𝑙𝑙_{𝑑𝑑𝑑𝑑}^𝑁𝑁

𝑡𝑡 ……… (2) 由於 CKIP 將斷詞結果傳回 Clinet 端時的結果格式較不統一，故本研究採用 CKIP 提供的詞頻統計工具統計 TF，而其提供的詞頻工具輸出檔案的格式為 Unicode，因此需要再做一次轉碼才能在 Java 平台上加以利用。

(2) TFC-Weighting：

因為 TFIDF 沒有考慮到不同文件的長度不一，於是將某一詞彙除以文件中所有詞彙之權重平方和再開根號，即可將文件之長度予以正規畫，這樣一來不同的文件就可以互相比較(Popescu，2001)，修正後的公式如下：

𝑡𝑡𝑡𝑡𝑡𝑡_{𝑡𝑡,𝑑𝑑} = ^{𝑡𝑡𝑑𝑑}^{𝑡𝑡,𝑑𝑑}^{× 𝑖𝑖𝑑𝑑𝑑𝑑}^{𝑡𝑡,𝑑𝑑}

�∑_𝑗𝑗=1^𝑀𝑀 �𝑡𝑡𝑑𝑑_{𝑡𝑡,𝑗𝑗} × 𝑖𝑖𝑑𝑑𝑑𝑑_{𝑡𝑡,𝑗𝑗}�²

……… (3)

3. 向量空間轉換

在進行文件相似度計算前，需將文件轉換成向量空間模型表示，因此我們能藉由如 TFIDF 和 TFC-weighting 等特徵值的權重計算，將斷詞後的各個詞彙在文章中所佔的權重值計算出來，並透過相似度計算(Cosine Coefficient) 來進行分群與分類，其公式如下：

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

Cosine(x,y) = ^∑^𝑖𝑖=1^𝑡𝑡 ^𝑥𝑥^𝑖𝑖^𝑦𝑦^𝑖𝑖

�∑_𝑖𝑖=1^𝑡𝑡 𝑥𝑥²�∑_𝑖𝑖=1^𝑡𝑡 𝑦𝑦² ………(4)

x、y 分別代表兩向量文件，t 表示兩向量文件之維度，若兩文件的維度比例皆相同，即兩互相向量平行，則其夾角為 0，兩向量的餘弦係數為 1，

代表著這兩文件有極高的相似度，反之，當兩文件的維度比例不盡相同時，

餘弦係數將降低，代表著兩文件並不相似。

在文檔中應用文字探勘文件分類分群技術於股價走勢預測之研究─以台灣股票市場為例 - 政大學術集成 (頁 29-32)

資料前處理模組

第三章 研究方法與設計

第二節 研究設計

3.2.2 資料前處理模組

國

立 政 治 大 學

‧

第二節 研究設計

3.2.1 資料來源

3.2.2 資料前處理模組

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第三章研究方法與設計

第二節研究設計

立政治大學

第二節研究設計

立政治大學

立政治大學

立政治大學