• 沒有找到結果。

第三章 研究方法與設計

第二節 研究設計

3.2.2 資料前處理模組

立 政 治 大 學

Na tiona

l Ch engchi University

第二節 研究設計

3.2.1 資料來源

本研究的主要資料分為個股相關新聞和台北股市的歷史交易資料。由於 資訊與網路的發達,現今除了如 Google、Yahoo、PCHome 等入口網站之外,

亦有如鉅亨網、MoneyDJ 理財網等專門提供財經資訊的網站,或聯合知識 庫這類的大型書報資料庫網站,皆有提供內容豐富的財經相關新聞,因此在 搜尋個股相關新聞時有非常多的資料來源可供選擇。

而在檢視過各網站的新聞文件後,由於多數網站內的新聞,皆有一篇新 聞內含多支個股訊息的情況,考慮到新聞品質對往後研究的影響,本研究採 用能提供較高品質新聞的鉅亨網作為資料來源;而台北股市的歷史交易資料 則使用台灣證券交易所作為資料來源。

為了符合本研究之需求,必須選擇股價波動大,新聞發布量多的個股進 行實驗,因此挑選下列三檔個股為本研究實驗使用之指標:宏達電(2498)、

台積電(2330)與鴻海(2317),新聞的時間區間介於 2012 年 6 月至 2013 年 5 月,總篇數共 731 篇。

3.2.2 資料前處理模組

1. 中文斷詞:

目前坊間能提供中文斷詞的工具有中研院研發的 CKIP 中文斷詞系統、

Yahoo! Content Analysis API、Mmseg4j、Lemur(Indri)等四種,本研究經測 試後發現,由於 CKIP 內建的中文詞庫對於本研究之新聞文件能做有效且 快速的斷詞,且本身有提供 client 端的 API,在操作上也相當方便,故採用 該工具作為本研究的斷詞工具,以下為 CKIP 處理斷詞前後的對照範例:

21

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

斷詞前:

花旗:宏達電高階市場難禦蘋果、三星夾擊 下修目標價至 310 元

斷詞後:

花旗(N) :(COLONCATEGORY) 宏達電(N) 高階(A) 市場(N) 難(Vi) 禦(VC) 蘋果(N) 、(PAUSECATEGORY) 三星(N) 夾擊(Vt) 下修(Vt) 目標價(N) 至(C)

310(DET) 元(N)

CKIP 中文斷詞系統會依照內建詞庫將輸入文章做斷詞處理並標上詞 性,本研究僅採用的形容詞(A)、名詞(N)、不及物動詞(Vi)與及物動詞(Vt) 等四種詞性之詞彙,而其他如連接詞(C)、數量(DET)、介詞(P)等詞性之詞 彙或標點符號在本研究中較不具影響力,因此在這個階段會被過濾掉不進 入資料庫。經過斷詞處理後可以得知文章內各詞彙之詞性,當未來我們需 要刪減文件特徵時,也能透過判斷詞彙詞性的方式,擷取出較具代表性的 特徵詞彙,並刪除較不具有實質意義的詞性之詞彙。

2. 特徵值選取:

為了讓文件達到自動化分類,必須由各篇文件中擷取出足以代表該文件 的特徵。本研究使用 TFIDF 和 TFC-Weighting 作為新聞文件的特徵值:

(1) TFIDF:

TF 為一詞彙出現在某一文章內的次數,記為𝑡𝑡𝑡𝑡𝑡𝑡,𝑑𝑑,t 和 d 分別代表 對應的詞彙和文件。 IDF 為 DF 之倒數取對數後的結果,假定 DF 記為 𝑑𝑑𝑡𝑡𝑡𝑡,表示出現詞彙 t 的所有文件總數,所有文件的總數是N,詞彙 t 的 IDF 定義如下:

22

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

𝑖𝑖𝑑𝑑𝑡𝑡𝑡𝑡 = 𝑙𝑙𝑙𝑙𝑙𝑙𝑑𝑑𝑑𝑑𝑁𝑁

𝑡𝑡 ………(1)

而一詞彙 t 的 TFIDF 為 TF(詞頻)和 IDF(逆文件頻率)之乘積:

𝑡𝑡𝑡𝑡𝑖𝑖𝑑𝑑𝑡𝑡𝑡𝑡 = 𝑡𝑡𝑡𝑡𝑡𝑡,𝑑𝑑∗ 𝑙𝑙𝑙𝑙𝑙𝑙𝑑𝑑𝑑𝑑𝑁𝑁

𝑡𝑡 ……… (2) 由於 CKIP 將斷詞結果傳回 Clinet 端時的結果格式較不統一,故本 研究採用 CKIP 提供的詞頻統計工具統計 TF,而其提供的詞頻工具輸 出檔案的格式為 Unicode,因此需要再做一次轉碼才能在 Java 平台上加 以利用。

(2) TFC-Weighting:

因為 TFIDF 沒有考慮到不同文件的長度不一,於是將某一詞彙除 以文件中所有詞彙之權重平方和再開根號,即可將文件之長度予以正規 畫,這樣一來不同的文件就可以互相比較(Popescu,2001),修正後的公 式如下:

𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡,𝑑𝑑 = 𝑡𝑡𝑑𝑑𝑡𝑡,𝑑𝑑 × 𝑖𝑖𝑑𝑑𝑑𝑑𝑡𝑡,𝑑𝑑

�∑𝑗𝑗=1𝑀𝑀 �𝑡𝑡𝑑𝑑𝑡𝑡,𝑗𝑗 × 𝑖𝑖𝑑𝑑𝑑𝑑𝑡𝑡,𝑗𝑗2

……… (3)

3. 向量空間轉換

在進行文件相似度計算前,需將文件轉換成向量空間模型表示,因此我 們能藉由如 TFIDF 和 TFC-weighting 等特徵值的權重計算,將斷詞後的各個 詞彙在文章中所佔的權重值計算出來,並透過相似度計算(Cosine Coefficient) 來進行分群與分類,其公式如下:

23

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

Cosine(x,y) = 𝑖𝑖=1𝑡𝑡 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖

�∑𝑖𝑖=1𝑡𝑡 𝑥𝑥2�∑𝑖𝑖=1𝑡𝑡 𝑦𝑦2 ………(4)

x、y 分別代表兩向量文件,t 表示兩向量文件之維度,若兩文件的維度 比例皆相同,即兩互相向量平行,則其夾角為 0,兩向量的餘弦係數為 1,

代表著這兩文件有極高的相似度,反之,當兩文件的維度比例不盡相同時,

餘弦係數將降低,代表著兩文件並不相似。

相關文件