分群績效評估 - 群集分析 - 文獻探討 - 應用kNN文字探勘技術於分析新聞評論影響股價漲跌趨勢之研究

第二章、文獻探討

第三節、群集分析

2.3.2. 分群績效評估

了。(mmdays,2007)

本研究將使用kNN 群集分析法，將上述新聞文件透過中文斷詞、特徵值選檢索中常見的評估的方式來評估分群結果之績效，如：精確率(Precision Rate)、

召回率(Recall Rate)等，精確率是指搜尋到的所有結果中，含有正確的結果比例，而召回率則是所有正確的結果中，被搜尋到的比例，二者間，只要將搜尋的樣本數縮小即可提升精確率，但也因樣本大幅縮小，造成召回率大幅下降；

而將搜尋的樣本提升，則召回率就會提高，相對地也會搜尋到許多的錯誤結果，造成精確率下降。因此為了避免造成不同指標之結果不一的情況發生，可以使用F-measure 方法改善，F-Measure 是精確率與召回率二個數值的協調平均值，各取所長之結果，其值介於0 和 1 之間。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2-7 評估標準示意圖 (資料來源：陳柏均, 2011) 第四節、 文獻探討小結

由文獻探討得知新聞與股價波動具有一定的相關性和連動性，且口碑提供潛在顧客使用經驗的參考來源，以及提供相關性與完整性更高的參考價值，可以降低投資風險與不確定性，又網路口碑具有即時性無時空限制，可馬上進行詢問與回應，或歷史資訊也很好取得，而網路新聞之評論屬於網路口碑的一種，因此本研究將透過網路新聞平台上的新聞文章及其閱讀者的回應，用文字探勘的相關技術及kNN 分群技術，配合歷史股價資訊，試圖找出和股價波動的相關性，進而提出預測。

TP FP

TP：資料屬於該類別，系統判斷屬於該類別 FP：資料不屬於該類別，

系統判斷屬於該類別 TN：資料屬於該類別，系統判斷不屬於該類別 FN：資料不屬於該類別，

系統判斷不屬於該類別

TP+FP：系統分類結果 TP TN 正確的分類結果 FN

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

領域的專業程度不一，所以只選擇Yahoo 奇摩新聞平台之財經分類新聞中鉅亨網的新聞做為資料來源，截至2012 年 05 月 21 日~2013 年 01 月 24 日止，共計 1068 篇之網路新聞與其閱讀者之評論，為了考量資料的週延性和預測性，這些資料的前三分之二也就是前712 篇做為訓練資料之用途，後 356 篇則作為後續測試資料之預測用途，而訓練資料中，為了確保能在上漲與下跌這個週期中皆能有資料入選，故接著在訓練資料中，隨機抽取三分之二的資料量作為真正的訓練資料，而剩餘的資料則可以做為回顧這個模型的資料。新聞與評論之範例如下頁中表3-1、表 3-2。

另外，本實驗也同步蒐集個股之歷史股價交易資料，經由台灣證券交易所的網頁中，擷取存入本實驗資料庫，作為後續計算分類模組的重要資料。

圖 3-2 上漲、下跌週期圖示

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 3-1 網路新聞範例

標題：鴻海80 元保衛戰！今年市值蒸發 1065 億元每個交易日少 28 億元...

發布時間：2013-03-05 13:30

蘋果(US-APPL)股價仍未見止跌，續跌 2.4%，在 420 美元附近掙扎，鴻海 (2317-TW)股價也難擺脫蘋果拖累，今天

還是上演開高走低，日線拉出第7 根黑棒，面臨 80 元關卡保衛戰，早盤並曾失守80 元。鴻海今年以來，是讓投資人最傷心的標的之一，今年以來跌幅達 1 成，市值蒸發約 1065 億元，以今年以來 38 個交易日估算，平均每個交易日市值跌掉28 億元。

鴻海去年底收盤價為88.9 元，隨蘋果訂單雜音不斷，蘋果股價持續走軟，鴻海今年以來，遭到內外資法人聯手砍殺，今年以來，外資共賣超鴻海達19 萬張，投信、自營商也聯手賣超6.7 萬張，三大法人今年以來共賣超鴻海逾 25 萬張。

鴻海今年以來股價跌多漲少，今天盤中曾失守80 元大關，盤中低點打到 79.7 元，以80 元估算，鴻海今年以來市值蒸發達 1065 億元，而今年以來僅 38 個交易日，平均每個交易日鴻海市值徵發達28 億元。

雖然鴻海今天後半場奮力守住80 元，但法人對鴻海走勢看法依舊保守，後續將有2 大觀察重點，一是 3 月底鴻海公布去

年年報，另一則是期待蘋果發表新產品的訊息，鴻海股價未能站回月線之前，中線均仍採保守態度。

(資料來源：

http://tw.news.yahoo.com/%E9%B4%BB%E6%B5%B780%E5%85%83%E4%BF%9

D%E8%A1%9B%E6%88%B0-%E4%BB%8A%E5%B9%B4%E5%B8%82%E5%80%BC%E8%92%B8%E7%99%

BC1065%E5%84%84%E5%85%83-%E6%AF%8F%E5%80%8B%E4%BA%A4%E6%98%93%E6%97%A5%E5%B0%

9128%E5%84%84%E5%85%83...-053010802.html)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 3-2 新聞評論範例

標題：鴻海80 元保衛戰！今年市值蒸發 1065 億元每個交易日少 28 億元...

發布時間：2013-03-05 13:30

蘋果減單...DELL/惠普訂單殞落大西部成文子館...大電視退禍...歐鐵冰封筆電運輸受阻...宏夏失戀投資碰壁....種什麼因得什麼果 80 太高貴了少個 0 或許較配襯吧...唉肖掰無落魄的酷!

媚中親日的下場不只有這樣子而已

台灣最好創造一些有研發性的東西，別一直做別人的死代工奴才~

這代工的勞力錢，賺太多就是剝削廉價勞工。當工資反映回來時，就看得很清楚

如果只是代工，只有看人臉色。

鴻海高雄的軟體園區，也沒什麼進展？

目前apple 只要一打噴嚏,鴻海就會重感冒.

挺馬英九時候挺囂張挺搖擺的~~~

這種企業根本沒有研發能力！

這個姓郭的，生意不乖乖做，還搞政治，死好!

老板太關心政治,股價就會跌 (資料來源：

http://tw.news.yahoo.com/%E9%B4%BB%E6%B5%B780%E5%85%83%E4%BF%9

D%E8%A1%9B%E6%88%B0-%E4%BB%8A%E5%B9%B4%E5%B8%82%E5%80%BC%E8%92%B8%E7%99%

BC1065%E5%84%84%E5%85%83-%E6%AF%8F%E5%80%8B%E4%BA%A4%E6%98%93%E6%97%A5%E5%B0%

9128%E5%84%84%E5%85%83...-053010802.html)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.2.

資料處理模組

1. CKIP 斷詞

將新聞平台之網路新聞與該篇閱讀者之評論合併的新聞文件蒐集完成後，

接著便進入文字探勘的資料前處理中，由於文字探勘主要在處理文字運算，因此必須將其他雜亂之圖片、影音等非文字資料過濾去除，只保留文字的部分，

接著存入資料庫做後續使用。如文獻探討中，為了分析處理非結構化的文件資料，必須先對文件做斷詞處理，轉化為結構化的資料才能對其做運算，而本研究使用的斷詞系統為中研院詞庫小組所開發的CKIP 中文斷詞系統，將文件送入斷詞系統中，除了回傳文件中所有組成的字詞外，還會在字詞中附加詞性標記。以下為CKIP 斷詞系統處理前和處理後的對照範例：

斷詞處理前：

斷詞處理後：

當文件斷完詞之後，如果文件長度非常大，則後續的運算效能勢必受到影響，而在這些字詞的詞性中，名詞、動詞、形容詞等相較其他詞性，較具有實質意義，於是我們利用CKIP 斷詞系統所提供的詞性標記功能，篩選出所需詞性之字詞，並過濾其他詞性之字詞，藉此減少後續的運算過程，提升執行的效率

2. 權重計算

當斷詞完並篩選一篇文件中所有組成字詞後，便需要計算其字詞的權重，

選出具有代表性的特徵值來代表該文件的特徵，而權重值的計算為經過以下一連串的修正所求得。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

1 TF：

由於愈重要的特徵字詞愈容易重複出現在文件中，故以TF 值表示該文件中每一字詞之出現次數，以此作為文件組成的權重值，其公式如下：

tf_, _∑ ^,

, ………(式 3-1) 其中， _, 是字詞i 在文件 j 中的出現次數，而∑ _, 則是文件j 中所有字詞的出現次數之總和。

2 TF-IDF：

當該篇文件出現之字詞，在每一篇文件皆出現，其所能代表文件的重要性與出現在較少文件中的字詞相比，相對少了不少，透過TF 值做 IDF 之修正即可解決此問題。IDF 之運算如下：

idf log^{| |}………(式 3-2)

其中，| |為整個文件集的文件數，而為字詞i 出現在整個文件集中的文件數，而TF-IDF 值為 TF 與 IDF 相乘而得，公式如下：

TF IDF tf_, idf _∑ ^,

, log^{| |}………(式 3-3) 於是修正後，權重值會因字詞在其文件中出現的次數成正比，因字詞在所有文件集中出現之文件數成反比。

3 Weight：

為了避免文件長度的不同，造成權重值受到影響，故最後針對文件的長度對 TF-IDF 做正規化處理，修正此問題，其公式如下：

Weight ^,

∑ _, ………(式 3-4) 其中，W_,為該字詞之原始權重，即TF-IDF，而∑ _, 為所有字詞原始權總之平方總和。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

群集。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4. 將新進新聞文件透過與這 k 份新聞文件之間所屬群集之計算，來判斷新進新聞文件所屬於之群集，其計算方式為將取出的k 份新聞文件中，把相同群集內的所有文件與新進新聞文件的相似度做加總在除以該群集所包含的文件數，其計算公式如下：

P , ∑ _∈ , , ………(式 3-6)

其中，為新進新聞文件之特徵向量，為第j 群集所包含的文件數量，

, 為相似度的計算公式， , 為判斷群集的屬性函數，當屬於群集時，其函數值為1，反之則為 0。當計算出新進新聞文件與各個群集之相似度後，其數值最大的群集就是新近新聞文件所屬於的群集。

第四節、 分群分類績效評估

3.4.1.

分析模組

以往預測股價之相關研究中，區分漲跌的方法通常以個股之漲跌變動量作為評估標準，假設某篇新聞事件於x 日發佈，則其收盤價變動量 x 公式如下：

收盤價變動量 ^收盤價 ^收盤價

收盤價 ………(式 3-7)

而喻欣凱(2008)的研究中發現，當反應時間為前後各兩日，收盤價變動量大於0.03 時，可將此新聞事件歸類為上漲；當收盤價變動量小於 0.03 時，可將此新聞事件歸類為下跌；當收盤價變動量界於此範圍之間時則表示此新聞事件無顯著影響。如下圖3-3 所示，事件發生的三個時間點，x-2、x、x+2，當五日收盤價變動量大於0.03 時，我們可以判斷影響 x 日之事件為影響股價上漲；當收盤價變動量小於0.03 時，我們可以判斷影響 x 日之事件為影響股價下跌。

圖 3-3 反應時間與收盤價變動量圖以反應時間為前後各兩日，所計算收盤價變動量

因此本研究以此為準則，將先前所分割之所有集群，透過蒐集的歷史股價資料計算並標記其群集內之文件收盤價變動量，試圖分析解釋各個群集之特徵。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第五節、 研究流程與預期結果

3.5.1.

研究流程

1. 將網路新聞及其評論合併為一個新聞文件，並蒐集存入資料庫，同時也將台灣證券交易所之個股歷史交易資料存入資料庫供後續使用。

2. 取出新聞文件之前三分之二部分，再將其隨機抽取三分之二的資料量作為

在文檔中應用kNN文字探勘技術於分析新聞評論影響股價漲跌趨勢之研究 - 政大學術集成 (頁 29-0)

分群績效評估

第二章、 文獻探討

第三節、 群集分析

2.3.2. 分群績效評估

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.2.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.4.1.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.5.1.

第二章、文獻探討

第三節、群集分析

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學