研究架構與步驟 - 研究設計 - 應用文件探勘技術於概念股股價共同移動之研究

第三章研究設計

第一節研究架構與步驟

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖 3-1 為本研究之研究架構圖，各步驟之過程詳述如下。

1.1 資料蒐集

數位化的趨勢，使得各大入口網站及報社均提供網路新聞，且對於新聞有完善的分類機制，因此我們能夠透過爬蟲由指定的新聞網站將研究所需新聞內容擷取下來，本研究開發一新聞下載模組，於聯合知識庫下載特定時間之新聞內容，供後續分析使用。

1.2 內容萃取

由於新聞下載模組所擷取之新聞檔皆為 html 格式，因此必頇分析其標籤內容及規則，已從中萃取出我們所真正需要的新聞內文，依照聯合知識庫新聞的格式，透過解析其中內文標籤的內容即可從中萃取出新聞內文，供後續步驟使用。

1.3 斷詞處理

目前提供中文斷詞之免費服務有 Yahoo 奇摩的中文斷詞服務以及中央研究院中文詞知識庫小組 CKIP 的中文斷詞服務。Yahoo 及中研院 CKIP 的斷詞服務皆能提供很好的斷詞結果，但鑒於 Yahoo 斷詞服務每組 API key 每天只能發出 1000 次要求的限制，因此在中文斷詞模組的部分本研究選擇使用中央研究院的 CKIP 斷詞服務。

此步驟主要始將前一步驟所萃取出的新聞內文以 HTTP POST 方式傳送給 CKIP Web Service，CKIP 斷詞服務會將斷詞的結果以 XML 格式傳回(其中包含字詞、詞性、句子等內容)。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1.4 內容過濾及索引建置

在經過段詞處理後，新聞文件會被以字詞的向量表示，由於新聞文件甚多，

在訓練後字典檔的維度會相當的高，但其中大部分都是對文件沒有鑑別力的常用字詞，因此本研究在索引建置前會將停用字詞作過濾，以減少後續處理及分析的負載。過濾方式則是利用應停用字詞表並將斷詞後的每個字詞作與停用字詞表作對應，以從文件內容中過濾掉較無意義的常用字詞。

文件內容經過濾後，本研究會將過濾後的的字詞以倒轉檔索引法建置新聞文件索引。倒轉檔索引方法是一種基本且廣泛應用於資訊檢索系統的索引方式，

其主要目的是提供快速的檢索以改善使用者建所資料的速度。其主要架構包含文件表(Documents file)、詞典表(Dictionary)以及倒轉字串表(Inversion list or posting files)三個資料表(Kowalski, 2007) 。文件表主要是記錄每筆文件的關鍵字詞；詞典表是紀錄經排序後的關鍵字詞，並紀錄其出現的文件總數(DF)及字詞編號(Term ID)，而倒轉字串表則是記錄所有文件的關鍵字詞並關聯至包含其字詞的文件編號。當使用者以關鍵字詞檢索文件時會由詞典檔找出關鍵字所對應的字詞編號(Term ID)，接著會透過字詞編號(Term ID)關聯至倒轉字串表找出字詞所出現的所有文件。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

本研究對於新聞文件之索引建置步驟如下，其示意圖如圖 3-2 所示：

1. 每篇新聞文件給予一個唯一編號(Doc ID)。

2. 對於斷詞後文件的每個字詞做拜訪，若遇到停用字詞則將此字詞移除。

3. 若字詞在索引過的文件中未曾出現過，則在詞庫中加入此字詞，並將字詞關聯至文件，並將 DF 設為 1。

4. 若字詞於已存在於詞庫之中，則直接將字詞語文件做關聯並將此字詞的 DF 加 1。

圖 3- 2 文件所引示意圖 [資料來源:本研究整理]

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1.5 關聯分析

經前幾項步驟處理完成後，所有文件皆會以向量的模式儲存於資料庫中，

另外，由於在新聞中，若內容有提到個股相關消息，都會以公司簡稱對個股作報導，例如，宏達國際電子股份有限公司在新聞報導中不會報導公司全名，而是以宏達電做代稱。本研究由臺灣證券交易所取得臺灣所有上市上櫃的公司代稱，並將此資料建置於資料庫。

因此我們能透過倒轉檔索引及布林檢索模式做檢索，使用欲查詢之概念或話題作為查詢字串，對文件資料庫做檢索，找出與此概念相關之文章。接著我們對於這些文章再作分析，找出文章所提及之個股名稱，並透過布林模式以概念名稱及個股名稱為查詢字串，一一對所有和概念相關之個股作查詢，以得到個股於此概念中所共同出現之新聞數量。接著我們再以這些與查詢之概念相關之個股名稱對詞庫做查詢，便可得到文件庫包含此個股名稱的新聞總數。經此階段處理後則會得到在查詢概念所出現個股的個股新聞篇數、與概念共同出現新聞篇數資料，接著由 Agrawal 提出之 Apriori 關聯分析演算法對資料作分析，

因此會得到個股與此概念的支持度(Support)及信賴度(Confidence)。流程如圖 3-3 所示：

‧

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1.6 雜訊過濾

在進行關聯分析後，會得到所有在使用者所查詢概念新聞中所出現所有個股之支持度及信心度結果，但財經新聞中一篇報導可能會包含多個議題(如綜合報導產業的趨勢)，有些和概念不相關的新聞也會被包含於其中。因此必頇要將這些不相關之個股做過濾，過濾方法可由關聯分析的信賴度作過濾，因為不相關的個股可能會出現在很多的新聞報導，但與查詢概念共同出現的新聞相對少量，同時也依個股新聞數量與總新聞數比例將比例過小的個股過濾，避免新聞數量過少的個股影響分析結果。

‧

在文檔中應用文件探勘技術於概念股股價共同移動之研究 - 政大學術集成 (頁 29-36)

研究架構與步驟

第三章 研究設計

第一節 研究架構與步驟

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

‧ 國

立 政 治 大 學

‧

‧

第三章研究設計

第一節研究架構與步驟

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學