• 沒有找到結果。

第三章 研究方法

3.2. 樣本選取與資料來源

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第三章 研究方法

3.1.系統架構

本章將針對本研究之樣本資料來源、取得方式、資料欄位項目、定義及資料前處 理方式做明確的描述。資料探勘工具使用的是 Weka(Witten,I.,

Frank,E.,Hall,M.,& Pal,C.,2016),原因是考量到 Weka 為 open source 的工 具,免費且取得容易,易於使用,功能完整並有許多擴充的套件,若有預算亦有 其他商業資料探勘軟體如 SAS2、RapidMiner3,可供選擇。在取得實驗資料後,

將所得到的資料使用 SFS 特徵選取方法來擷取影響填權息的關鍵特徵,再使用本 文定義好類別的測試資料與關鍵特徵,透過支持向量機(Support vector machine)、C4.5 決策樹(Decision tree)分類演算法,以 Weka 作為建模工具,

用各種參數組合學習出分類規則,進行預測模型的建立,最後分析比較不同類型 樣本、不同方法、不同參數之分類模型效能優劣。

3.2.樣本選取與資料來源

3.2.1.資料樣本

本文為考量樣本的有效性,以「台灣 50 指數」與「台灣中型 100 指數」之成分 股,作為研究樣本,「台灣 50 指數」係由臺灣證券交易所與英國富時指數有限公 司(FTSE)合作,挑選我國集中交易市場中市值前 50 大之上市公司之股票所編 製而成,約佔台灣加權股價指數 7 成市值。成分股的變動則是由市場專業人士組 成獨立的指數諮詢委員會來進行管理,委員會負責在每年一、四、七和十月進行

2 SAS (https://www.sas.com/zh_tw/home.html)

3 RapidMiner (https://rapidminer.com)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

經營管理效率。會計準則更換為國際會計準則後,財務比率因會計制度改變,在 計算上有前後差別,且在會計準則變更前台灣上市櫃公司之財務簡表是以母公司 為主編製,更換會計準則後則以合併報表為主來編列財務簡表,為避免財務指標 計算方式改變造成預測模型預測失準,研究樣本期間取自 2013 年至 2015 年之資 料。

本研究所使用的自變數包含「股利相關指標」與「財務相關指標」共 21 個,股 價資料以「日」為週期單位,而財務資料週期,則以「季」為單位。因台灣地區 所公開的上市公司財務資料,最短週期為季,並無法取得更短週期(如月、日) 資料,若使用年資料則會使樣本數過少,因此本研究財務資料單位都以「季」為 基本的資料週期。股價資料雖可以細分至分時資料,也就是每分鐘的個股股價,

但本研究目的為探討完全填權息的關鍵影響因素,完全填權息成功與否的時間期 限為三個月,以此論述,股價資料以「日」為週期單位較為妥適。整理後完整輸 入變數如表 3.3 所示,X1 至 X4 為 「股利相關指標」;X5 至 X21 為「財務 相關指標」。變數 X1 與 X4 的資料無疑慮一年度只有一個。X2、X3、X5 三項 資料會隨每日股價變化而不同,因此本研究定義,以該個股當年度除權息日前一 日收盤價為基準去計算。X6 至 X21的資料則因台灣股票市場除權息日期大都在 第三季,所以本研究定義,以該個股當年度第二季之財報資料為準。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

財經資料庫,若所需資料有不足之處,由原始資料推導而來。