資料前處理 - 研究方法 - 台股股利完全填權息關鍵影響因素之研究

第三章研究方法

3.3. 資料前處理

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

財經資料庫，若所需資料有不足之處，由原始資料推導而來。

3.3.資料前處理

資料前處理包含資料整合、資料清理(Data cleaning)與資料轉換。資料整合解決多重資料來源的問題，原始資料來源可能為不同檔案格式，需先彙整利於後續資料清理和轉換的工作。資料清理為運用有效方法處理資料中雜訊(Noisy data) 與遺漏資訊，這些雜訊資料包括「重複記錄」、「不正確屬性值」、「偏離值」

(Outliers)等。資料轉換則是將清理後資料轉換成適合探勘的形式，按照探勘的需求將資料正規化或者產生新屬性等。

圖 3.1：資料前處理，資料來源:本研究整理

為計算每筆樣本之分類結果(個股從除權息日開始一季內完全填息成功與否)，及探勘所需，蒐集的原始資料有：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

 除權息資料表(TableName : dividend)

 公司

 除權息日期

 除權息日前一日收盤價(填權息目標價)

 除權息調整後參考價

圖 3.2：除權息資料表 schema，資料來源:本研究整理

 每日股價資料表(TableName : price)

 證券代碼

 日期(年月日)

 開盤價

 最高價

 收盤價

圖 3.3：每日股價資料表 schema，資料來源:本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

 稅額扣抵資料表(TableName : deductible)

 公司

 年/月

 預計稅額扣抵比率

圖 3.4：稅額扣抵資料表 schema，資料來源:本研究整理

 股利政策資料表(TableName : dividendPolicy)

 公司

 股東會年度

 除息日

 股利支付率

圖 3.5：股利政策資料表 schema，資料來源:本研究整理

 財務資料表(TableName : earnings)

 公司

 年/月

 季別

 每季普通股股本

 每季每股盈餘

 每季每股淨值

 每季淨值報酬率─稅後

 每季 ROA

 每季稅後淨利率

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

 每季負債對股東權益比率

 每季負債比率

 每季流動比率

 每季速動比率

 每季現金流量比率

 每季營業利益率

 每季存貨週轉率

 每季總資產週轉率

 每季固定資產週轉率

 每季應收帳款週轉率

 每季利息保障倍數

圖 3.6：財務資料表 schema，資料來源:本研究整理

將以上原始資料轉入 SQL SERVER 2012，利於後續進行資料前處理，處理之重點如下：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(1) 刪除缺值：倘若該年度公司未分配盈餘，沒有配發股票或股息股利，除權息資料表內除權息日將會是缺值，此筆資料需直接進行刪除。

(2) 刪除重複資料：某些公司可能會把年度除權與除息日定在不同日期，若有此狀況，將使該年度有重複記錄產生，影響實驗結果。因此本研究以除權或除息日之事實較早發生日為準，刪除第二日的重複資料。

(3) 計算分類結果：除權息資料表內原先並無分類結果，需增加 Class 欄位存放，

Join dividend 和 price 兩張資料表，以該樣本公司之除權息日期開始，判斷一季內之每日股價資訊，是否有達到填權息目標價，若有將分類結果欄位填入「Ｙ」，反之填入「Ｎ」。

圖 3.7：除權息資料表 schema 增加 Class 欄位，資料來源:本研究整理

圖 3.8：計算分類結果語法，資料來源:本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(4) 計算股票殖利率：除權息資料表內原先並無股票殖利率欄位，需增加「股票殖利率」欄位存放，以樣本公司之除權息後參考價與前一日收盤價之價差除以前一日收盤價計算。

圖 3.9：除權息資料表 schema 增加股票殖利率欄位，資料來源:本研究整理

圖 3.10：計算股票殖利率語法，資料來源:本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(5) 計算股價淨值比：除權息資料表內原先並無股價淨值比欄位，需增加「股價淨值比」欄位存放，以樣本公司除權息日前一日收盤價除以該年度第二季每股淨值計算。

圖 3.11：除權息資料表 schema 增加股價淨值比欄位，資料來源:本研究整理

圖 3.12：計算股價淨值比語法，資料來源:本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(6) 格式化：將所需資料由各資料表 join 搜尋出來後，轉換為 Weka 工具所使用的資料格式。

圖 3.13：Weka 資料格式，資料來源:本研究整理

圖 3.14：Weka 欄位中英文對照表，資料來源:本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(7) 尺度化：為避免各輸入變數之數值範圍差異太大，容易造成分類器在學習過程中的混淆，需先對原始數據進行尺度化的處理，讓所有的值落於同樣的區間範圍(0,1)內。尺度化公式(3.1)將實現對原始數據的等比例縮放：

Xnor＝ ^X−X^min

X_max−X_min (3.1) 其中

 Xnorm＝尺度化後的數據

 X＝原始數據

 Xmax＝原始數據集的最大值

 Xmin＝原始數據集的最小值

(8) 離散化：要從現有的資料中建立一顆決策樹，唯一的要求是，資料的屬性必須是「類別型態」，若是連續型數據，必須先離散化過後才可以開始建立決策樹。

(9) 分組研究：因為金融產業的特殊性，營運模式為將收取進來的借存款，放貸出去，賺取中間的利差。把閒置的資金做風險低的投資，同時間利用加值服務來收取手續費。所以，金融產業收入的來源就是(a)利差、(b)手續費、(c) 投資收入為主。在財報的表示上，是一個負債比極高的產業，而且沒有生產產品，也就沒有存貨，在財務指標上，很多欄位呈現缺值，因此本文所選取樣本台灣 50 及中型 100 的成份股中，會另外把金融產業單獨獨立出來，作為第二組的研究。

3.4.特徵選取(Feature Selection)

本論文初步選擇了可能影響填權息因素共 21 個，透過 SFS 特徵選擇方法，找出適合的特徵，做適度的降維，期望能更提高分類器的效率和準確性。SFS 是一種 Bottom-up 的特徵選取方法，使用時需與分類器做結合，為得到最佳實驗結果，

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

分別對支援向量機與決策樹做 SFS，觀察其選取的特徵變數之異同。其步驟如下：

步驟一：依序由 1 維測試到 21 維，並記錄每一維的最佳變數組合，因此階段旨在找出最佳的特徵變數，所以測試每一個特徵變數時，參數設定直接使用 Weka 自動調整後給予的預設值來進行。

步驟二：為了儘可能降低模型 Overfitting 的可能性。使用 5-fold 交叉驗證，

一開始將樣本隨機分成 5 等分，每次選擇其中一個單獨的子樣本被保留作為驗證模型的 Validation data，其他 4 個樣本為 Training data。然後計算出在 Validation data 上的正確率，重複 5 次，直到每份樣本都當過 Validation data，

從而得到 5 個正確率，然後以這 5 個正確率的平均正確率，為衡量每個指標的估算值。

圖 3.15：5-fold 交叉驗證，資料來源：本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

步驟三：選出估算值最高的特徵當作一維的特徵變數，其餘 20 個變數再分別與此一維特徵變數結合，開始二維的測試，重複第二步驟，記錄這 20 組二維的變數組合估算值，以最高估算值當作二維的特徵變數。

步驟四：重複上述步驟，直到計算至 21 維，最後比較各維最佳組合的分類正確率，最高者為 SFS 所得最佳特徵變數組合。

在文檔中台股股利完全填權息關鍵影響因素之研究 - 政大學術集成 (頁 55-65)

資料前處理

第三章 研究方法

3.3. 資料前處理

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3.資料前處理

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.4.特徵選取(Feature Selection)

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學