• 沒有找到結果。

第三章 研究方法

3.3. 資料前處理

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

財經資料庫,若所需資料有不足之處,由原始資料推導而來。

3.3.資料前處理

資料前處理包含資料整合、資料清理(Data cleaning)與資料轉換。資料整合解 決多重資料來源的問題,原始資料來源可能為不同檔案格式,需先彙整利於後續 資料清理和轉換的工作。資料清理為運用有效方法處理資料中雜訊(Noisy data) 與遺漏資訊,這些雜訊資料包括「重複記錄」、「不正確屬性值」、「偏離值」

(Outliers)等。資料轉換則是將清理後資料轉換成適合探勘的形式,按照探勘的 需求將資料正規化或者產生新屬性等。

圖 3.1:資料前處理,資料來源:本研究整理

為計算每筆樣本之分類結果(個股從除權息日開始一季內完全填息成功與否),及 探勘所需,蒐集的原始資料有:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

 除權息資料表(TableName : dividend)

 公司

 除權息日期

 除權息日前一日收盤價(填權息目標價)

 除權息調整後參考價

圖 3.2:除權息資料表 schema,資料來源:本研究整理

 每日股價資料表(TableName : price)

 證券代碼

 日期(年月日)

 開盤價

 最高價

 收盤價

圖 3.3:每日股價資料表 schema,資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

 稅額扣抵資料表(TableName : deductible)

 公司

 年/月

 預計稅額扣抵比率

圖 3.4:稅額扣抵資料表 schema,資料來源:本研究整理

 股利政策資料表(TableName : dividendPolicy)

 公司

 股東會年度

 除息日

 股利支付率

圖 3.5:股利政策資料表 schema,資料來源:本研究整理

 財務資料表(TableName : earnings)

 公司

 年/月

 季別

 每季普通股股本

 每季每股盈餘

 每季每股淨值

 每季淨值報酬率─稅後

 每季 ROA

 每季稅後淨利率

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

 每季負債對股東權益比率

 每季負債比率

 每季流動比率

 每季速動比率

 每季現金流量比率

 每季營業利益率

 每季存貨週轉率

 每季總資產週轉率

 每季固定資產週轉率

 每季應收帳款週轉率

 每季利息保障倍數

圖 3.6:財務資料表 schema,資料來源:本研究整理

將以上原始資料轉入 SQL SERVER 2012,利於後續進行資料前處理,處理之重點 如下:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(1) 刪除缺值:倘若該年度公司未分配盈餘,沒有配發股票或股息股利,除權息 資料表內除權息日將會是缺值,此筆資料需直接進行刪除。

(2) 刪除重複資料:某些公司可能會把年度除權與除息日定在不同日期,若有此 狀況,將使該年度有重複記錄產生,影響實驗結果。因此本研究以除權或除 息日之事實較早發生日為準,刪除第二日的重複資料。

(3) 計算分類結果:除權息資料表內原先並無分類結果,需增加 Class 欄位存放,

Join dividend 和 price 兩張資料表,以該樣本公司之除權息日期開始,判 斷一季內之每日股價資訊,是否有達到填權息目標價,若有將分類結果欄位 填入「Y」,反之填入「N」。

圖 3.7:除權息資料表 schema 增加 Class 欄位,資料來源:本研究整理

圖 3.8:計算分類結果語法,資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(4) 計算股票殖利率:除權息資料表內原先並無股票殖利率欄位,需增加「股票 殖利率」欄位存放,以樣本公司之除權息後參考價與前一日收盤價之價差除 以前一日收盤價計算。

圖 3.9:除權息資料表 schema 增加股票殖利率欄位,資料來源:本研究整理

圖 3.10:計算股票殖利率語法,資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(5) 計算股價淨值比:除權息資料表內原先並無股價淨值比欄位,需增加「股價 淨值比」欄位存放,以樣本公司除權息日前一日收盤價除以該年度第二季每 股淨值計算。

圖 3.11:除權息資料表 schema 增加股價淨值比欄位,資料來源:本研究整理

圖 3.12:計算股價淨值比語法,資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(6) 格式化:將所需資料由各資料表 join 搜尋出來後,轉換為 Weka 工具所使用 的資料格式。

圖 3.13:Weka 資料格式,資料來源:本研究整理

圖 3.14:Weka 欄位中英文對照表,資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(7) 尺度化:為避免各輸入變數之數值範圍差異太大,容易造成分類器在學習過 程中的混淆,需先對原始數據進行尺度化的處理,讓所有的值落於同樣的區 間範圍(0,1)內。尺度化公式(3.1)將實現對原始數據的等比例縮放:

XnorX−Xmin

Xmax−Xmin (3.1) 其中

 Xnorm=尺度化後的數據

 X=原始數據

 Xmax=原始數據集的最大值

 Xmin=原始數據集的最小值

(8) 離散化:要從現有的資料中建立一顆決策樹,唯一的要求是,資料的屬性必 須是「類別型態」,若是連續型數據,必須先離散化過後才可以開始建立決 策樹。

(9) 分組研究:因為金融產業的特殊性,營運模式為將收取進來的借存款,放貸 出去,賺取中間的利差。把閒置的資金做風險低的投資,同時間利用加值服 務來收取手續費。所以,金融產業收入的來源就是(a)利差、(b)手續費、(c) 投資收入為主。在財報的表示上,是一個負債比極高的產業,而且沒有生產 產品,也就沒有存貨,在財務指標上,很多欄位呈現缺值,因此本文所選取 樣本台灣 50 及中型 100 的成份股中,會另外把金融產業單獨獨立出來,作 為第二組的研究。

3.4.特徵選取(Feature Selection)

本論文初步選擇了可能影響填權息因素共 21 個,透過 SFS 特徵選擇方法,找出 適合的特徵,做適度的降維,期望能更提高分類器的效率和準確性。SFS 是一種 Bottom-up 的特徵選取方法,使用時需與分類器做結合,為得到最佳實驗結果,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

分別對支援向量機與決策樹做 SFS,觀察其選取的特徵變數之異同。其步驟如 下:

步驟一:依序由 1 維測試到 21 維,並記錄每一維的最佳變數組合,因此階段旨 在找出最佳的特徵變數,所以測試每一個特徵變數時,參數設定直接使用 Weka 自動調整後給予的預設值來進行。

步驟二:為了儘可能降低模型 Overfitting 的可能性。使用 5-fold 交叉驗證,

一開始將樣本隨機分成 5 等分,每次選擇其中一個單獨的子樣本被保留作為驗證 模型的 Validation data,其他 4 個樣本為 Training data。然後計算出在 Validation data 上的正確率,重複 5 次,直到每份樣本都當過 Validation data,

從而得到 5 個正確率,然後以這 5 個正確率的平均正確率,為衡量每個指標的估 算值。

圖 3.15:5-fold 交叉驗證,資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

步驟三:選出估算值最高的特徵當作一維的特徵變數,其餘 20 個變數再分別與 此一維特徵變數結合,開始二維的測試,重複第二步驟,記錄這 20 組二維的變 數組合估算值,以最高估算值當作二維的特徵變數。

步驟四:重複上述步驟,直到計算至 21 維,最後比較各維最佳組合的分類正確 率,最高者為 SFS 所得最佳特徵變數組合。