• 沒有找到結果。

第二章 研究方法與資料

第三節 合約資料與敘述統計

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

7

第三節 合約資料與敘述統計

根據 Forsythe et al. (1992) 、Forsythe et al. (1999) 及 Oliven and Rietz (2004),

邊際交易者為影響預測市場準確度之重要因素,但邊際交易者的操作定義仍未有 共識,而且不容易取得相關資料。本文根據 Luckner et al. (2006) 之作法,以過 去交易績效較佳的交易者占全部交易者的比重定義邊際交易者。本文將選舉期貨 的各項交易記錄,整理出六大類變數:邊際交易者、市場共識程度、市場交易特 徵、議題預測困難度、分身變數及選舉特徵變數,總共 40 個的原始變數如下:

表 3 變數類別與定義

變數類別 變數名稱 變數描述

邊際交易者 GP_share_lyc_R 前一年度總績效排名前 R 名當中,參與該合約的人數,佔該 合約清算日前一天總參與人數的比例, R=100, 200, 300。

GP_share_lyc_S% 前一年度總績效排名前 S %當中,參與該合約的人數,佔該

合約清算日前一天總參與人數的比例, S=1, 5, 10。

GP_share_365d_T 在最近 365 天清算合約的總績效排名前 T 名當中,參與該合

約 的 人 數 , 佔 該 合 約 清 算 日 前 一 天 總 參 與 人 數 的 比 例 , T=100, 200, 300。

GP_share_365d_U% 在最近 365 天清算合約的總績效排名前 U %當中,參與該合

約的人數,佔該合約清算日前一天總參與人數的比例, U=1, 5, 10。

GP_share_30d_V 在最近 30 天清算合約的總績效排名前 V 名當中,參與該合

約 的 人 數 , 佔 該 合 約 清 算 日 前 一 天 總 參 與 人 數 的 比 例 , V=100, 200, 300。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8

GP_share_30d_W% 在最近 30 天清算合約的總績效排名前 W %當中,參與該合

約的人數,佔該合約清算日前一天總參與人數的比例, W=1, 5, 10。

Limit_ratio_volume 限價成交口數佔全部成交口數之比例。

市場共識程度 WBAS2_all 該合約所有未成交委託單的加權買賣叫價差距,其數學定義

為:

=∑ 賣單叫價×賣單口數 − ∑ 買單叫價×買單口數

∑ 賣單口數+ ∑ 買單口數

Buy_sell 委買單口數相對於委賣單口數的比例。

市場交易特徵 Trades 參與該合約交易的交易量。

Traders 參與該合約交易者的人數。

Days 從該合約開始進行交易到合約清算前一天的交易天數。

Volume 參與該合約的交易合約口數。

Two_way 雙向交易者佔全部交易者的比例。

IP_share 臺灣交易者相對於全部交易者的比例,臺灣交者是指使用交

易的網路 IP 註冊地點在臺灣。

Traded_order_ratio 全部成交的委託單數量,除以全部的委託單數量。

預測議題困難程度 Highest-price 該合約組內,所有加權平均價中最高者。

節建構樣本外預測模型(out-of-sampling test model)。在操作過程中,某些樣本 內合約較少而易發生「共線性問題」,使用 STATA 軟體估計 Logit 時,軟體功能

行鑑別。不過,Logit 模型的鑑別未正確準確率只有 64.10%。鑑別未正確預測(X) 組共有 39 個合約,其中有 25 個合約確實是「違反最高價準則」,但是出現 14

的成交比例 (limit_ratio_volume)」和「邊際交易者 (GP share)」相關變數皆明顯 小於整體平均,表示在市場獲利績效較好的參與者(亦即邊際交易者)未能加入 (B)與(C)組合約的交易,導致預測效率不佳,為(B)與(C)組合約預測失準的共同 因素,這個結果與預測市場文獻一致。「市場共識程度」的變數(WBAS2_all),

在(B)與(C)組數據皆呈現出共識程度不足的狀態,表示其最後的價格可能不是一

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

13

個長期均衡價格。8

在(B)組內合約當中,其事實上是符合最高價準則,但卻被 Logit 模型誤判將 違反最高價準則,因此我們稱該組合約滿足統計學中的「型一錯誤 (type I error)」

定義。9由表 6 發現(B)組 14 個合約中的「第一高價 (maxp)」變數,其平均值 64.35 明顯小於全部合約的平均 85.11;「第一高價與第二高價之價差 (DIFF)」變數,

其平均值 32.63 亦明顯低於全部合約的平均值 67.73。綜合以上兩變數的觀察,

最高價未達一定門檻,以及差價差距尚未完全拉開,使得(B)組合約被 Logit 模型 誤判為「最高價準則不成立」。10

在(C)組合約當中,選後得知實際是「不符合」最高價準則,但在選前卻被 Logit 模型誤判「將會符合」最高價準則,因此 Logit 模型在選前亦可能發生「型 二錯誤 (type II error)」。觀察表 6 發現,第一,在(C)組的平均交易人數約為 41 人,而全部 650 個合約的平均交易人數落在 128 人左右;第二,(C)組的平均成 交筆數約為 90 筆,而全部 650 個合約的平均成交筆數落在 560 筆上下;第三,

(C)組的平均成交期貨口數約為 6,028 口,而全部 650 合約的平均成交期貨口數約 為 166,863 口。從以上三項數據發現,「交易量不足」為模型產生型二錯誤之誤 判主因。

8 另一個市場共識變數:buy_sell,「高雄市長_黃俊英」與「國民黨副總統候選人_王金平」,其 buy_sell 的數據皆超過 41,428,使得整體平均來到 247 之譜,但我們觀察其他約 630 合約,buy_sell 大致上落於 10 以下,而(B)與(C)組無法根據此一變數,對照整體平均來決定共識程度。

9 本文設定檢定的虛無假設(null hypothesis)為「最高價準則成立」,原因為本文資料合約中,已有 九成比例符合最高價準則。

10 「第一高價」與「第一高價與第二高價之價差」變數,在 Logit 迴歸係數未能顯著,因此本文 模型作鑑別樣本時,無法充分運用此兩變數來篩選合約,Logit 迴歸係數可參閱附錄 1。

GP_share_lyc_100 0.0015 0.0010 0.0000 0.0017 0.0015

GP_share_lyc_200 0.0026 0.0014 0.0000 0.0024 0.0025

GP_share_lyc_300 0.0033 0.0017 0.0000 0.0031 0.0032

GP_share_lyc_1 0.0034 0.0018 0.0000 0.0033 0.0033

GP_share_lyc_5 0.0202 0.0210 0.0194 0.0262 0.0204

GP_share_lyc_10 0.0798 0.0519 0.0547 0.0586 0.0780

GP_share_365d_100 0.0007 0.0001 0.0000 0.0014 0.0007

GP_share_365d_200 0.0011 0.0002 0.0000 0.0015 0.0011

GP_share_365d_300 0.0047 0.0003 0.0000 0.0018 0.0044

GP_share_365d_1 0.0046 0.0003 0.0000 0.0017 0.0044

GP_share_365d_5 0.0195 0.0046 0.0017 0.0249 0.0191

GP_share_365d_10 0.0527 0.0211 0.0239 0.0402 0.0511

GP_share_30d_100 0.0314 0.0200 0.0246 0.0179 0.0306

GP_share_30d_200 0.0408 0.0232 0.0253 0.0254 0.0396

GP_share_30d_300 0.1054 0.0272 0.0573 0.0274 0.1000

GP_share_30d_1 0.0013 0.0000 0.0000 0.0002 0.0012

GP_share_30d_5 0.0080 0.0036 0.0031 0.0065 0.0077

GP_share_30d_10 0.0373 0.0231 0.0246 0.0227 0.0363

limit_ratio_volume 0.8471 0.7528 0.7521 0.7873 0.8413

WBAS2_all 39.0452 49.4913 53.8414 33.2525 39.2750

Buy_sell 110.5650 1.4991 1.4547 3774.0080 247.4390

trades 544.4010 549.8571 90.3000 1116.8400 559.5492

traders 117.8120 180.3571 41.1000 389.6000 128.4323

days 113.9800 45.1429 46.6000 43.6400 108.7554

volume

traded_order_ratio 0.5036 0.5464 0.4954 0.5401 0.5058

maxp 86.5916 64.3483 82.0369 62.2507 85.1062

NC 6.1514 4.4286 4.1000 4.4400 6.0169

DIFF 70.3613 32.6341 61.9569 26.6193 67.7370

avatar_ratio_3 0.4552 0.3180 0.3308 0.3757 0.4473

avatar_15d_ratio_3 0.3177 0.3716 0.3211 0.4537 0.3242

avatar_30d_ratio_3 0.3294 0.3613 0.3255 0.4266 0.3337

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

16

avatar_365d_ratio_3 0.3717 0.3589 0.3264 0.4224 0.3727

avatar_volume_ratio_3 0.6565 0.6248 0.5547 0.6625 0.6545

avatar_volume_15d_ratio_3 0.5569 0.6545 0.6028 0.7166 0.5658

avatar_volume_30d_ratio_3 0.5827 0.6491 0.5722 0.7077 0.5888

avatar_volume_365d_ratio_3 0.6558 0.6248 0.5547 0.6625 0.6539

Pw 23.1357 54.4174 41.0247 53.5319 25.2538

綜觀上述數據,邊際交易者少、市場共識程度不足可能造成選舉預測失準。

此外,當每一選區的最高價大於整體平均值,且最高價與第二高價有足夠差距,

則最高價準則較容易成立 (例如(A)組內合約),即 Logit 模型愈不易產生型一錯 誤。再者,若沒有充足的成交量與選情資訊時,Logit 模型可能發生型二錯誤。

第二節 4 個鑑別模型之鑑別力比較

其他三個模型依照類似的過程進行預測鑑別分析。為了精簡篇幅,本文省略 其 他 三 個 模 型 贅 述 , 我 們 直 接 比 較 四 種 模 型 的 鑑 別 準 確 率 。 上 面 的 模 型 Original-Logit 模型為原始變數的 Logit 鑑別模型,PCA-Logit 模型為主成分變數 的 Logit 模型、Original-DA 模型為原始變數的 DA 模型,與 PCA-DA 模型為主 成分變數的 DA 模型。ARCI 為鑑別正確準確率,ARII 為鑑別未正確準確率。

Original-Logit 模型的 ARCI 為 98.36%、ARII 為 64.10%,PCA-Logit 模型的 ARCI 為 96.75%、ARII 為 44.12%,Original-DA 模型的 ARCI 為 96.21%、ARII 為 64.71%,PCA-DA 模型的 ARCI 為 94.88%、ARII 為 33.33%。總體而言,

Original-Logit 模型的 ARCI 為最高,ARII 則與略低於 Original-DA 模型。以下將

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

18

第一節 2008 年總統大選前夕

首先,本文先以 2008 總統大選為例,說明 Original-Logit 模型的樣本外測試 過程。依時間順序從第 1 個合約至第 T1 個合約為樣本內資料,其每一合約包含 40 個自變數與 1 個依變數(最高價準成立與否的 0 或 1 虛擬變數),總共 T1 組資 料輸入 STATA 軟體,即可得到一組 Logit 迴歸係數。下一步驟我們定義樣本外 資料範圍:第 T1+ 1筆合約至第 T2 筆合約,總共有( T2 − T1)組的自變數與依變 數,再將此數據代入 Logit 迴歸係數,即可得到( T2 − T1)個 Logit 配適值。最後,

把配適值結果比較樣本平均數後,即可將樣本外合約區分成鑑別正確組和鑑別未 正確組。選舉結束後,我們便可以得到樣本外預測的鑑別準確率。分析流程如圖 2 所示:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

20

根據最高價準則,預測市場準確預測樣本內的選舉合約比例為 92.79%,最 高價準則不成立的樣本機率為 7.21% (100-92.79%)。Logit 模型對樣本內合約的鑑 別正確準確率達 97.74%,比最高價準則的預測準確率高,鑑別未正確準確率為 73.91%。(見表 8)

表 8 2008 年總統大選前之樣本內 333 個合約的 Logit 迴歸分組結果 Logit 分組情況

預測分組 分組內個數 鑑別正確預測組(O) 鑑別未正確預測組(X)

事實正確預測組(T) 309 303(A) 6(B)

事實未正確預測組(F) 24 7(C) 17(D)

準確率 92.79% 97.74% 73.91%

根據樣本內合約訓練的 Logit 模型進行樣本外測試。表 9 為樣本外測試結果,

Logit 模型對樣本外樣本的鑑別正確準確率有改善且高達 100%。不過,Logit 模 型的鑑別未正確準確率卻只有 26.67%,預測能力大幅下降。

表 9 2008 年總統大選之樣本外 78 個合約的 Logit 迴歸分組結果

Logit 分組情況

預測分組 分組內個數 鑑別正確預測組(O) 鑑別未正確預測組(X)

事實正確預測組(T) 74 63(A) 11(B)

事實未正確預測組(F) 4 0(C) 4(D)

準確率 94.87% 100.00% 26.67%

2008 年總統選舉預測的合約共有 78 個。若未使用本文的鑑別模型,僅使用 最高價準則,將有 94.87%正確預測選舉結果。但是,即使在選前知道選舉預測 合約的價格,亦無法區分哪些合約會符合最高價準則,哪些合約會發生預測錯誤。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

本文引入 Logit 鑑別方法,在「選舉前」可篩選出 63 個合約,該模型對選舉預 測合約的鑑別結果有 100%的預測準確率。

以下進一步比較四個模型對 2008 年總統選舉預測的樣本外預測能力。

Original-Logit 模型樣本外的 ARCI 為 100%,ARII 為 26.67%;Original-DA 模型 的 ARCI 為 100%,ARII 為 23.53%;PCA-Logit 模型的 ARCI 為 95.89%,ARII 為 20.0%;PCA-DA 模型的 ARCI 為 94.74%,ARII 為 0%。整體而言,Original-Logit 模型在 2008 年總統大選預測樣本外的預測能力都是最高。(見表 10)

表 10 四個鑑別模型對 2008 年總統大選預測的樣本外測試結果

機制 (A)組 (C)組 (B)組 (D)組 ARCI ARII

Original-Logit 模型 63 0 11 4 100% 26.67%

Original-DA 模型 61 0 13 4 100% 23.53%

PCA-Logit 模型 70 3 4 1 95.89% 20.00%

PCA-DA 模型 72 4 2 0 94.74% 0.00%

從交易結束、選舉結果揭曉前的鑑別模型,我們可以進一步發現鑑別模型在 事前、個別準確率的作用。例如,從 78 個大選的有效交易合約中,我們找出下 列 6 個合約(共 3 個選區群組),最終預測市場的交易結果顯示,按照最高價原則,

馬英九會當選總統(85.57 > 16.10),台南市最高票為謝長廷(58.83 > 42.92),

而雲林縣最高票為馬英九(61.80 > 44.48)。

0.4%、27.2%、41.38%、67.51%,都遠低於 2008 年總統選舉前選舉預測事件樣 本內,最高價準則成立的平均樣本比率(92.79%)。換言之,Original-Logit 鑑別 模型認定最高價準則在此 4 個合約成立不成立(X 組),可以事前認定此 4 合約 的最終結果與「未來事件交易所」的預測未必一致。(見表 12)

Original-Logit 模型鑑別「最 高價準則」成立之配適機率

Original-Logit 模型 鑑別組別

說明:謝長廷在全國、台南市與雲林縣的得票數為:5444949、216815 與 199558,馬英九的得票 數分別為:7659014、223034 與 187705。

第二節 2009 年縣市長選舉前夕

對於一般的民眾來說,相對會較關注「有興趣」或「所在縣市」等特定的選

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

24

舉合約,而非市場所有合約。以表 14 的 2009 年縣市長選舉為例,預測市場的歷 史準確度為 93.39%,但民眾無法確認自己關注的合約是否落在 6.61% 預測失準 的合約當中。本文方法將 2009 年縣市長選舉前的 469 個樣本內合約,利用 Logit

舉合約,而非市場所有合約。以表 14 的 2009 年縣市長選舉為例,預測市場的歷 史準確度為 93.39%,但民眾無法確認自己關注的合約是否落在 6.61% 預測失準 的合約當中。本文方法將 2009 年縣市長選舉前的 469 個樣本內合約,利用 Logit

相關文件