合約資料與敘述統計 - 研究方法與資料 - 影響預測準確度之因素與判定預測準確度之模型

第二章研究方法與資料

第三節合約資料與敘述統計

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節合約資料與敘述統計

根據 Forsythe et al. (1992) 、Forsythe et al. (1999) 及 Oliven and Rietz (2004)，

邊際交易者為影響預測市場準確度之重要因素，但邊際交易者的操作定義仍未有共識，而且不容易取得相關資料。本文根據 Luckner et al. (2006) 之作法，以過去交易績效較佳的交易者占全部交易者的比重定義邊際交易者。本文將選舉期貨的各項交易記錄，整理出六大類變數：邊際交易者、市場共識程度、市場交易特徵、議題預測困難度、分身變數及選舉特徵變數，總共 40 個的原始變數如下：

表 3 變數類別與定義

變數類別變數名稱變數描述

邊際交易者 GP_share_lyc_R 前一年度總績效排名前 R 名當中，參與該合約的人數，佔該 合約清算日前一天總參與人數的比例, R=100, 200, 300。

GP_share_lyc_S% 前一年度總績效排名前 S %當中，參與該合約的人數，佔該

合約清算日前一天總參與人數的比例, S=1, 5, 10。

GP_share_365d_T 在最近 365 天清算合約的總績效排名前 T 名當中，參與該合

約的人數，佔該合約清算日前一天總參與人數的比例 , T=100, 200, 300。

GP_share_365d_U% 在最近 365 天清算合約的總績效排名前 U %當中，參與該合

約的人數，佔該合約清算日前一天總參與人數的比例, U=1, 5, 10。

GP_share_30d_V 在最近 30 天清算合約的總績效排名前 V 名當中，參與該合

約的人數，佔該合約清算日前一天總參與人數的比例 , V=100, 200, 300。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

GP_share_30d_W% 在最近 30 天清算合約的總績效排名前 W %當中，參與該合

約的人數，佔該合約清算日前一天總參與人數的比例, W=1, 5, 10。

Limit_ratio_volume 限價成交口數佔全部成交口數之比例。

市場共識程度 WBAS2_all 該合約所有未成交委託單的加權買賣叫價差距，其數學定義

為：

=∑ 賣單叫價×賣單口數 − ∑ 買單叫價×買單口數

∑ 賣單口數+ ∑ 買單口數

Buy_sell 委買單口數相對於委賣單口數的比例。

市場交易特徵 Trades 參與該合約交易的交易量。

Traders 參與該合約交易者的人數。

Days 從該合約開始進行交易到合約清算前一天的交易天數。

Volume 參與該合約的交易合約口數。

Two_way 雙向交易者佔全部交易者的比例。

IP_share 臺灣交易者相對於全部交易者的比例，臺灣交者是指使用交

易的網路 IP 註冊地點在臺灣。

Traded_order_ratio 全部成交的委託單數量，除以全部的委託單數量。

預測議題困難程度 Highest-price 該合約組內，所有加權平均價中最高者。

‧

節建構樣本外預測模型（out-of-sampling test model）。在操作過程中，某些樣本內合約較少而易發生「共線性問題」，使用 STATA 軟體估計 Logit 時，軟體功能

‧

行鑑別。不過，Logit 模型的鑑別未正確準確率只有 64.10%。鑑別未正確預測(X) 組共有 39 個合約，其中有 25 個合約確實是「違反最高價準則」，但是出現 14

‧

的成交比例 (limit_ratio_volume)」和「邊際交易者 (GP share)」相關變數皆明顯小於整體平均，表示在市場獲利績效較好的參與者（亦即邊際交易者）未能加入 (B)與(C)組合約的交易，導致預測效率不佳，為(B)與(C)組合約預測失準的共同因素，這個結果與預測市場文獻一致。「市場共識程度」的變數（WBAS2_all），

在(B)與(C)組數據皆呈現出共識程度不足的狀態，表示其最後的價格可能不是一

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

個長期均衡價格。⁸

在(B)組內合約當中，其事實上是符合最高價準則，但卻被 Logit 模型誤判將違反最高價準則，因此我們稱該組合約滿足統計學中的「型一錯誤 (type I error)」

定義。⁹由表 6 發現(B)組 14 個合約中的「第一高價 (maxp)」變數，其平均值 64.35 明顯小於全部合約的平均 85.11；「第一高價與第二高價之價差 (DIFF)」變數，

其平均值 32.63 亦明顯低於全部合約的平均值 67.73。綜合以上兩變數的觀察，

最高價未達一定門檻，以及差價差距尚未完全拉開，使得(B)組合約被 Logit 模型誤判為「最高價準則不成立」。¹⁰

在(C)組合約當中，選後得知實際是「不符合」最高價準則，但在選前卻被 Logit 模型誤判「將會符合」最高價準則，因此 Logit 模型在選前亦可能發生「型二錯誤 (type II error)」。觀察表 6 發現，第一，在(C)組的平均交易人數約為 41 人，而全部 650 個合約的平均交易人數落在 128 人左右；第二，(C)組的平均成交筆數約為 90 筆，而全部 650 個合約的平均成交筆數落在 560 筆上下；第三，

(C)組的平均成交期貨口數約為 6,028 口，而全部 650 合約的平均成交期貨口數約為 166,863 口。從以上三項數據發現，「交易量不足」為模型產生型二錯誤之誤判主因。

8 另一個市場共識變數：buy_sell，「高雄市長_黃俊英」與「國民黨副總統候選人_王金平」，其 buy_sell 的數據皆超過 41,428，使得整體平均來到 247 之譜，但我們觀察其他約 630 合約，buy_sell 大致上落於 10 以下，而(B)與(C)組無法根據此一變數，對照整體平均來決定共識程度。

9 本文設定檢定的虛無假設(null hypothesis)為「最高價準則成立」，原因為本文資料合約中，已有九成比例符合最高價準則。

10 「第一高價」與「第一高價與第二高價之價差」變數，在 Logit 迴歸係數未能顯著，因此本文模型作鑑別樣本時，無法充分運用此兩變數來篩選合約，Logit 迴歸係數可參閱附錄 1。

‧

GP_share_lyc_100 0.0015 0.0010 0.0000 0.0017 0.0015

GP_share_lyc_200 0.0026 0.0014 0.0000 0.0024 0.0025

GP_share_lyc_300 0.0033 0.0017 0.0000 0.0031 0.0032

GP_share_lyc_1 0.0034 0.0018 0.0000 0.0033 0.0033

GP_share_lyc_5 0.0202 0.0210 0.0194 0.0262 0.0204

GP_share_lyc_10 0.0798 0.0519 0.0547 0.0586 0.0780

GP_share_365d_100 0.0007 0.0001 0.0000 0.0014 0.0007

GP_share_365d_200 0.0011 0.0002 0.0000 0.0015 0.0011

GP_share_365d_300 0.0047 0.0003 0.0000 0.0018 0.0044

GP_share_365d_1 0.0046 0.0003 0.0000 0.0017 0.0044

GP_share_365d_5 0.0195 0.0046 0.0017 0.0249 0.0191

GP_share_365d_10 0.0527 0.0211 0.0239 0.0402 0.0511

GP_share_30d_100 0.0314 0.0200 0.0246 0.0179 0.0306

GP_share_30d_200 0.0408 0.0232 0.0253 0.0254 0.0396

GP_share_30d_300 0.1054 0.0272 0.0573 0.0274 0.1000

GP_share_30d_1 0.0013 0.0000 0.0000 0.0002 0.0012

‧

GP_share_30d_5 0.0080 0.0036 0.0031 0.0065 0.0077

GP_share_30d_10 0.0373 0.0231 0.0246 0.0227 0.0363

limit_ratio_volume 0.8471 0.7528 0.7521 0.7873 0.8413

WBAS2_all 39.0452 49.4913 53.8414 33.2525 39.2750

Buy_sell 110.5650 1.4991 1.4547 3774.0080 247.4390

trades 544.4010 549.8571 90.3000 1116.8400 559.5492

traders 117.8120 180.3571 41.1000 389.6000 128.4323

days 113.9800 45.1429 46.6000 43.6400 108.7554

volume

traded_order_ratio 0.5036 0.5464 0.4954 0.5401 0.5058

maxp 86.5916 64.3483 82.0369 62.2507 85.1062

NC 6.1514 4.4286 4.1000 4.4400 6.0169

DIFF 70.3613 32.6341 61.9569 26.6193 67.7370

avatar_ratio_3 0.4552 0.3180 0.3308 0.3757 0.4473

avatar_15d_ratio_3 0.3177 0.3716 0.3211 0.4537 0.3242

avatar_30d_ratio_3 0.3294 0.3613 0.3255 0.4266 0.3337

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

avatar_365d_ratio_3 0.3717 0.3589 0.3264 0.4224 0.3727

avatar_volume_ratio_3 0.6565 0.6248 0.5547 0.6625 0.6545

avatar_volume_15d_ratio_3 0.5569 0.6545 0.6028 0.7166 0.5658

avatar_volume_30d_ratio_3 0.5827 0.6491 0.5722 0.7077 0.5888

avatar_volume_365d_ratio_3 0.6558 0.6248 0.5547 0.6625 0.6539

Pw 23.1357 54.4174 41.0247 53.5319 25.2538

綜觀上述數據，邊際交易者少、市場共識程度不足可能造成選舉預測失準。

此外，當每一選區的最高價大於整體平均值，且最高價與第二高價有足夠差距，

則最高價準則較容易成立 (例如(A)組內合約)，即 Logit 模型愈不易產生型一錯誤。再者，若沒有充足的成交量與選情資訊時，Logit 模型可能發生型二錯誤。

第二節 4 個鑑別模型之鑑別力比較

其他三個模型依照類似的過程進行預測鑑別分析。為了精簡篇幅，本文省略其他三個模型贅述，我們直接比較四種模型的鑑別準確率。上面的模型 Original-Logit 模型為原始變數的 Logit 鑑別模型，PCA-Logit 模型為主成分變數的 Logit 模型、Original-DA 模型為原始變數的 DA 模型，與 PCA-DA 模型為主成分變數的 DA 模型。ARCI 為鑑別正確準確率，ARII 為鑑別未正確準確率。

Original-Logit 模型的 ARCI 為 98.36％、ARII 為 64.10％，PCA-Logit 模型的 ARCI 為 96.75％、ARII 為 44.12％，Original-DA 模型的 ARCI 為 96.21％、ARII 為 64.71％，PCA-DA 模型的 ARCI 為 94.88％、ARII 為 33.33％。總體而言，

Original-Logit 模型的 ARCI 為最高，ARII 則與略低於 Original-DA 模型。以下將

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第一節 2008 年總統大選前夕

首先，本文先以 2008 總統大選為例，說明 Original-Logit 模型的樣本外測試過程。依時間順序從第 1 個合約至第 T₁個合約為樣本內資料，其每一合約包含 40 個自變數與 1 個依變數(最高價準成立與否的 0 或 1 虛擬變數)，總共 T₁組資料輸入 STATA 軟體，即可得到一組 Logit 迴歸係數。下一步驟我們定義樣本外資料範圍：第 T₁+ 1筆合約至第 T₂筆合約，總共有( T₂− T₁)組的自變數與依變數，再將此數據代入 Logit 迴歸係數，即可得到( T₂− T₁)個 Logit 配適值。最後，

把配適值結果比較樣本平均數後，即可將樣本外合約區分成鑑別正確組和鑑別未正確組。選舉結束後，我們便可以得到樣本外預測的鑑別準確率。分析流程如圖 2 所示：

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

根據最高價準則，預測市場準確預測樣本內的選舉合約比例為 92.79%，最高價準則不成立的樣本機率為 7.21% (100-92.79%)。Logit 模型對樣本內合約的鑑別正確準確率達 97.74%，比最高價準則的預測準確率高，鑑別未正確準確率為 73.91%。（見表 8）

表 8 2008 年總統大選前之樣本內 333 個合約的 Logit 迴歸分組結果 Logit 分組情況

預測分組分組內個數鑑別正確預測組(O) 鑑別未正確預測組(X)

事實正確預測組(T) 309 303(A) 6(B)

事實未正確預測組(F) 24 7(C) 17(D)

準確率 92.79% 97.74% 73.91%

根據樣本內合約訓練的 Logit 模型進行樣本外測試。表 9 為樣本外測試結果，

Logit 模型對樣本外樣本的鑑別正確準確率有改善且高達 100%。不過，Logit 模型的鑑別未正確準確率卻只有 26.67%，預測能力大幅下降。

表 9 2008 年總統大選之樣本外 78 個合約的 Logit 迴歸分組結果

Logit 分組情況

預測分組分組內個數鑑別正確預測組(O) 鑑別未正確預測組(X)

事實正確預測組(T) 74 63(A) 11(B)

事實未正確預測組(F) 4 0(C) 4(D)

準確率 94.87% 100.00% 26.67%

2008 年總統選舉預測的合約共有 78 個。若未使用本文的鑑別模型，僅使用最高價準則，將有 94.87%正確預測選舉結果。但是，即使在選前知道選舉預測合約的價格，亦無法區分哪些合約會符合最高價準則，哪些合約會發生預測錯誤。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

本文引入 Logit 鑑別方法，在「選舉前」可篩選出 63 個合約，該模型對選舉預測合約的鑑別結果有 100%的預測準確率。

以下進一步比較四個模型對 2008 年總統選舉預測的樣本外預測能力。

Original-Logit 模型樣本外的 ARCI 為 100％，ARII 為 26.67％；Original-DA 模型的 ARCI 為 100％，ARII 為 23.53％；PCA-Logit 模型的 ARCI 為 95.89％，ARII 為 20.0％；PCA-DA 模型的 ARCI 為 94.74％，ARII 為 0％。整體而言，Original-Logit 模型在 2008 年總統大選預測樣本外的預測能力都是最高。（見表 10）

表 10 四個鑑別模型對 2008 年總統大選預測的樣本外測試結果

機制 (A)組 (C)組 (B)組 (D)組 ARCI ARII

Original-Logit 模型 63 0 11 4 100% 26.67%

Original-DA 模型 61 0 13 4 100% 23.53%

PCA-Logit 模型 70 3 4 1 95.89% 20.00%

PCA-DA 模型 72 4 2 0 94.74% 0.00%

從交易結束、選舉結果揭曉前的鑑別模型，我們可以進一步發現鑑別模型在事前、個別準確率的作用。例如，從 78 個大選的有效交易合約中，我們找出下列 6 個合約(共 3 個選區群組)，最終預測市場的交易結果顯示，按照最高價原則，

馬英九會當選總統（85.57 > 16.10），台南市最高票為謝長廷（58.83 > 42.92），

而雲林縣最高票為馬英九（61.80 > 44.48）。

‧

0.4％、27.2％、41.38％、67.51％，都遠低於 2008 年總統選舉前選舉預測事件樣本內，最高價準則成立的平均樣本比率（92.79％）。換言之，Original-Logit 鑑別模型認定最高價準則在此 4 個合約成立不成立（X 組），可以事前認定此 4 合約的最終結果與「未來事件交易所」的預測未必一致。（見表 12）

‧

Original-Logit 模型鑑別「最高價準則」成立之配適機率

Original-Logit 模型鑑別組別

說明：謝長廷在全國、台南市與雲林縣的得票數為：5444949、216815 與 199558，馬英九的得票數分別為：7659014、223034 與 187705。

第二節 2009 年縣市長選舉前夕

對於一般的民眾來說，相對會較關注「有興趣」或「所在縣市」等特定的選

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

舉合約，而非市場所有合約。以表 14 的 2009 年縣市長選舉為例，預測市場的歷史準確度為 93.39%，但民眾無法確認自己關注的合約是否落在 6.61% 預測失準的合約當中。本文方法將 2009 年縣市長選舉前的 469 個樣本內合約，利用 Logit

在文檔中影響預測準確度之因素與判定預測準確度之模型 - 政大學術集成 (頁 16-0)

合約資料與敘述統計

第二章 研究方法與資料

第三節 合約資料與敘述統計

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節 合約資料與敘述統計

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 4 個鑑別模型之鑑別力比較

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一節 2008 年總統大選前夕

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

第二節 2009 年縣市長選舉前夕

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章研究方法與資料

第三節合約資料與敘述統計

立政治大學

第三節合約資料與敘述統計

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學