國立政治大學經濟學系
博士論文
學習行為與軟體交易策略之比較
:
個體心智能力對學
習行為之影響
研究生: 戴中擎
指導教授: 陳樹衡博士
中華民國九十七年七月
誌謝
本研究之所以完成,必須感謝指導教授 陳樹衡教授在學生撰寫論文乃至於博士班 生涯中, 不斷地給予思想上的啟迪、 知識上的指導、 以及態度上的糾正, 讓個人在 博士班求學及論文撰寫的過程中,感到無比的充實和興奮,也在個人研究生涯的規 劃上, 起了相當大的鼓舞作用。 同時, 也由衷感謝座師心理系顏乃欣教授, 台灣科 技大學陳錫明教授、 王乃堅教授, 真理大學李沃牆教授, 元智大學葉佳烗教授, 以 及雲林科技大學陳重臣教授的悉心指教及建議, 讓本論文最後得以更嚴謹的面貌 呈現於世。 感謝母親無怨無悔的支持,因為您為家庭的付出與辛勞,築成一個無風無浪的 避風港, 讓個人得以在困境中穩步向前。 也要感謝心愛的妻子家賓, 在論文撰寫最 關鍵的時期, 妳的鼓勵與體諒, 是我努力不停的力量泉源, 在冰冷的電腦外, 給了 我最大的幸福與溫暖。 政大人工智慧經濟學研究中心的成員及學長姊們,你們適時的鼓勵與建議,就 像綿延不斷的溫暖陽光, 也因為有你們, 讓個人在政大的歲月裡不再乏味孤單, 謝 謝你們! 本論文之完成, 蒙國科會 「獎勵人文與社會科學領域博士候選人撰寫博士論 文」 辦法, 計劃編號 NSC 96-2420-H-004-016-DR之獎助, 特此銘謝。 i摘要
因應電子化交易興起而進行的一系列人機互動研究顯示, 縱使人類會透過學習而 改善其表現,電腦化的交易程式獲利能力還是遠勝於真人交易者之表現。 本研究遂 以遺傳規劃演算法作為學習型交易者之代表,與一系列電腦化交易策略相競爭,以 探討學習的功效及其限制。 本研究採用離散型雙方喊價機制, 摒除了計算能力所造成之決策時間差異所 會帶來的影響, 亦排除掉人類情緒、 預期、 相關知識不足等可能因子, 在計算能力 對等的情況下,單純地來評估學習與理性設計策略的結果。 並且首次嘗試將影響學 習至鉅的智商因子帶入模型之中, 實驗結果顯示學習具有相當的能力,即使是在對環境缺乏認識的情況下, 隨著 時間的經過其表現最終可凌駕理性設計的策略之上, 然而學習所需的時間是學習 型交易者的一大弱點。 同時,本研究也顯示對於以遺傳規劃建構的學習型交易者而 言, 其虛擬智商的參數愈高, 學習的效果也愈佳。 此研究因此可作為未來在代理人 基經濟學模型中, 更深入地探討智商水準不同所造成之行為差異的基礎。 關鍵字: 代理人基計算經濟模型, 雙方喊價市場, 交易策略, 學習, 智商, 異質性個 體 iiiThe study of a series of human-agent interactions as well as computer-ized trading tournaments in double auction markets has exhibited a general superiority of computerized trading strategies over learning agents. The inef-fectiveness of learning motivates the study of learning versus designed trading agents in this research. We therefore initiates a series of experiments to test the capability of learning GP agents and rationally-designed trading strate-gies. The results shows that with the cost of time, eventually learning agents can beat all other trading strategies.
At the same time, the notion of intelligence is introduced into the model to investigate the influence of individual intelligence on learning ability. We utilize the population size of the GP trader as the proxy variable of IQ which is a measure of general intelligence. The results show that individuals with higher intelligence can perform better than those with lower intelligence, which manifests its importance discovered in Psychological research.
Keywords: Agent-based Computational Economic Models, Double Auction Markets, Trading Strategies, Learning, IQ, Heterogeneous Agents
目錄
誌謝 i 摘要 iii 1 緒論 1 1.1 學習行為與軟體代理人 . . . 1 1.2 智商與學習 . . . 3 1.3 本文架構 . . . 6 2 文獻回顧 9 2.1 人類與軟體代理人之競賽. . . 9 2.1.1 Das et al. (2001)的雙方喊價市場研究 . . . 9 2.1.2 Taniguchi et al. (2004)的期貨市場交易研究 . . . 122.1.3 Grossklags and Schmidt (2006)的期貨市場研究. . . 14
2.1.4 小結 . . . 18
2.2 Santa Fe 雙方喊價市場競賽 . . . 19 v
2.2.1 實驗設計 . . . 19 2.2.2 策略分類 . . . 21 2.2.3 結果與探討 . . . 24 2.3 智商與代理人基建模 . . . 26 2.3.1 經濟建模: 由經濟人邁向智人 . . . 26 2.3.2 智商與學習行為的關聯 . . . 28 2.4 研究議題 . . . 31 3 研究方法與實驗設計 33 3.1 AIE-DA 雙方喊價市場平台 . . . 33 3.1.1 市場結構 . . . 33 3.1.2 保留價格與籌碼 . . . 34 3.1.3 喊價活動流程 . . . 36 3.2 研究問題與假設 . . . 39 3.2.1 學習與設計 . . . 39 3.2.2 智商與學習 . . . 43 3.2.3 研究假設 . . . 44 3.3 實驗設計 . . . 47 3.3.1 GP交易者參數 . . . 47 3.3.2 實驗參數 . . . 48
vii 4 交易策略 53 4.1 基本名詞介紹 . . . 53 4.2 文獻策略 . . . 56 4.2.1 Truth Teller 交易策略 . . . 56 4.2.2 Skeleton 交易策略 . . . 56 4.2.3 Kaplan交易策略 . . . 58 4.2.4 Ringuette 交易策略 . . . 59 4.2.5 ZIC 交易策略 . . . 61 4.2.6 Markup 交易策略 . . . 62 4.2.7 ZIP 交易策略 . . . 63 4.2.8 Easley-Ledyard 交易策略 . . . 65 4.2.9 Gjerstad-Dickhaut 交易策略 . . . 67 4.2.10 BGAN交易策略 . . . 68 4.2.11 Empirical 交易策略 . . . 71 4.2.12 文獻策略之比較 . . . 72 4.3 Genetic Programming 交易者 . . . 74 4.3.1 基本概念 . . . 74 4.3.2 AIE-DA GP 交易者 . . . 79 4.4 策略分類 . . . 82
5 策略表現分析 85 5.1 衡量標準 . . . 85 5.2 文獻策略之基本表現與特性 . . . 88 5.2.1 文獻策略的獲利排名 . . . 89 5.2.2 固定型策略與調適型策略之比較 . . . 92 5.2.3 獲利波動程度 . . . 93 5.2.4 平均財富與財富變異 . . . 95 5.2.5 效率前緣 . . . 98 5.3 學習性個體 . . . 101 5.3.1 GP之學習能力 . . . 104 5.3.2 No Free Lunch 檢驗 . . . 108 5.3.3 策略複雜度 . . . 114 5.4 動態市場 . . . 118 5.5 總結 . . . 123 6 智商與學習效果 127 6.1 智商與學習成果 . . . 127 6.1.1 更為完整的智商抽樣 . . . 130 6.1.2 智商優勢與學習努力 . . . 136 6.2 動態環境中的學習能力 . . . 140
ix 6.3 總結 . . . 145
7 結論與未來研究方向 147
7.1 未來研究方向 . . . 151
表格目錄
3.1 GP參數表 . . . 48 3.2 實驗參數表 . . . 50 3.3 實驗參數表– 智商抽樣 . . . 51 4.1 文獻策略之比較 . . . 73 4.2 文獻策略之分類 . . . 83 5.1 策略所得之波動性 – 文獻策略 . . . 95 5.2 策略表現相似度之檢定 . . . 100 5.3 期末財富之平均排名 . . . 112 6.1 不同智商之學習型交易者期末表現比較表 – p5L, p20L, 及 p50L 之比較 . . . 130 6.2 各智商水準下交易者之獲利檢定 –第三十四代結果 . . . 134 6.3 各智商水準代理人學習時間長度表 . . . 137 6.4 各智商水準下交易者之學習競賽 . . . 138 xi圖形目錄
3.1 AIE-DA 之市場結構 . . . 34 3.2 AIE-DA 交易者策略之選擇 . . . 35 3.3 AIE – DA 的交易試合 . . . 36 3.4 AIE-DA 的交易時間單位 . . . 37 3.5 一個 AIE-DA 交易試合的實例 . . . 39 4.1 Skeleton 交易策略 – 買方 . . . 57 4.2 Kaplan交易策略 – 買方 . . . 58 4.3 Ringuette 交易策略 – 買方 . . . 60 4.4 Empirical 交易策略更新預期的方式 . . . 71 4.5 (x + 1)∗ 2的樹狀結構圖 . . . 75 4.6 Crossover 示意圖 . . . 78 4.7 點突變示意圖 . . . 79 4.8 樹突變示意圖 . . . 80 4.9 AIE-DA 中GP 終點集合元素設定之介面 . . . 82 xiii4.10 AIE-DA 中GP 函數集合元素設定之介面 . . . 84 5.1 個體效率計算標準 . . . 86 5.2 文獻策略之平均獲利表現時間序列圖. . . 89 5.3 文獻策略之平均獲利表現時間序列圖 – 前 40個交易日 . . . 94 5.4 文獻策略之財富分配 . . . 96 5.5 文獻策略之財富分配盒鬚圖 . . . 97 5.6 文獻策略之平均財富與財富變異 . . . 98 5.7 平均獲利時間序列圖 – 實驗 p5, p20,及 p50 之結果 . . . 103 5.8 平均獲利時間序列圖 – 實驗 p5L, p20L,及 p50L 之結果 . . . 106 5.9 平均財富與財富變異 – 實驗 p5L, p20L,及 p50L 之結果 . . . 107 5.10 NFL 示意圖 . . . 109 5.11 平均財富與財富變異演化圖 – 實驗 p5L、 p20L、 p50L 之結果 . . 110 5.12 期初及期末之財富盒鬚圖 –實驗 p5L, p20L,及 p50L 之結果 . . 113 5.13 GP 交易者之平均策略複雜度 – 實驗 p5L、 p20L、p50L 之結果 . 115 5.14 p50 之平均策略複雜度分佈 . . . 116 5.15 GP在動態市場下之獲利演化–實驗DMp5L, DMp20L, DMp50L 之結果 . . . 119 5.16 GP交易者之平均策略複雜度–實驗DMp5L、DMp20L、DMp50L 之結果 . . . 122
xv 6.1 不同智能的GP交易者之獲利表現分配 –實驗 p5L, p20L, p50L 之結果 . . . 128 6.2 不同智能的GP交易者之獲利表現分配分位數散佈圖–實驗p5L, p20L, p50L 之結果 . . . 129 6.3 各智商水準下 GP 交易者之獲利演化圖 – 34代之結果 . . . 131 6.4 各智商水準下 GP 交易者之獲利進步幅度– 34 代之結果 . . . 132 6.5 各智商水準之 GP 交易者達成獲利目標所需之時間– 34 代之結果 133 6.6 各智商水準之 GP 交易者學習競賽圖 . . . 139 6.7 各智商水準之 GP 交易者在動態市場中之表現 . . . 141 6.8 各智商水準之 GP 交易者獲利演化圖 – 動態市場第34 代 . . . . 142 6.9 固定市場與隨機動態市場下的智商–學習趨勢圖 . . . 144
第
1
章
緒論
本文的研究目的,是比較學習型行為與人類設計之軟體代理人行為,在雙方喊價市 場中經濟決策的差異。 並將影響人類學習行為的重要因子–智商差異–引入模型並 探討其結果。 本章將分別介紹這兩個面向之動機與議題。1.1
學習行為與軟體代理人
在現今的經濟社會中, 有愈來愈多人類與軟體程式在同一個市場中交易的情況發 生。 例如在股市中,個人以程式作為決策支援系統(如軟體交易產品workstation)、 券商提供給客戶的線上交易程式、 法人、 投顧業者多以軟體交易程式為師於股市交 易買賣等等。 軟體交易程式似乎具備了許多人類交易者所沒有的優勢,能夠克服人 類決策者智能的限制、 克服時間空間障礙、 不受情緒因素干擾、 以龐大的記憶量與 快速的計算能力扛起重任, 大有將人類決策取而代之之勢。 有鑑於此, 經濟學者便開始研究人類與軟體代理人之間的人機互動(Human-Agent Interaction)問題。Das et al. (2001)、Taniguchi et al. (2004)、Grossklags
and Schmidt (2006)等人的研究利用各種不同的軟體代理人和真人決策者在雙方
喊價市場及期貨市場的交易競賽, 結果幾乎都顯示出人類交易者的弱勢 – 不僅在
時間上慢於軟體代理人所以成交量較少,而且在獲利能力上也普遍表現不佳。 這樣
的結果引發了一個有趣的問題: 人類的決策過程和軟體代理人到底各有何特點、 孰 優孰劣? 要回答這個問題, 必須先釐清一個簡單的議題: 哪種行為可稱為人類的行為, 哪些行為又該視作軟體代理人的行為? 這個問題的答案乍看顯而易見, 但深究其中 差異卻能幫助我們瞭解人類行為的特點。 舉例而言,某位真人交易者觀看著電視上 的個股行情, 接著透過其經紀人下單, 這樣的行為毫無疑問地屬於人類的行為。 然 而, 倘若這位交易者將其交易策略改寫為電腦程式,在電腦中演算並透過網路進行 交易,此電腦程式可以算是人類的行為嗎? 若此程式可以代表人類的決策行為,那 技術交易程式同為人類所設計創造,是否也可被視為人類決策行為呢? 若否, 那麼 到底什麼樣的行為可視為人類決策行為, 標準到底為何? 吾人可以由人類與電腦在本質上的分野作為探索此問題的依據。 人類是有限 理性的個體,而此限制的重要來源便是人類有限的計算力(computational capac-ity)。 人類也因為計算能力上的限制, 而必須採用迥異於理性分析的方式來解決問 題、 制訂決策。 是故人類在經濟決策之中, 必須仰賴其過往經驗與極為簡單的法則 來行事, 並且透過不斷地學習調適, 來改善決策的品質。 然而電腦卻大不相同。 電腦雖然受命於人類指令,但其計算能力與工作記憶容 量卻遠非人類所能企及。 在大部分的情況裡, 由於這個特性使然, 即使人類與電腦 執行完全相同的策略運算, 電腦總是可以做得比人類更快更好。 由此觀之, 人類行為與軟體代理人在決策上一個主要的分野便是執行模式之 不同。 人類行為是在十分有限的計算力之下,依靠經驗、 捷思(heuristics)、 與學習 來解決問題,而軟體代理人,則可依靠強大的計算力與龐大的記憶量來處理極為複 雜的運算, 並且也因為這個特質, 使得人類得以憑藉知識與邏輯理性, 設計出能夠 充份利用電腦此項優點的決策策略。 因此, 這兩種模式的比較便顯得相當值得探討: 一者是在有限的計算能力下、 在時間的限制下, 憑藉著 「即時」 的 「學習」 來解決問題的行為; 另一者則是憑藉 事先的設計,運用電腦快速的計算能力與大量的記憶,來執行理性設計過卻難以由 真人即時執行的策略。 兩者在解決經濟問題時, 各有何優缺點? 是學習較有效果,
1.2 智商與學習 3 還是精巧的設計表現較好呢? 然而, 如果要明確地比較這兩種決策方法 – 學習與理性設計 – 的差異, 我們 便需要摒除其他因子的影響, 例如真人實驗中誘因動機、 情緒波動、 操作錯誤、 以 及預期心理等變數的影響, 在純粹由兩種不同模式所代表的交易者身上找到行為 的差異。 因此, 本研究便以雙方喊價市場作為研究平台, 將文獻上曾探討過的各類型交 易策略作為軟體代理人之代表,並以一個 「計算智慧」 中的學習演算法作為學習型 行為的代表, 來嘗試回答此一問題。 並期許藉由對計算智慧之學習行為的討論, 引 導後續對人類學習行為的研究。
1.2
智商與學習
在經濟學的研究議題中,個體能力差異所造成的分配問題,往往涉及道德與價值的 判斷而顯得棘手而難以辦明。 因此, 主流經濟學長久以來多採取迂迴的方式, 來面 對經濟個體差異性所衍生的不均現象。 除了將經濟學自我定義為 「實證科學」 (pos-itive science), 以免除探討如何分配的道德義務外, 更根本地, 莫過於強調追求總 體效益的最大化為討論的主要戰場, 從而架空了正視個體不均現象的需求。 然而經濟學畢竟是社會科學,個體差異與不均的現象充斥著整個社會,大量的 資料訴說著鐵一般的事實, 經濟學研究者無可避免地必須針對這些現象進行探討。 十九世紀著名的經濟學家柏瑞圖 (Vilfredo Pareto), 便是早期在這方面最著名的 研究者。 Pareto 留給經濟學的遺產, 除了柏瑞圖最適的概念外, 最重要的是他所發現 的所得分配極度不均之現象。Pareto 研究了歐美諸多國家的財富分配, 得到了一 個跨越種族、 文化、 時間、 開發程度等因素的共通現象–一個社會中的財富分配,並 非呈現對稱的鐘形分配, 而是極小部分的人掌握了絕大多數的財富。1 這個迥異於常態的分配, 便因此被稱作 「柏瑞圖分佈」 (Pareto distribution, 即 power-law distribution),而這個現象也被稱作 「柏瑞圖法則」 (Pareto Principle,亦稱作 80-20法則)。 發現了財富分佈極度不均的情況之後, 該如何解釋這樣的現象呢? Pareto 的 見解是: 社會的菁英階層 (Elite) 囊括了絕大多數的資源, 不論歷史和制度如何更 替, 即使在民主制度下, 這樣的菁英階層 (或曰上層階級, the aristocracies) 也許 組成分子有別, 但仍一直存在不滅。 結果是愈聰明和愈有能力的人, 所得到的資源 也會愈來愈多。 Pareto 後來走上了社會主義的道路, 而其在這方面的觀點往往引 起諸多爭議,因而未受到足夠的重視。2
1994年,一本著作挑起了美國社會的激烈反應。Herrnstein and Murray (1994)
所著的 《鐘形曲線: 美國社會中的智力與階層結構》 (The Bell Curve:
Intelli-gence and class structure in American life) 一書, 利用智商作為衡量人類智能
的依據,進而探討人類智慧和社會結構之關係。 由各項的數據揭露出智商對於人們
社會成就、 工作表現、 薪資等等面向的重大影響。
若我們將Herrnstein and Murray (1994) 對於智能天生註定、 種族間智能歧
異、 以及社會政策等方面的爭議性看法暫置一旁, 客觀地觀察其所揭露的現象, 我 們確實可以發現智商對於人類行為結果的影響層面可說是既深且廣。 在後續的相 關研究中, Murray (1998)及Murray (2002) 利用成長條件相同但智商不同的手 足資料, 在智商差異對所得、 學習成就、 職業等結果的影響上, 得到了明確而且統 計上顯著的結果。 很明顯地, 若要探究個體能力差異所造成的所得不均現象, 智商 可作為相當重要的代表因素。 那麼, 智商衡量的到底是什麼呢? 智商是心理測驗學 (Psychometrics) 中用 以衡量智能 (intelligence) 的一套方法。 而智能在心理學中的定義, 是指一種用以
推理、計畫、解決問題、 抽象思考、理解複雜概念、 及學習 (learn quickly and learn from experiences) 的綜合能力。3
法國巴黎、 英國、 普魯斯、 薩克森、 愛爾蘭、 及祕魯。
2見Fonseca (nd) 及Mandelbrot and Hudson (2004)對於Pareto思想的簡述
1.2 智商與學習 5
Gottfredson (1997) 針對智商的重要性與其對行為的影響總結如下:
“Intelligence, so defined, can be measured, and intelligence tests measure it well. They are among the most accurate (in technical terms, reliable and valid) of all psychological tests and assess-ments.”
“IQ is strongly related, probably more so than any other single measurable human trait, to many important educational , oc-cupational, economic, and social outcomes. Its relation to the welfare and performance of individuals is very strong in some arenas in life (education, military training), moderate but robust in others (social competence), and modest but consistent in other (law-abidingness). Whatever IQ test measure, it is of great prac-tical and social importance.”
而 Gottfredson (1997) 也指出擁有較高的智商對處理複雜問題(新的、 含糊不清
的、 變動的、 無法預測的、 或多面向的問題) 時較有優勢, 但對簡單的問題則較不
明顯。
在現今的經濟學中,不論個體還是總體現象,皆可見到探討智商對人類社會乃
至於國家之間所得不均的研究。 例如 Lynn and Vanhanen (2002, 2006) 認為國
家平均智商可以解釋國家財富與經濟成長率的差異; Jones and Schneider (2006)
發現智商可作為人力資源的有效衡量方法, 並且在統計上成功地利用國家平均智 商來解釋 GDP 成長的差異; Ram (2007) 則正式將智商納入 Mankiw-Romer-Weil 成長模型中, 並利用國家平均智商與 GDP 資料, 發現 IQ 比教育及健康兩 項要素更能代表人力資源的品質,而且甚至比制度品質(institutional quality)還 重要。 如果在考量到錯綜複雜的條件與影響因子後, 吾人認為智商對於總體現象的 解讀不能做為描述個體行為立論的依據, 那麼要利用智商來描述個體行為及其結 果的差異, 就還需要更直接的觀察才能證明其重要性。
在個體層面,更直接的證據出現在實驗經濟學的研究室裡。 在一篇探討金錢誘
因(financial incentives) 與認知能力(cognitive abilities) 對實驗受試者的表現的
論文中, Rydval and Ortmann (2004) 發現金錢報酬之有無或多寡以及受試者的
智商差異都會影響受試者的表現,但受試者的智商差異所造成的表現差異,則顯著 地較金錢報酬之有無及多寡來得大。 倘若智商能代表個體思考問題、 解決問題、 與學習的能力, 對人們的經濟行為 有著決定性的影響, 並且其影響力大於其他因子的情況下, 那麼我們在建構模型 一個可以描述個體行為差異的模型時, 便應該將其納入描述個體的行為或特性中, 但重點是: 該怎麼做? 在建構代理人基計算經濟 (Agent-Based Computational Economics, ABM)模型時, 又該如何將 「智商」 這個代表認知能力的變數納入我 們的個體模型中呢? 代理人基模型的存在目的之一, 就是建立一個真正由異質個體組成的市場模 型, 在描述模型中的代理人時, 便以許多經濟參數如風險偏好、 效用函數來表現經
濟個體的多變 (Chen and Huang, forthcoming), 或以不同的演算法或有限理性
建模來刻劃個體的決策與學習模組, 如 Gigerenzer and Selten (2001) 對有限理
性建模及 Brenner (1999) 對學習性個體的詳細介紹。 然而, 心理學及社會科學所 發現影響人類行為的重要因子, 許多都仍未被有效地納入代理人基模型的設計之 中, 經濟決策者的智能就是一個例子。 換言之,目前的代理人基經濟模型,並沒有將 「智商」 的概念納入模型的先例。 復如 Gottfredson (1997) 所言, 智商可用以衡量學習能力的高低, 這激發了本研 究將 「智商」 納入個體差異以進行代理人基建模的想法,並提出一個可操作的方法 來探討智商所衡量的學習能力效果是否可在代理人基模型中被呈現出來。
1.3
本文架構
本文第 2 章將介紹與本研究有關的一系列文獻, 並探討本研究的定位與各項研究 議題; 第 3 章介紹本研究之實驗平台及研究方法; 第 4 章介紹本研究所使用的各1.3 本文架構 7
種交易策略及學習演算法; 第 5 章為本研究實驗策略表現之基本分析; 第 6 章為
第
2
章
文獻回顧
本章將介紹與本文之研究議題、 研究方法、 以及研究典範等面向相關之文獻。 第 2.1節將介紹在代理人基經濟學中人機互動之研究,藉以瞭解人類學習行為與軟體 代理人在若干實驗中所呈現出來的結果。 接著, 第2.2 節將介紹 Santa Fe 雙方喊 價市場競賽,此一研究不僅涵蓋了種類眾多的軟體代理人,其中包涵具有學習能力 之人工智慧演算法, 並且其實驗方式亦可作為本研究的基礎。 第2.3.2 為代理人基 建模的發展方向及智商對人類行為之討論。2.1
人類與軟體代理人之競賽
人類與軟體代理人在市場中競爭互動的情況雖然存在已久, 但在代理人基模擬經 濟學界專門探討人機互動 (Human-Agent Interaction) 的文獻卻是屈指可數。 本 節將介紹目前已知的三篇研究, 並著重於人類行為與軟體代理人行為之比較。2.1.1 Das et al. (2001)
的雙方喊價市場研究
隨著電子商務時代的來臨, 經濟個體與各式各樣軟體交易代理人於市場中互動競爭也日益頻繁, Das et al. (2001) 因此利用連續型雙方喊價市場 (Continuous
Double Auction, CDA) 進行了軟體代理人與真人同場競爭的實驗。
交易機制與市場設計
市場參與者交易的是一種虛擬的商品, Das et al. (2001) 會在每期之初給予每位 市場參與者八到十四個固定的 「保留價格」 作為交易者心目中該商品的真實價值。1 每場實驗計有十五至十六個交易期間, 而保留價格每經過四至五期便會隨機變動 一次, 以探討交易者對市場情況改變的應變行為。 每一個市場參與者(不論是真人或軟體代理人)都會被賦予一個特定的角色(買 方或賣方), 而參與者不允許在這兩種角色間作轉換。 市場的供需設計使得買方與 賣方的潛在獲利是相當的。 市場由六位真人交易者與六個軟體代理人組成:每個真 人交易者都對應到一個軟體代理人,兩者的保留價格與買賣方角色完全一樣,因此 真人交易者與軟體代理人的先天秉賦 (endownment) 是完全相等的。軟體代理人
軟體代理人的交易策略有ZIP與GD兩種。2 此外,代理人具有 「睡眠」 與 「清醒」 兩種狀態週期,代理人在睡眠期間內不會作任何動作,直到睡眠時間結束或市場上 有事件發生才會被喚醒, 而代理人只有在清醒狀態才會進行喊價行為。 因此, 代理 人又被設計為 「快」「慢」 兩種: 快代理人睡眠時間僅一秒, 或只要市場上有新的喊 價或交易便會醒來;慢代理人睡眠時間為五秒, 且只有在市場上有交易發生才會醒 來。 在同一個市場中的代理人使用完全相同的策略, 但因為代理人又有快慢之別,故Das et al. (2001)進行了 GD Fast、 ZIP Fast、 及 ZIP Slow 三種實驗達六次
之多。
1對於保留價格的解說,請見第3.1.2節之介紹。
2對ZIP和GD策略的介紹,請分別見第4.2.7及4.2.9節。 當然, Das et al. (2001)在使用
2.1 人類與軟體代理人之競賽 11
結果與探討
Das et al. (2001) 的結果顯示, 不論代理人使用何種策略, 也不論代理人是快是 慢,整體來看代理人的表現皆優於真人交易者,且平均而言其程度達到百分之二十 之多。 以個體效率來看, 代理人的個體效率普遍皆高於一百, 這便意味著代理人普 遍地從真人交易者的決策失誤中獲得了額外利潤。 更特別的是,為了驗證人機互動的結果, Das et al. (2001)另外進行了一場完 全由真人組成的實驗, 結果發現真人在此實驗中的表現優於在前述實驗中的表現。 這個結果意味著真人在面對同為真人的對手時表現較好, 因而顯示出代理人是比 真人還要強的交易者。 在人類行為的特性方面, Das et al. (2001) 的結果顯示人類的表現有隨著時 間改善的情況, 但最終仍落後軟體代理人百分之五至百分之七之多。 對於 Das et al. (2001) 的研究, 揭示了許多有意義的問題: 1. 首先, 代理人的表現遠優於真人交易的原因有以下幾種可能: • 軟體代理人的決策速度優於真人。 • 真人受試者並非專業人員。 關於速度的差異, Das et al. (2001)表示因為不論快慢代理人的表現皆優於 真人, 故計算速度並非代理人得以勝出的唯一原因。Das et al. (2001) 也建 議可以找較為專業的真人受試者, 測試其結論是否會有所不同。 2. 由實驗結果可以明確地觀察到人類的學習行為的確發揮了作用,其獲利的表 現會隨著時間而進步。 Das et al. (2001) 作為率先研究人機互動的文獻之一, 的確引出了許多有趣 的問題,但關於人類決策學習過程與軟體代理人間的差異問題,卻沒有作太多深入 的探討。首先, Das et al. (2001) 的研究並不能有效辨別出真人與軟體代理人表現結 果差異的背後原因。 慢速的代理人雖然贏過真人交易者,但因為慢速的交易者的睡 眠時間也不過五秒,五秒對真人交易者而言仍然是相當短促的時間,所以並不能排 除軟體代理人的優勢來自於其快速的運算。 特別是在 Slow ZIP 對真人的實驗中, 市場交易都率先發生在軟體代理人之間,其次才是人類與軟體代理人間的交易,而 真人交易者之間的交易則是最後才發生, 因此可以看出真人與軟體代理人在速度 上的差異還是存在的。
其次, Das et al. (2001)明確觀察到真人受試者學習的現象,但可惜的是Das
et al. (2001) 並沒有探討學習的最終結果可到達什麼樣的地步– 學習真的可以讓
人類決策者克服計算能力上的劣勢,進而學習到致勝之道嗎? 這些問題的答案,不
但有助於瞭解人類與軟體交易者的特性與獨特優勢, 更可藉此改良現有的軟體交
易程式, 並進一步在未來促進人類與軟體代理人之間的合作整合。
2.1.2 Taniguchi et al. (2004)
的期貨市場交易研究
Taniguchi et al. (2004) 利用 U-Mart 系統作為研究人機互動的平台。 U-Mart
是日本數所大學合力開發所成的一套整合了真人實驗與代理人基模擬的實驗平台, 其開放性的架構允許實驗者指派任一市場交易者為真人受試者或特定的軟體代理 人, 因此不但可以進行真人實驗、 代理人基模擬, 也可以進行人機互動的實驗。 U-Mart 是一個期貨交易平台, 實驗者可以輸入時間序列資料到系統之中, 作 為提供給交易者參考的現貨價格,而市場交易者則仰賴仿真的交易界面,讓交易者 決定期貨之買單或賣單。 整個系統除了真人之外,亦內建了許多利用技術交易法則 的軟體代理人可供實驗者使用。 Taniguchi et al. (2004) 的實驗便是一個比較真 人與簡單的隨機喊價代理人之競賽。
2.1 人類與軟體代理人之競賽 13
交易機制與市場設計
U-Mart 的市場交易核心近似雙方喊價的機制, 稱之為 「定盤交易」 (Itayose), 使 用者可送限價單及市價單。3 雖然 U-Mart 交易時間看來是連續的, 但由於採用定 盤交易,所以在每個交易時段內的訂單並沒有先後順序的差異,所以因運算速度所 造成的差異也會較 Das et al. (2001) 來得小。4 實驗中使用了二十二位真人受試者, 與 Das et al. (2001) 不同的是, 這些 U-Mart 的受試者事先都接受針對各國股票及期貨市場的介紹、 期貨市場的專有 名詞、 由技術分析及基本面分析所建構出的各種交易策略等相關議題的教學課程, 並且訓練使用者熟悉 U-Mart 程式介面之操作。 一系列的介紹與訓練課程長達四 次,每次九十分鐘,因此預計可大幅縮減真人熟悉問題與摸索操作方式的時間。 實驗總共進行了九場,由同樣的二十二位真人受試者參與。 每場實驗由連續的 二十四個虛擬交易日構成, 每個交易日則再切分為八次定盤交易時段。軟體代理人
實驗中的軟體代理人為二十個隨機喊價的代理人, 其喊價區間為目前現貨價格的 上下二十日元之間, 每次皆使用限價單、 設定五單位的商品、 並在每個定盤交易期 間下單五次。結果與探討
實驗的結果顯示, 雖然軟體代理人使用的是在現貨價格附近隨機喊價的簡單法則, 但平均而言, 軟體代理人的表現卻還是比真人交易者來得好, 其中有少部份(由其 3為了避免價格波動過大,僅第一組實驗允許遞送市價單。 4每個定盤交易期間需時十秒,而在Das et al. (2001)中的軟體代理人,快則每隔一秒,慢則每 隔五秒會出價一次,因此若要與軟體代理人競爭,在Das et al. (2001)的環境中時間壓力是比較 大的。圖表觀之, 約有兩位) 真人交易者的獲利勝過或接近於軟體代理人的表現。 就下單的頻率而言, 在每一個市場時段內真人交易者最大的遞單量是 90 次, 然而比較起軟體代理人的 960 次, 顯然真人交易者的下單量少多了。 但在下單的 交易量方面,不論是買單還是賣單,真人交易者所欲交易的量隨著各場實驗的進行 不斷地增加。 而根據事後的問卷調查顯示,真人交易者並不會參考市場價格來決定 交易量,而是隨著實驗場次的進行而學習到如何制定訂單中所欲成交的數量。 而在 部位的控制方面,由於期貨契約必須在最後結清日之前進行平倉的動作,而這部分 雖然在真人受試者的行前訓練曾加以說明, 但實際進行實驗時發現真人受試者仍 需要一段時間才能達到此要求。 值得一提的是, Taniguchi et al. (2004)的分析發現儘管所有的真人受試者都 沒有實際交易股票的經驗, 但真人交易者其中一人卻在實驗中學到了投機交易的 方法(speculating), 並且因此獲得了高額報酬。 而根據事後訪談的結果, 該交易者 乃是使用一種仰賴直覺的交易策略。 總結來說, Taniguchi et al. (2004)的研究儘可能地提供了真人交易者充足的 條件去與軟體代理人競爭,但真人交易者仍不敵簡單的隨機喊價軟體代理人。 然而 學習的現象仍在真人交易行為的許多面向看得出來, 而實驗也確實發現真人交易 者是可以克服速度上的劣勢而擊敗軟體代理人的。 Taniguchi et al. (2004) 的結 果因此也暗示了人類學習行為的可期待性, 但在一段與Taniguchi 教授的詢答中, Taniguchi 教授本人表示真人實驗之成本過高, 且所能得到的資料相當有限,因此 尚需更多的努力來研究此一議題。
2.1.3 Grossklags and Schmidt (2006)
的期貨市場研究
在研究人機互動的實驗中, Grossklags and Schmidt (2006)提出了一個相當特別
且重要的議題: 人類交易者的行為是否會因為軟體代理人的存在而有所改變? 由
於在 Das et al. (2001) 的研究中, 在實驗進行前真人並未對軟體代理人的策略有
2.1 人類與軟體代理人之競賽 15
人存在與否的訊息, 真人交易者是否會因為軟體代理人在運算與交易上速度優勢
而改變其喊價行為? 軟體代理人的存在是否會排擠掉真人的交易機會?
交易機制及市場設計
Grossklags and Schmidt (2006)使用期貨交易作為實驗市場,並採用連續型雙方
喊價交易機制。 整個期貨市場的設計採用極類似 Iowa Electronic Markets 預測
市場的設計 (Forsythe et al., 1999) – 市場上存在五支期貨, 每一支期貨代表一 家公司。 五支期貨組成一個期貨組 (bundle), 期貨組的最終價值是固定的(定於一 百), 且市場中存在一銀行隨時以一百的價格供交易者買賣期貨組。 因此若實驗當 中這五支期貨的價格相加超過 (或低於)一百,就代表五支期貨中必然有某些期貨 被高估 (或低估) 了, 也就因此出現了套利空間。 五家公司之中有三家價值較高 (A、B、C), 另兩家價值較低 (D 和 E) 這五家 公司的期貨均衡價值視其獲利表現而定,獲利較佳的公司期貨均衡價值便上升,而 公司的期貨均衡價值,則由相對其他公司的表現來決定,因此某家公司的均衡價值 便是該公司獲利佔五家公司獲利總和的百分比。5 實驗總共分為十二個回合,每個回合只有一個公司的獲利情況會變動,而該公 司新的獲利值會以私人訊息及公開訊息的形式給予真人交易者。 私人訊息是指實 驗者給透露給個別真人交易者有關該公司新的獲利值的訊息, 但私人訊息是不完 全正確的, 所有私人訊息的平均值才是該公司新的獲利值。6 而公開訊息則是將真 實的獲利值公諸於交易者。 所有交易者(不論真人或軟體代理人) 在實驗初始時皆會有筆為十萬元的虛擬 貨幣以作為交易資本。 交易者可以下單、 取消訂單、 也可以直接向銀行買賣期貨契 5因此一家公司的獲利情況改善,不僅會造成該公司均衡價值增加,還會導致其他公司的均衡價 值下降。 不論如何,五家公司的均衡價值總合必須是一百。 6舉例而言,如果在第二個回合中, B公司新的獲利值為50,則實驗者可能會分別給六位真人交 易者25, 35, 45, 55, 65, 75的訊息, 每個訊息本身卻不見得是正確的, 但這六個訊息的平均值是 真正的獲利值。
約組合, 並且可以在買賣兩種身分間轉換, 以及同時交易一個以上的期貨契約。 期 貨契約的價格受事件 (event) 影響, 即受到實驗者在每回合公佈的私人與公開訊 息的影響。 而每個回合中交易者會先接收到私人訊息,在經過四分鐘的交易後會再 接收到公開訊息,然後再繼續進行交易兩分鐘。
軟體代理人
本實驗所採用的軟體代理人名為 Arbitrageur, Arbitrageur 會不斷地描掃市場 情況以尋找是否在市場間由價格波動引起的無風險獲利機會。 當五個期貨市場價 格的總合偏離於期貨組應有的定價 (一百) 時, Arbitrageur 便開始進行套利的行 為。7 Arbitrageur 運作的法則如下: • 如果市場上五支期貨契約的最低賣價總和低於一百,便以期貨組為單位收購 各支期貨, 然後再將期貨組賣給銀行賺取價差。 • 如果市面上任一期貨組合(單一一支,任兩支,或任三支期貨等)的最高買價 總和超過一百, 則先向銀行購買期貨組, 然後將期貨組拆開, 將市場上需求 過高的期貨售出。 為了區分兩項因子 – (1) 軟體代理人參與市場交易, 以及 (2) 軟體代理人存在於市場上這個訊息– 的影響, Grossklags and Schmidt (2006) 共設計了三種
實驗: 一種實驗完全由真人交易者所組成; 另兩種實驗包含軟體代理人, 但其中一 種的真人交易者並未被告知有軟體代理人的存在, 在另一種實驗中軟體代理人的 存在則是公開的訊息(受試者僅知道有軟體代理人存在,但不知道其交易策略)。 三 種實驗皆由六位真人交易者進行,在有代理人的市場中則再加入 Arbitrageur。 這 三種實驗除了代理人部分之外,所有的設計及參數皆相同,因此可以明確地比較真 7由行為的觀點出發, Arbitageur的行為可以視為一種消極的交易策略,因為其策略便是在背 景等後其他交易者不完美的交易所造就的獲利空間。
2.1 人類與軟體代理人之競賽 17
人受試者的行為差異。 每種實驗各自進行了六次,因此總共招募了一百零八位大學
生受試者。
結果與探討
在分析實驗結果之前, Grossklags and Schmidt (2006)針對人機互動的可能結果
提出了兩個假設: 1. 在知曉軟體代理人存在的情況中,真人交易者會因軟體代理人的存在而被排 擠:由於明白軟體代理人在速度上的優勢,在知曉軟體代理人存在時,真人交 易者會完全停止交易。 而其對立假說則是真人交易者只在意與真人的比較, 因此並不會因軟體代理人的存在而刻意改變其行為。 2. 軟體代理人的加入有助於改善市場的效率(efficiency): 由於軟體代理人不 會犯錯, 且軟體代理人處理資訊及喊價的速度較快, 因此應該有助於市場效 率的提升。8
由於整個期貨交易可以視為一個零和的競賽, Grossklags and Schmidt (2006)
在分析結果後發現,在十二場有軟體代理人的實驗之中,有十一場Arbitrageur賺 有利潤,而另一場則因為錯失機會而獲利為零。 Arbitrageur 不會招致損失的結果 意味著軟體代理人的表現比人類交易者的平均表現好, 但此差異在統計上並不顯 著。 在交易數量方面, 在軟體代理人存在的實驗中, 成交的數量較沒有軟體代理人 時來得低, 但此差異在統計上並不顯著。 若細究真人與軟體代理人間的交易情況, 可以發現在真人交易者知曉軟體代理人存在時, 真人與軟體代理人間的成交數量 會比不知道軟體代理人存在時來得大。 8所謂的市場效率,指的是五家公司的期貨市場價格之總和偏離基本價值一百的程度。 衡量的方 法為期貨組的市價除以期貨組的基本價值(一百),所得到的數字愈接近於一,就表示市場愈有效率。
Grossklags and Schmidt (2006) 的分析發現, 假設一的情況並未發生 – 並 沒有因為軟體代理人的存在而發生排擠效應。 針對市場效率的部分,經比較三種實驗的結果後發現,在沒有軟體代理人以及 具有軟體代理人但軟體代理人存在的訊息未公開的兩種實驗中, 市場效率較具有 軟體代理人且軟體代理人存在的訊息公開的實驗為差。 換言之,軟體代理人存在訊 息之公開有助於真人交易者收斂到均衡。 而且, 若市場存在軟體代理人, 但此一訊 息不對真人交易者公開的話, 市場效率將會比完全由真人交易者組成的情況下還 要差, Arbitrageur 軟體代理人的存在對市場效率便具有負面的影響。
Grossklags and Schmidt (2006) 的研究結果就行為面以及個體獲利的角度
而言,發現了軟體代理人的存在會對真人交易者的心理造行影響,進而造成行為的
改變。Grossklags and Schmidt (2006)對此的推測是真人交易者會因為好奇心的
驅使而有更多的意願投入市場交易之中。 但另一方面,統計檢定卻也顯示出三種實 驗中的成交數量並沒有顯著的差異。 因此,若要真正討論軟體代理人的存在對真人 交易者的影響,也許需要更為詳盡的交易資料, 或甚至結合腦神經經濟學的研究方 法才能作進一步的確認。
2.1.4
小結
關於前述一系列的人機互動研究,我們可以得到兩點基本的結果 1. 軟體代理人通常都會比真人交易者有更快、 更為精確的行為。 因此其獲利表 現較真人交易者佳。 2. 人類交易者或多或少地展現了學習的能力, 不管是在獲利表現上, 或是摸索 交易行為上, 甚至於會因應對手的類型而有行為上的調整。 以上兩點發現, 雖然有助於我們對人機互動的基本認識, 但對於軟體交易者與 人類決策者的特點, 所能提供的訊息就比較有限了。 由一系列的文獻研究結果中, 我們並不容易判斷軟體代理人的表現之所以優於人類決策者: 是純粹因為電腦的2.2 Santa Fe 雙方喊價市場競賽 19 計算速度較快、 因為軟體代理人所採用的策略較為優越、 還是因為人類決策者缺 乏相關知識所致。 再者, 雖然文獻中可以觀察到真人交易者具有學習的能力,但卻未對這點作深 入的探討: 人類特有的學習能力, 到底在幫助經濟決策上可以扮演什麼樣的角色? 可以幫助人類達到什麼的成果? 這些問題都有待更進一步的實驗與研究, 而這也是 本研究希望利用 「計算智慧」 來建構 「學習型」 代理人, 來探討學習所能扮演角色 的原因。
2.2 Santa Fe
雙方喊價市場競賽
在大規模比較各類型交易策略的研究上, Santa Fe Institute 於 1990 年所進行 的雙方喊價市場競賽一直是相當重要的典範–其研究架構具有簡潔與標準化的特 性,對於後續研究者而言可以十分容易地進行相同的實驗。 雙方喊價市場也同時是 眾多金融市場的交易機制,因此在這個架構下研究所得到的結果,也具備一定的參 考價值。 因此本研究的實驗環境亦參考了 Santa Fe 雙方喊價市場競賽的基本設 計,而本節即針對 Rust et al. (1994)利用此交易競賽所作的研究進行介紹。2.2.1
實驗設計
Rust et al. (1994) 於 Santa Fe 進行雙方喊價市場競賽的目的, 在於尋找雙方
喊價市場中有效策略的共通特性。 因此為了儘可能比較各式的交易策略, Santa Fe
Institute 以發放獎金的方式, 對外公開徵求交易策略。
市場設計
(to-ken) 作為其保留價格。9 Rust et al. (1994)以一套系統化的隨機公式來產生各交 易者的籌碼值, 該公式為 Tjk= ⎧ ⎨ ⎩ A + B + Ck+ Djk, if j is a buyer A + Ck+ Djk, if j is a seller, (2.1) 其中 Tjk 為 j 個交易者的第 k 個籌碼, 且 A ∼ U[0, R1], B ∼ U[0, R2], Ck ∼
U [0, R3], Djk ∼ U[0, R4], 而 Ri = 3k(i) − 1, k(i) 為一個稱為 「競賽型態」 (gametype) 的四位數字之第 i 位數。
以這種方式產生籌碼值的好處是,因為各個交易者的籌碼值即保留價格, 而買
方保留價格的集合即可形成市場上的需求, 賣方保留價格的集合則形成市場上的
供給, 因此實驗者便可透過gametype 這個參數的設定來影響市場供需的形態。
Santa Fe雙方喊價競賽採用的交易機制是 「非連續型雙方喊價」(discrete dou-ble auction)機制。 每個實驗由一個或數個回合(round) 組成, 每個回合又分為數
個交易期間(period),每個交易期間再由數個喊價(Bid/Ask, BA)與買賣(Buy/Sell,
BS)步驟輪流構成。 交易者的籌碼在每個交易期間之初都會被重新補充,且其值在 同一個交易回合的各個交易期間都是固定不變的。 設計交易回合的目的,則是允許 籌碼能在交易回合之間改變, 用以測試交易策略面對環境改變時的應變能力。 交易期間內喊價活動的進行方式則如下: 在 BA 步驟中, 所有的交易者皆會 出價, 然後市場會挑選出買方喊價最高者作為現行買方喊價 (current bid), 以及 挑選賣方喊價最低者作為現行賣方喊價(current ask),然後進入BS 步驟。 在BS 步驟中, 現行買方喊價及現行賣方喊價的持有者必須決定是否接受對方的喊價,如 果彼此都能接受,則交易成立,市場會在雙方喊價之間隨機選取一個數字作為成交 價格。10 9關於保留價格的說明,請見第3.1.2節。 10是否接受對方的喊價,端視接受對方的喊價而成交是否有利可圖, 見Rust et al. (1994) 註 17。
2.2 Santa Fe 雙方喊價市場競賽 21
策略來源
為了能夠讓各式各樣的交易策略能在其市場環境中運作無誤, 除了事先公告市場 設計與和中央結清機制溝通的訊息協定外, Rust et al. (1994) 還事先將競賽所 用的喊價市場開發為可透過網際網路交動的程式, 讓參賽者得以在撰寫程式的過 程中得以實際測試。 除此之外,還提供了一支骨架程式Skeleton 給所有的參考者, 除了作為策略設計的參考外,也可以直接使用而作用參賽策略的一部分。11 該競賽最後總共收到了三十支來自於各個領域所設計出來的交易策略, 設計 者紛別來自資訊科學、 經濟學、 數學、 物理學、 行銷學等領域, 以及市場經理人等 專業人士等, 再加上Santa Fe 本身內建的數個程式, 進行了一場大規模的比較。2.2.2
策略分類
為了要找出雙方喊價市場具備高獲利能力策略的共同特徵, Rust et al. (1994)便 從數個面向來為其收集到的策略進行分類。 其分類標準計有: • 複雜或簡單(simple vs. complex) • 調適性或非調適性 (adaptive vs. nonadaptive) • 預測性或非預測性 (predictive vs. nonpredictive) • 隨機或非隨機 (stochastic vs. nonstochastic) • 最適化或非最適化 (optimizing vs. nonoptimizing) 本節將對這些分類標準分述於後。 11關於Skeleton策略的說明,請見第4.2.2節。複雜或簡單
(simple vs. complex)
策略, 或智慧行為的複雜程度, 一直都是非常重要的研究問題, 而如何衡量策略的 複雜程度,也有許多研究提出各種不同的方法。 面對不同的複雜度概念人們該如何 取捨, 至今尚未有明確的定論。 Rust et al. (1994) 因此便利用一種複合的方式來 評判一個策略的複雜程度: 如果一個策略的敘述長度很短、 或者僅使用少數的經 濟法則、 或執行時所需的計算時間很短, 那麼便可歸類為簡單的策略; 如果一個策 略的敘述長度很長、 廣泛地使用變數、 使用多重巢狀的函數、 結構、 副函式呼叫、 或執行時所需的計算時間很長, 那便可歸類為複雜的策略。調適性或非調適性
(adaptive vs. nonadaptive)
策略是否具有調適的能力也是一項非常重要的分類指標。 所謂的調適性,便是能在 不同的環境中因應環境的改變而以相應的作法來面對, 而不致因為環境的改變而 大幅退步。 但和複雜度一樣的是, 調適性的程度也是一個糊模的概念, 於是 Rust et al. (1994) 便以一個簡單但明確的想法出發: 具備調適能力的個體會從經驗中學習, 因此便可利用策略對於歷史資料的使用情況作為調適性的評判依據。 依照策略所 使用的歷史資料屬於前一個步驟 (step)、 前一個交易期間 (period)、 前一個交易 回合 (round)、 目前整個實驗、 或目前及過去所進行過的實驗的公開歷史資訊, 定 出了五個不同的調適性等級。 其中若為第一個等級(僅使用上一個交易步驟的公開 訊息)便被歸類為非調適性。12 12例如Kaplan策略僅使用上一個步驟的市場喊價資料,因此被歸類為非調適性; ZIC策略僅使 用到自己的保留價格,連第一等級都說不上,因此也屬於非調適性。 最高等級的例子為Dallaway-Harvey 交易者–一個利用遺傳演算法 (Genetic Algorithm, GA) 來演化類神經網路 (Neural
Network, NN)連結強度參數的策略, 由於GA 會用到一系列的實驗資料, 因此屬於最高的第五
2.2 Santa Fe 雙方喊價市場競賽 23
預測性或非預測性
(predictive vs. nonpredictive)
另一個被用以分類的特性是所謂的預測性(predictivity)。 預測性策略會使用對未 來資訊的預測作為決策的依據,根據其所預測的標的資訊,又分為以下三種不同的 層次: 1. 未明顯預測任何未來資訊之策略。 2. 明顯對未來市場總體資訊進行預測之策略。13 3. 明顯對競爭對手的未來進行預測之策略。隨機或非隨機
(stochastic vs. nonstochastic)
隨機性的策略意指該策略在形成決策的過程中使用了隨機值, 其目的可能在於為 其喊出的價格增加一定程度的雜訊 (noise),使得對手無法有效地掌握其策略進而 找出克勝之道。最適化或非最適化
(optimizing vs. nonoptimizing)
某一策略具備最適化行為意指該策略明確地,或在行為意涵上,使用最適化 (opti-mizing) 的方式來制定喊價價格。 13此處所謂明顯地預測指的是在策略中明白揭露出來的預測行為,如其中Burchard 策略使用adaptive cellular curve-fitter來預測下一次交易階段的市場買價及賣價;而Ledyard策略則使
用區間估計的方式來預測下一次交易價格的可能範圍。 當然, 這也是一種主觀的分類認定–某些交
易策略所使用的資訊背後可能隱含了某種程度上的預測行為,而隨著解讀角度的不同會有不同的
2.2.3
結果與探討
Rust et al. (1994) 提出了一套完善的策略分類方法, 試圖找出在雙方喊價市場 中優秀策略的共同特徵。 在進行各種不同市場型態的測試之後, 排名第一的策略 Kaplan 卻具有簡單、 非調適性、 非預測性、 非隨機性、 與非最適化的特性; 而排 名第二的策略為Ringuette,和Kaplan策略類似的是兩者都是所謂的 「背景交易 者」 (background player) – 也就是先等待市場上其他交易去協商價格, 當買賣雙 方的喊價顯示出有利可圖時,才跳出來攔截成交的機會。 同時這兩個策略也都是非 常簡單的策略。14 相反的, 一些具有精巧設計與複雜學習機制的策略, 表現卻不如 事先的預期。 在進一步分析一些具有代表性的策略後, Rust et al. (1994) 發現和排名前兩 名的策略具有相同性質的策略, 卻不一定表現也會很好, 例如 Gamer 策略, 永遠 以自己保留價格的百分之九十來喊價(身為買方時), 同樣是簡單、 非調適性、 非預 測性、 非隨機性、 與非最適化, 但排名卻在第二十四名。 和 Gamer 類似的策略有Truth Teller 和 ZIC,兩者一樣表現非常的差。
而複雜、 調適性、 預測性、 或最適化的策略之所以表現較差的原因, Rust et al.
(1994)認為是因為市場中充斥各類型的交易者,所以市場中的價格充斥著雜訊, 致
使這些交易者無法作出有效的預測及反應。
在眾多的交易程式中, 有一支由 Dallaway 及Harvey 所設計, 利用遺傳演算
法(Genetic Algorithm, GA) 來演化類神經網路 (Neural Network, NN) 連結強
度參數的程式, 其表現也不盡理想。 其設計者認為關鍵之處在於學習時間不夠長,
無法讓學習的效果發揮所致。15
14對於Kaplan及Ringuette策略的詳細介紹,請見第4.2.3及4.2.4節。
15在經歷不成功的表現後, Dallaway 及 Harvey 表示道: “Given that we are doing the
equivalent of evolving monkeys that can type Hamlet, we think the monkeys have reached the stage where they recognize that they should no eat the typewriter. If we could have a 4 billion year time extension before handing in the entry, we are completely confident of winning.”
2.2 Santa Fe 雙方喊價市場競賽 25 Rust et al. (1994) 也因此認為除非能夠與同一群對手經歷長時間的同場競 爭,才可能有機會找出對手的交易模式。16 因此 Rust et al. (1994) 推測有意義的 資訊埋沒在過多的雜訊中,以及龐大的問題域(市場環境及歷史資料),將使得一些 由基本學習法則所構成的交易程式需要經歷數千次交易競賽的練習才可能達到中 等的表現水準。17 由此看來,藉由設計者運用其事先知識(prior knowledge) 針對交易者在市場 中可能會面臨的一般性狀況所設計的簡單交易策略, 會比由人工智慧所建構的代 理人要更能有所發揮。 一如人機互動的一系列研究結果中,對人類學習的行為能夠 達到什麼樣的結果並未有透徹的實驗或討論, 在 Rust et al. (1994) 的研究中學 習行為似乎也還看不出成果, 而Rust et al. (1994)也經由其進行真人實驗的經驗指出,真人與這些軟體交 易策略的最大不同點在於人類的獨特調適能力, 雖然人類不見得能在充斥資訊的 環境下能夠擊敗軟體交易者。 而這也正激起了本研究對學習行為與事先設計的軟 體交易程式的探討。 若如 Rust et al. (1994) 所言, 人類行為最大的特點在於 「調適」 的能力, 那 麼人類的這種非事前 「訂製」 (hardwired) 的能力, 與其他事先定訂製的軟體交易 者之間的差異,就顯得相當重要了。 而這正是本研究欲探討的問題: 「學習型」 代理 人與 「訂製型」 及 「調適型」 代理人同場競爭的結果究竟會如何呢? 本研究將以一 個非連續型的雙方喊價市場中測試這個問題, 透過弭除計算速度上的差異, 以 「學 習型」 代理人來與 「調適型」 或 「訂製型」 軟體代理人來比較, 可以更清楚地觀察 到學習的本質, 以作為未來研究人類學習行為的出發點。 16在Santa Fe的競賽進行了許多不同設定的實驗, 其中每一個實驗最多會進行 450個交易期 間 (period)。 且由於策略數目眾多,因此在每種實驗設計下都進行了1,624 次實驗。 對於某些會 在不同的實驗間累積經驗的交易策略(即NN-GA交易者),應該具數百次的抽樣經驗。
17原文為“ The low signal/noise ratio of realized trading profit combined with the high
dimensionality of the space of possible trading histories and trading environments implies that programs based on general learning principles (such as neural networks and genetic algorithms) require many thousands of DA training games before they are able to trade even semi-effectively.”
2.3
智商與代理人基建模
本研究的目的,在於利用學習型代理人的模擬研究,來探討學習行為在面對設計精 巧的交易程式時所能展現出來的特性,並將智商對學習行為的重要意義,在模型中 呈現出來。 因此, 本節將介紹文獻中與本研究概念有關的文獻, 而本節所探討的文 獻也將傾向於研究概念之討論。2.3.1
經濟建模
:
由經濟人邁向智人
在傳統經濟理論藉以奠基之諸多假設中, 發祥於十九世紀末經濟思想家的經濟人(Homo Economicus, or Economic Man)是至為重要核心假設。 經濟人是一個自
利的、 理性、 擁有完全訊息的個體, 企圖最大化其利益。 之後, 經濟人所擁有的理 性假設納入了效用假設及機率的概念, 因此經濟人變成為一個擁有無窮的記憶量 與計算能力,來達成使其(預期) 效用最大化所需一切計算的假想個體。 理性經濟人最適化的決策行為假設允許經濟學家利用既有的數學工具, 開發 用以描述及預測經濟行為的模型,再配合代表性個體的假設,疊床架屋地建構有關 總體現象的經濟理論世界。 經濟人的假設大大地幫助了經濟理論的發展,然而在這 個假設下, 「學習」 行為在經濟理論所描述的世界裡是沒有發揮空間的 – 因為理 性個體早在第一期就已經找到了答案,在此情況下, 經濟理論中即使談論人類的學 習, 也僅限於資訊的更新而已。 然而,完全理性的假設與真實情況間的落差仍然造成經濟理論適用性的爭論,18 而一些本質上改絃更張的方法也應運而生。 對理性假設最大的反思浪潮,便是 Her-bert Simon 於一九五零年代所倡議的 「有限理性」 概念。 有限理性的概念出現後, 經濟學者很快就發現到學習在人類決策行為上的重 18諸如偏好的非遞移性(intransitivity in preferences)等被視為非理性行為的存在,根本上地 挑戰了完全經濟理性的假設, 從而引起了經濟學界對於違反理性假設的行為廣泛的討論。Anand (1993)便探討了非遞移性是否可論斷為非理性行為的問題。
2.3 智商與代理人基建模 27
要性, 這也意味著學習在經濟模型中將扮演重要的角色。 例如有限理性的提出者
Simon, 便與電腦科學家 Edward Feigenbaum 研究以人工智慧的方法來探討人
類的學習行為, 並提出 EPAM (Elementary Perceiver and Memorizer) 理論來
描述學習的行為(Feigenbaum and Simon, 1984)。 及至代理人基經濟學 (Agent-based Economics) 研究的興起, 有愈來愈多來自於心理學、 人工智慧、 生物學等
等的學習演算法被引介入經濟學的研究之中,用以建構人類的學習行為(Brenner,
2006)。
另一方面, 心理學研究的結果也大大地挑戰了理性經濟人假設下對於人類在
風險及不確定性的情況下的行為預測, 因此藉由 Amos Tversky 及 Daniel
Kah-neman 等人的研究, 促成了行為經濟學 (Behavioral Economics) 此一領域的興
起,將心理學對人類決策行為的研究結果帶入經濟建模之中。 行為經濟學家Richard
Thaler 在一篇題為 「由經濟人邁向智人」 的文章中, 提出了對經濟學未來發展的
一些預期 (Thaler, 2000):
• Homo Economicus will begin losing IQ, reversing a 50-year trend • Homo Economicus will become a slower learner
• The species populating economics models will become more
heteroge-neous
• Economists will study human cognition
• Economists will distinguuish between normative and descriptive
theo-ries
• Homo Economicus will become more emotional
這些預期點出了對理性經濟人假設中決策以及學習行為的幾個反思: 一、 研
究者需要省思理性經濟人不合理的高智商理性行為, 並以合理的角度來描述人類
會利用所有可得的資源以避免系統性的錯誤,事實上,人類的學習行為是需要花費 時間的, 而且會因問題困難度等環境因子之差異而有迥異的學習速度及方式。 三、 市場中的決策著擁有不同的理性程度, 一些高度訓練或極專業的市場參與者的確 可以被視為理性經濟人,也有許多非完全理性的決策者存在。 以理性程度齊一的代 表性經濟個體來描述市場是有問題的, 而應以異質性個體為之。 四、「有限理性」 的 概念昭示著經濟學研究者需要引入更多心理學對人類心智能力的研究, 作為刻劃 經濟決策者的參考。 五、 新古典經濟理論通常以一套理論同時作為描述現實情況 的工具, 也作為推論理想結果的工具。 事實上兩者的目的截然不同, 在欲描述現實 情況時所需要的理論, 是需要由資料趨使 (data driven) 的, 而規範性理論則是需 要以理性角度出發的。 六、 Thaler (2000) 也大膽地預言, 由於研究顯示在非常多 的情況下,情緒因子是決定經濟個體行為的重要因素,因此將情緒因子帶入到經濟 人的建模中也將會是未來研究的一個重要方向。 這些預期, 事實上許多也已經展現了現階段在代理人基經濟學、 行為經濟學、 實驗經濟學、 與腦神經經濟學(Neuroeconomics) 的研究信念與趨勢。 而其中對於 人類學習、 智商、 及異質性的想法, 也都與本研究的主題習習相關。 因此, 在下一 節中, 我們將透過文獻上的探討來檢視此三者間的關係。
2.3.2
智商與學習行為的關聯
Herrnstein and Murray (1994) 的著作 《鐘形曲線: 美國社會中的智力與階層結
構》 (The Bell Curve: Intelligence and class structure in American life) 揭
示了不同智商等級人群在美國社會中各層面的表現。 在 Herrnstein and Murray
(1994) 的研究出版後, 許多關於 「智能」 (Intelligence) 的探討彌漫於學界及社 會媒體之間。 然而許多對於智能的見解卻與學術界對智能的討論有所出入。 因此, Gottfredson (1997) 便藉由整理出學界對智能研究的共識,來釐清智能的明確意 涵及重要性。 為了提出一個能夠代表學界目前對智能的主流見解, Gottfredson (1997) 廣 泛地由教科書、 專業期刊、 及百科全書粹取整理出相關的定義與研究結論, 並且
2.3 智商與代理人基建模 29
除了將內容呈交給智能研究領域中數個重要的領導學者, 請求驗證與給予修改意
見外, 也廣泛地寄送給以下四個來源的學者以尋求其驗證及支持: (1) 美國心理學
會 (American Psychological Association) 各分支域領的研究者, (2) 學術期刊
Intelligence 的編輯委員, (3) 與智能相關的專書及期刊中所羅列之研究者, 以及 (4)在許多智能研究子領域較作者擁有更多知識的研究者。19 在所寄出的 131 份邀請函中, 有 100 份回應, 其中同意背書者有 52 位。 而 在不同意者中, 有 7 位不同意 Gottfredson 的內容可代表主流研究觀點, 11 位 無法確認是否能代表主流觀點, 有 30位因為其他因素而未參與背書。 在不同意的 37 位專業人士中, 有 11 位表達反對意見, 其中大部分僅表示對 Gottfredson 所 整理出25內容中的少數幾點持反對意見。 因此, Gottfredson (1997) 的研究內容 可以說代表了大部分學者所認為的主流研究論點。 因此,本研究便以Gottfredson (1997) 所整理出對智能的研究論點作為討論的根據。 Gottfredson (1997)的研究顯示,智能是一種悠關人們推理、 制定計劃、 解決 問題、 抽象思考、 理解複雜概念、 以及快速學習與從經驗中學習的一般性心理能力 (mental capability)。 不僅單純地指由書本學習的制式學習方式,更與人類理解問 題及環境的能力習習相關。20 而智能的高低,藉由智能測驗方法可以正確地衡量。21 並且雖然有許多不同的 智能測驗存在,但他們都可以用以衡量智能的高低。22因此 「智力商數」(簡稱智商;
Intelligence Quotient, IQ) 便可作為衡量人類智能的可靠依據。
智能對於人類教育、 職業、 經濟、 與社會結果的影響非常重大, 並且可能較其
他人類特徵 (human trait) 更為重要。23 許多個性 (personal traits) 的因素也許
在某些工作表現優良與否上具有關鍵影響, 但這些個性因子影響的範圍卻不及智 商的影響來得這麼廣泛。24 19Gottfredson (1997)所徵詢的對象主要都是美國學者。 20此為Gottfredson (1997)中第一點結論。 21此為Gottfredson (1997)中第二點結論。 22此為Gottfredson (1997)中第三點結論。 23此為Gottfredson (1997)中第九點結論。 24此為Gottfredson (1997)中第十三點結論。
高智商在人類生活中具有相當大的優勢, 因為幾乎所有生活中的活動都與推 理及決策有關。25 並且, 當面臨的問題或環境愈複雜 – 指新的、 模糊的、 變動的、 無法預測的、 或多面向的問題時, 高智商所帶來的優勢便愈明顯。26 就個體間的差異而言, 智商的分佈由低而高可以由一個常態分配來表現。27 而 造成智商差異的原因,主要是由遺傳因素決定的。28 而這也意味著學習的能力受到 先天因素的影響至為重大。 並且不論為何種種族,人種內的智能差異都是相當接近 的。29 更有甚者, 即始在環境相同的情況下, 同一家庭內的兄弟姊妹在智商上也會 呈現出相當大的差異。30 由 Gottfredson (1997) 所提出關於智能的論點, 我們可以將與學習有關的內 容歸納成以下三點: 1. 智商所衡量的個體能力, 本身已經包含了學習的能力在內。 2. 智商對人類行為的影響又遠較其他因子來得大。 3. 智商差異的現象十分普遍地存在於人群之中,即使是血緣及生長環境相同的 手足之間亦然。31 因此,在探討學習行為時,相較於其他因子,智商應該要佔有相當的優先地位。 而普遍性的學習能力差異不但可能影響真人實驗資料之判讀, 也由於造成差異的 原因是難以用智力測驗外的方式衡量的智商差異,而造成難以釐清追蹤的問題。 因 此, 不論是在實驗經濟學和代理人基計算經濟模型中,若要針對個體的學習行為進 行實驗、 分析、 或建模, 個體智商的差異都應被納入模型與分析的考量之中。 25此為Gottfredson (1997)中第十點結論。 26此為Gottfredson (1997)中第十一點結論。 27此為Gottfredson (1997)中第四點結論。 28此為Gottfredson (1997)中第十四點結論。 29此為Gottfredson (1997)中第二十一點結論。 30此為Gottfredson (1997)中第十五點結論。 31當然, 透過某些機制如考試測驗等方式篩選過的人群,其人際智商差異可能會比較小。 而在社 經地位上處於同一等級的人群, 其間的智商差異也較小。 但必須注意的是, 這些差異較小的人群, 事實上都是經過與智商習習相關的行為結果作為分類依據而組成的群體。
2.4 研究議題 31
2.4
研究議題
由一列系的文獻觀來,我們可以知道在人機互動的研究中,人類獨特學習行為尚未
被完整而有系統地研究。 但由於影響人類學習以及人機互動的影響因子眾多,包含
了計算與操作速度的差異 (Das et al., 2001)、 心理因素的影響 (Grossklags and Schmidt, 2006)、 真人受試者對於問題的熟悉程度及背景知識之有無 (Das et al., 2001; Taniguchi et al., 2004)等等, 都會與學習行為的結果有複雜而難以釐清的 干擾。 為了在比較學習行為與理性設計的軟體代理人時, 能夠單純地觀察到學習的 效果, 而不受前述各項複雜因子之影響, 本研究便採取了以下兩種作法: 1. 利用學習型軟體代理人, 作為學習型交易行為的代表, 以免於受真人受試者 之心理預期、 對問題及系統操作熟悉度、 以及背景知識的影響。 2. 採用參考自 Santa Fe 雙方喊價交易競賽的非連續型雙方喊價市場交易, 以 集中結清的方式進行喊價活動,來排除決策者間計算速度及操作速度差異所 造成的影響。 同時, 有鑑於智商差異對學習能力的重大影響, 本研究亦將智商因子納為研究 參數之一,一方面可對學習的結果有更為全面的瞭解,另一方面也成為代理人基經 濟模型中將智商因子納入建模考量的首次嘗試, 因此, 本研究的目的便在於利用學習型代理人的模擬研究,來探討學習行為在 面對理性設計的交易程式時所能展現出來的獨特特性, 並將智商對學習行為的重 要意義在模型中呈現出來。
第
3
章
研究方法與實驗設計
本章將分別介紹本研究的實驗環境、 實驗問題、 以及實驗設計,而本研究所使用的 各種交易策略, 則留待第 4 章中再詳細說明。3.1 AIE-DA
雙方喊價市場平台
本研究利用 AIE-DA 平台作為實驗環境。 AIE-DA 為政治大學人工智慧經濟學 研究中心所開發的代理人基雙方喊價市場模擬程式, 是以物件導向程式語言Ob-ject Pascal開發的模擬環境。AIE-DA內建了許多不同的交易法則或演算法,讓實
驗者得以選擇利用不同的交易策略來進行雙方喊價市場的競賽。 本節將介紹 AIE-DA 的模型架構以及喊價活動的流程。