本研究目的是探討資訊輔助、自我回饋、休息三個可能影響學習的條件是否 可以改善人們在動態決策作業中的決策績效。研究中,164 名受試者被平均安排 到 2(有資訊輔助、無資訊輔助) × 2(有自我回饋、無資訊輔助) × 2(有休息、
無休息)八種不同的實驗情境中進行每回合 20 年共 10 回合的動態決策作業。受 試者的決策品質是以進行決策作業時的結束時間點、每次決策時偏離最佳決策的 程度估計。結果發現大量重覆練習可改善人們的動態決策表現,但仍然無法達到 最佳決策一樣好。三個可能影響學習的條件中,自我回饋、休息會持續改善人們 在短期學習時的決策表現,與本研究的假設相同,但是提供人們情境中長期的整 合性資訊時,對短期學習不產生影響,且就長期的學習而言,其效果與休息有互 為消長的現象,此與本研究的假設不符。就長期學習而言,本研究亦發現若人們 能一再進行自我回饋,再輔以休息或者其行為對系統所造成的影響的整合性資 訊,則其動態決策的表現亦會有長期而持續的進步。
以結束時間點估計受試者的決策品質時,發現主要的學習來自第一回合的經 驗,第一回合到第二回合因決策錯誤而提早結束的人由 22.38%下降至 12.59
%,而第二回合到第三回合則只下降 2.80%,顯示人們在作業中因地衣消耗殆 盡而提早結束的情形在經過僅 20 次決策的練習後就大幅減少,在後面八個回合 中,提早結束的情形都只佔總人數的 10%以下。過去動態決策的研究中,發現人 們在動態決策作業中會有對回饋的錯誤知覺的現象(Sterman, 1989),此現象是 指人們會忽略或無視非常明顯的回饋,即使他們知道那些回饋的重要性。本研究 中,受試者因忽略地衣長度過短而使牧場提早結束的情形,在第一回合之後就大 幅減少,表示人們錯誤知覺的狀況並不嚴重,可能的原因是,本研究所採用的作
業為雙目標作業,作業進行中人們所看到的牧群數量、地衣長度都與作業目標直 接相關,並無隱晦不顯的其他因素,因此人們較能意識到自己在牧群上的決策將 對地衣造成影響而對牧草的結果回饋較重視。然而,以結束時間點來估計人們的 決策品質會因為天花板效應的關係而看不出在第二回合後,實驗處理所產生的效 果。
本研究嘗試從歸納推理的角度來解釋人們在動態決策作業中決策表現的變 化,不是單純只以最終的或整個的績效進行評。,若我們以決策者的決策偏離最 佳決策的程度來估計人們的決策表現後發現,經過 200 次練習後,人們雖無法表 現的與最佳策略一樣好,但決策表現已大有改善。更進一步從長期角度觀察人們 的學習,可發現整體上人們的表現慢慢變好,到第 7 回合之後,學習進入高原期,
再進步的可能性變得相當有限,此現象一方面顯示人可經由練習去掌握情境中變 項間的相依關係,但一方面此心理的情境模式仍偏離實際的情境模式,且人們經 由經驗再修正其原先的心智模型時似乎有其限制。
一個有趣的現象是,實驗中,人們在第 5 回合時偏離最佳策略的程度突然回 升,可能的原因是經過前四回合的練習後,人們會嘗試使用新的策略,或為了測 試環境中各因素間的規則而策略性的不理會作業目標,因而引起偏離最佳決策程 度上升。此現象似乎意味著當人們逐漸熟悉所處的作業環境後,會嘗試性的尋找 達成目標的新可能,然而,這樣的行為並不會持續很長的時間,且對於隨後的學 習似乎並未造成太大的幫助。
當我們把每個回合的第 1 ~ 18 次決策均分為 6 個不同的階段以觀察人們在 短期內決策偏離最佳決策的程度時,發現人們在各回合中,第一階段的決策表現 明顯較其他回合差,第二階段時決策表現大幅上升,中間三個階段的表現比較穩
定,到了最後一階段決策表現又輕微滑落。在過去的研究中發現人們在動態決策 情境下是使用定錨與調整的方式在進行決策(如,Stanley,1989; Moxnes 2003),
亦即決策的最初人們會決定一個初始值,然後在往後的每次決策時以此值作為錨 點進行上下微調來反應動態環境中的狀態變化,使環境的狀態逐漸趨向目摽。本 研究使用的牧場管理作業中,最佳決策是在經營的前幾年要大幅度調動牧場中的 牧群數量,使地衣快速生長以趨近最佳值。從第一階段人們的偏離程度居高不下 的狀況可以推論,人們可能是使用了定瞄與調整的策略來進行作業,因而在每一 新的回合的初始階段時,對牧群的調整幅度不夠而形成此現象。
從長期與短期兩種角度來觀察人們在動態決策作業中的學習也可發現,長期 學習與短期學習會互相影響。在每一回合中,短期學習的第一階段,人們偏離最 佳決策的程度雖然居高不下,但是與其他回合比較,經過 20 次的練習後,人們 在下一回合所獲得的學習是持續的,每回合的最佳決策是在一開始時對牧群作大 幅度的調整,使之達到牧群與地衣共生的狀態,接下去再維持此均衡狀態。由受 試者在每一回合一開始時偏離最佳決策較大,但隨之即較接近最佳狀態並以小幅 度的方式微調每一年的牧群判斷,人們會在練習的過程中學會加大調整牧群數量 的幅度,不再只會以微調方式進行作業。易言之,人們在作業過程中所使用的策 略因為重覆大量的練習而產生變化,我們可以推論在動態決策的情境下,大量重 覆的練習,可讓人們學會修正自己的策略來適應外在的真實系統。
每回合中後四階段的最佳決策,是將牧場穩定的維持在最佳狀態,由受試者 在這些階段與最佳決策的差距可判斷他們找到的解與最佳解間的差距。研究中發 現,雖然受試者們的表現與最佳決策間仍有差距,但經 10 回合的練習,第 9 回 合後四階段偏離最佳決策的程度明顯降低了,表示人們的心智模型隨練習而越來
越接近真實的系統。根據 Endsley(1995 )所提出的情境覺察理論,人們的內在 情境模型分為知覺、理解、規劃三個階段,本研究中人們所要知覺的線索很少,
因此沒有知覺階段的問題。人們的決策表現在短期學習最後四個階段的進步,可 代表人們所認知到的系統最佳狀態逐漸逼近最佳解,也就是說人們的情境模式中 對於系統的理解增加了。短期學習中第一階段的學習普遍較差,顯示人們在每一 回中面臨新的情境時,傾向以先前的經驗為依據作微幅調整,說明了人們由先前 的經驗中雖對該情境的模式有所掌握,但對如何達成作業目標的計畫則尚趨向保 守。
過去研究發現,當使用外在刺激提供決策者回饋時,可改善人們在動態決策
作業時的決策績效。本研究則採用自我回饋問題的方式,使決策者在進行動態決 策作業時主動比較且嘗試解釋自己內在的心智模型與外在真實環境間的差異。
本研究發現自我回饋可以改善人們短期與長期的學習。就短期學習而言,在每一 回合的六個階段中,第 1、第 2 階段時自我回饋幾乎沒有任何的效果,而是要到 第 4、5、6 階段才能觀察到自我回饋對動態決策的助益。若把第 1 階段的決策績 效視為受試者所使用的策略與最佳決策間的差距,表示自我回饋無法立即幫助決 策者發展出更好的策略以改善決策績效。自我回饋後期的效果主要在每一回合一 段時間的練習之後才出現,顯示在動態決策作業中的決策表現,若缺乏自我回饋 則人們由情境中的學習的現象將隨練習/時間而下降。由此推論,自我回饋的活 動有助於將受試者的認知活動維持在一探索系統的狀態,因而產生額外的學習。
若從情境覺察的角度來解釋,自我回饋提示的作用在促使人們比較內在的情 境模式與外在真實環境間的差異,進而改善人們對於環境的掌握與理解。本研究 的確發現人們短期學習中的進步。但另一方面,對環境的理解增加了,理應進一
步提高規劃階段的覺察程度使人們更有效的達成目標,但是本研究中,每一回合 的第一階段中人們卻沒有因為自我回饋而使加速他們擺脫依據上一回合的經驗 微調的策略。可能解釋為自我回饋的效果是非立即的,且由自我回饋中去產生一 全盤性的情境理解及策略變化,重複練習本身並不夠,而需要大量的練習並輔以 休息,或長期的整合性資訊。亦即從強化理解階段到對規劃階段必須有更多經驗 與後果回饋,本實驗中九次的自我回饋與其間 180 次的練習對情境的掌握可能尚 不足夠。
就休息的作用而言,根據學習理論,分散練習的效果較集中練習為佳,即使 每 20 次的決策後只多 1 分鐘的休息時間,對短期學習的中、後期表現也會有良 性的影響。休息一段時間後學習的效果,是必須等待一段時間後才會產生,顯示 出只有休息才能讓人在學習上走更長遠的路。過去的研究(如,Gibson, 1997) 在沒有休息且大量重覆的作業方式下探討動態決策時,會低估人們在此情境中的 決策表現及進步的可能性。
自我回饋與休息在短期學習方面所得的結果非常相似,這兩種因素都有助於
自我回饋與休息在短期學習方面所得的結果非常相似,這兩種因素都有助於