第六章 情意計算在數位家庭人機介面設計的應用
1 前言 網際網路與資訊科技如何融入一般家庭生活已成為未來科技發展的重要指 標應用,近年來也有越來越多的計畫投入到實現數位家庭的跨領域 3C 整合研 究。與一般計算環境比較,數位家庭應用最大的特點之一便是其使用情境較不像 辦公環境有一定的運作規則,而使用者對人機介面的自然度與彈性也有更高的要 求,甚至希望達到使用者能不必感知到電腦存在的終極目標,系統就能根據使用 者的心理狀態及意願,自動調整環境的設定參數。然而,要達到此一目標的一個 重要關鍵技術便是如何以有限的感測器感知使用者的意向及情緒,並以適切的情 意化行動滿足使用者的需求。「情意計算(Affective Computing)」便是近年來為解 決這類問題所提出的前瞻性計算模式[28]。 2 情意的定義 情意計算是一個探討如何感知情緒、建立適當的情緒模型、並將情緒適切 地以各種方式表達或在網路上傳遞的一個新興學術領域。情意計算的主軸包含了 感情及情緒這兩個觀念,但以宏觀的角度來說,此二者相差不大,在本文也交錯 使用此二名詞。張氏心理學辭典將情緒定義為:指由某種刺激(外在的刺激或內 在的心理狀態)所引起的個體自覺的心理失衡狀態。失衡的心理狀態涵蓋極為複 雜的情感性反應;例如,喜、怒、哀、懼、愛、惡、欲七情之說,即指出情緒的 複雜性。在情緒狀態下,個體除會有主觀感受之外,在身體上亦隨之會有生理變 化(如憤怒或恐懼時會心跳加速)。而情意計算,即是建構在感測這種現象發生 的時候所產生的資訊之上,而由於情緒的外顯得以非語言(Non-verbal)的身體語 言(包括:臉部表情、聲音語調、姿態、生理現象)來表達,因此正可以彌補自然 語言的不足,作為人或電腦溝通的一個新的媒介方式。 3 相關研究概況 從情意的定義可以知道,情意計算是一個跨領域的研究。一般而言,除了 工程領域的資訊科學及電子工程學之外,與情意計算相關的領域還包含認知科學 (Cognitive Science)、心理學(Psychology)、神經學(Neuroscience)、醫學(Medicine)、 心理生理學(Psychophysiology)、社會學(Sociology)及倫理學(Ethics)等。而資訊相 關的技術領域則包含機器學習(Machine Learning)、圖形識別(Pattern Recogni-tion)、訊號處理(Signal Processing)、電腦視覺(Computer Vision)、語音分析(Speech Analysis)、感測器設計(Sensor Design)、使用者導向設計(User-Centric Design)、電腦動畫(Computer Animation)、及協定語言設計(Protocol Design)等。
與情意計算相關的研究團隊,根據地域的不同,可以分成美國、英國、及
其他國家三類。美國的研究團隊已 MIT Media Lab 由 Picard 教授所領導的
Affective Computing 實驗室為研究主力。另外,在 Carnegie Mellon 大學的 OZ 計 畫中的智慧型代理人,對情緒模型的也有相當深入的研究。匹茲堡大學(Pittsburgh Univ.)的 Affective Analysis Group 及 RTI 的 Responsive Virtual Human Technology Group 等對情緒表意及辨識也有相當的研究成果。在英國的研究團隊方面,各主 要大學均有相當多的人力投入情意計算的研究,例如,University of Cambridge 的情緒研究團隊(Emotion Research Group)及情緒式智慧型介面(Emotionally Intelligent Interface ) 專 案 、 University of Birmingham 的 認 知 與 情 意 專 案 (Cognition and Affect Project)、 University of York 的臉部與情緒感知研究團隊 (Face and Emotion Perception Research Group)等。在其他國家方面,瑞士、荷 蘭、芬蘭、巴西、澳洲等國家都有研究團隊投入在情意計算的研究。而在虛擬人
物具情緒性的動畫模擬方面,主要的研究團隊則包含在瑞士由Thalmann 夫婦所
主持的Miralab 及 VR 實驗室及在美國賓州大學由 Badler 教授所主持的人體模擬
中心。
MIT Affective Computing Lab 是由 Rosalind Picard 所指導,主要進行情意 計算方面的研究,包括辨認使用者的情緒並瞭解人類的情緒、建立情緒模型以及 相對應的與人溝通[9]。從能夠做較為自然互動的人機介面、研發可穿戴式的裝 置以應用於醫學領域、發展測量情緒的感應器以降低偵測錯誤率、到針對情緒計 算建立更好的計算理論,都是此實驗室一直努力的目標。
由Klaus R. Scherer 所指導的 Geneva Emotion Group 致力於情緒計算的理論
發展以及實證研究,特別著重於情緒的評估程序、聲音或是臉部情緒的表達、對 生理反應的評估和主觀情緒經驗的處理方面的研究。除了以上較為基礎理論的研 究,對於較應用層面的研究例如智慧型情緒應用、將情緒因素應用於演講的技巧 等等也多所著墨。
Carnegie Mellon 中的 Emotion and Decision Making Lab 主要方向在跨領域的 探討透過情緒因素影響判斷與決策的機制[31]。包含以心理學來描繪初步模型架 構、經濟學中的分析探討情緒與行為以及生理系統的認知,都在此實驗室的討論 研究範圍之內。
在具情緒表達能力的虛擬替身方面,Virtual Reality Lab, Swiss Federal In-stitute of Technology (EPFL), Switzerland 是在 1988 年由創辦人 Daniel Thalmann
所成立,之後改名為Virtual Reality Lab。近年參與 7 個歐洲計畫和 4 個國家級計
圖一、面部辨識的基本結構[33]
式動畫(behavioral animation)、及人群控制(crowd control)等。而 Miralab, University of Geneva, Switzerland 則是在 1989 年由 Nadia Magnenat-Thalmann 所
創辦。研究領域泛及臉部動畫(Facial animation)、個人化或情緒模擬(personality
and Emotion simulation)、人體塑模及模擬(human body modeling and simula-tion)、及混合式虛擬實境(Mixed Reality)等。這兩個實驗室也是提出具有情緒
模型的Avatar Markup Language (AML)的主要研究團隊。
另外,由Norman Badler 等人所主持的 The Center for Human Modeling and
Simulation (HMS),從 1975 年即開始研究相關課題,他們製作的 Jack 軟體,更
是獲得國際的認同。主要研究的領域在於人體模擬、機構學(Kinematics)、動力
學(Dynamics)、及自然語言處理(Natural Language Processing)。
4 情意計算的議題 情意計算的相關議題,根據應用的目的不同,可以分成四個主要面向來探 討。這四個面向分別是情意的感知(Perception)、塑模(Modeling)、表達 (Expression)、及傳播(Communication)。情緒的感知與表達是一體的兩面,對 系統而言分別為情緒輸入與輸出的機制。塑模希望建立的是情緒的分類與相關變 因的關係,而情意的傳播則探討如何將情意模型透過語言描述出來,以利情意在 網路上的傳遞[32]。以下謹就這四個面向提出進一步相關研究的概況說明。 4.1. 情意的感知(Perception) 情意感知目的在瞭解使用者當前的情緒,以及當前使用者所收到的刺激 (Stimuli),以作為情緒計算的預先資訊。此刺激可能是語言(Verbal)型態或是非語 言(Non-verbal)的型態,而由情意所構成的資訊則多是一種非語言(Non-verbal)的 資訊,而此處需要判讀的即是此種非語言的情緒狀態。要得知使用者目前的情緒
狀態,目前較常見的方法是臉部辨識(Facial Recognition)以及偵測使用者的各種 生理狀態資訊(Detect Physiological Symptom)來推估使用者現在的情緒狀態 [14]。當然,後者所得到的資訊較為客觀且錯誤率較臉部辨識低,但要得知使用 者的生理狀態,首要的工作即是接觸使用者以偵測狀態。雖然現在已有許多可穿 戴式(wearable)的設備,但是依舊不比面部辨識來得靈活。 在面部辨識方面,圖一描繪面部辨識的基本架構[33]。首先要找尋出圖片或 是影像中人臉部的位置,在一連串的影像中,也需要掌握住頭部的移動、頭部的 位置加以評估。在臉部定位完成後,下一步是找出將臉部表情的改變,通常分為 兩種主要的方式,第一種 Feature-based 是將臉部以特徵分為數個區域,像是鼻 子、眉毛、眼睛,分別作為辨識的基礎,另一種則是Appearance-based,將整個
臉部區域透過Image filter (例如 Gabor wavelets)來辨識出其中的特徵以及差異,
最後再對這些粹取出來的資訊進行辨識[15]。根據此系統有無考慮時間因素(圖片 抑或影像串流),我們可以將其分為 Frame-baed 以及 Sequence-based 兩類。以 MIT 的 Affective Computing 實驗室的 Affective Mirror(2003) [18]來說,偵測人臉 上肌肉的移動像是眉毛的位置以及眼睛的擴張大小,配合頭部的姿勢與位置來組 合出使用者現在最可能的情緒反應,其設計一個全自動的面部辨識代理人,此代 理人辨識出使用者的情緒狀態以及姿勢並將其反映出來。在面部辨識部分則是先 以紅外線感應器偵測出人瞳孔的位置,再將其面部特徵(Action units, AUs)進行取 樣,最後再加以分類,歸納出使用者現在的情緒狀態。
而在探測生理表徵則蒐集了使用者的各種生理資訊,例如每分鐘心跳次 數、呼吸的頻率、血壓、體溫、以及腦波、肌肉繃緊程度或是皮膚的導電度;而
藉由分析以上的資訊來推斷使用者現在的情緒狀態。在Robotics and Autonomous
Systems Laboratory (RASL)的 Affect-sensitive human-robot collaboration(2003)[25] 即是以可穿戴式的設備收集上述資訊來判讀使用者的情緒狀態,來讓機器人做出 適當的回應。這是一連串的轉換動作,從可穿戴裝置所蒐集到的資料轉成可處理 的資訊,例如對心電圖(EKG)進行小波轉換(wavelet transform)分析,接下以 fuzzy logic 建立一個決策系統來決定機器人的回應。Qiang Ji 在 2003 年規劃了一個情 緒滑鼠(Emotion mouse),如圖二;這滑鼠能夠瞭解使用者在使用電腦的時候是快 樂、悲傷、恐懼、高興、噁心、憤怒等哪一種情緒。藉由使用者接觸滑鼠使滑鼠 能感測使用者的心跳頻率、手部的溫度、皮膚的導電性等生理資訊。除此之外, 使用者作用在滑鼠本身的行為,例如:滑鼠的移動、點按鍵的頻率、還有手指的 姿勢資訊,均可用來做為電腦與使用者互動的根據來源。MIT 的 Affective
Computing 實驗室的Affective Tangibles[24]也是利用滑鼠,做為電腦與使用者溝 通的媒介。不同的是此滑鼠著重在於使用者握這滑鼠的力道對滑鼠造成的壓力。 此壓力滑鼠(Pressure Mouse)具有八個感測器來偵測,使用者可藉由握住他的力 道,來分析使用者當前的情緒。
圖二、左圖為MIT Affective Computing 的壓力滑鼠(PressurePressure Mouse),右
圖為Qiang Ji 的情緒滑鼠(Emotion mouse)
在心理學上,人類透過語言、表情、肢體動作等方式將八個主要類別的情 緒表達出來。目前分辨人類情緒的研究中能從表情中精確辨識出哪一類情緒的仍 屬少數,而且辨識率約在 80%左右。透過多模(Multimodal)方式提高辨識率是一 個新興的研究方向。然而,感情計算的目的是瞭解使用者與環境互動過程中的意 向或困難,因此使否能精確辨識出標準的情緒狀態,不是解決問題的必要過程, 反而是能根據應用特性,偵測出使用情境的感情狀態,進而將此情境因素設計在 人機介面的程式中,應是目前較為有效而值得探討的作法。 4.2. 情意的塑模(Modeling) 感情模型的建立,由於人類對感情形成的方式,仍無較具體的研究成果, 因此如欲從神經生理方面的觀點切入,成果將十分有限。因此,除了透過對自然 生理有進一步的瞭解來建立感情的模型外,透過目前所知道情緒與行為規範、意 向導引與決策形成等已知的因果關係來建立實用的感情模型,也是目前研究的重 點方向。 在情緒模型的研究面向,以不同的抽象層級來做為區分,一方面以個別的 回路模型或是簡單的心理學的現象來演示,另一方面則呈現一情緒處理整合的整 體架構。將情緒處理具體化的架構層級(Architecture level)是位於較高階的抽象層 級中,而位於中間層次的任務層級(Task level),則是著力於任務的處理,依照特 定狀況產生情緒,而在最底層則被歸為機制層級(Mechanism level)。
z 架構層級(Architecture level): Bates 等人(OZ Project, CMU, 1993)所提出的 情緒模型[25]以及 Elliot(1993)的 Affective Reasoner 系統[13]都是由 Ortony
等人所提出的OCC 模型[4]所做的改進或是延伸;Bates 等人將 OCC 模型加
圖三、 南加大(University of South California, USC) 的任務演練計畫(Mission Rehearsal Exercise)
應,透過漸增的累積,可以以多個較弱的刺激加以觸發,而視不同型態的情 緒以及遭遇不同的情況,情緒強度也會隨著時間而衰減。Elliot 則是將 OCC 模型加以延伸,建構出一個代理人的環境,每一個代理人都擁有自己的目標 (goal)、偏好(preference)、行為準則(principles guiding behavior)、以及保存自 己現在的心境(current moods),在這樣的一個環境下,這 Affective Reasoner 系統所注重的是各代理人之間的溝通以及情緒上的相互影響。
z 任務層級(Task level):被分類為任務層級的模型大多著重在如何有效率的解
決特定的問題。Dyer 的 BORIS 與 OpEd(1987)這兩個研究是著重在自然語言
理解(Natural language understanding)上,使用情緒的抽象表示法來推估情緒
的狀態及意向。BORIS 會試著去瞭解字句間的情緒狀態(characters' emotional
stats),而 OpEd 是 BORIS 的延伸版本,讓系統推估情緒狀態的效率更佳。
另外 Institute for Creative Technologies(ICT)所致力於研發的 Experience
Learning System(ELS)架構下的任務演練計畫(Mission Rehearsal Exercise, MRE)演示了擬真代理人如何應用於軍事訓練上,能夠在此環境中經由表 情、語言、肢體動作來與其互動[34]。Gratch(2000)提出了 Plan-based 的方法, 以「任務導向(task-oriented)」的情緒來作為思考主軸[17];也就是說,在這 裡情緒是被一件一件的事件所影響,可避免去建造一個太過複雜的模組。 z 機制層級(Mechanism level):分於此類的模型包含了 symbolic, connectionist
以及hybrid connectionist-symbolic 幾種方法,我們將其切割為「高階現象」
及「低階現象」兩類。其中高階現象包含了情緒屈服回憶(mood congruent recall)、情緒的影響效果、及自我認知評估過程(cognitive appraisal process itself)。低階現象則包括了古典制約(classical conditioning)、以 Connectionist
處理情緒模組與認知模組的互動、平行處理系統、以及 network models of psychopathology。而後者較傾向於以 Connectionist 架構來實做。 高階現象:Dyer 所提出的 DAYDREAMER(1987)[12]建構情緒狀態以及 情緒狀態對於記憶、學習、規劃、思想產生的影響之模組。他們試著去 表現出"Hot" Cognition,也就是讓情緒在自我認知過程中發揮影響力。 而Ortony 等人提出的 OCC 模型(1988)[4],將情緒的來源分為三種:由 事件(event)所引起、由代理人(agent)所引起、由目標(object)所引起。而
OOC 模型就是在處理情緒評估的機制,但 OCC 模型的一個限制就是沒 有考慮到Hot Cognition,不過儘管如此,OCC 本身、或是他的變形都 廣泛的被之後的多個計算模型所採納而實做。 低階現象:Araujo(1993)[3]實做了以 Connectionist 處理情緒中兩個較為 顯著的心理現象:外顯的情緒狀態以及記憶中或是回憶裡的情緒狀態。 這個情緒模型由兩個互動式的Connectionist 網路所構成,一為情緒處理 模 組(EN) 、 二 為 辨 識 處 理 模 組 (CN) 。 這 分 割 架 構 的 理 論 是 由 LeDoux(1989)所描述情緒處理以及辨識處理這兩個分離但是又會互相 作用的系統中所實做。 有些藉由臉部表情辨識、行為辨識或是生理測量來辨識情緒的模型,要把 他們歸類在以上三類並不合適,以下我們將對這部分的情緒模型提出說明。
經由情緒的辨識來架構計算模型(Computation Models of Emotion
Recog-nition):在不同的抽象層次,許多研究把焦點擺在從臉部的表情辨識來辨認出情
緒狀態。Padgett 等人就建構了一個 Connectionist 模型(1996)[27],由靜態的臉部 影像(例如:照片、圖畫等)來辨識其中的情緒狀態,將其歸因為六種基本的情緒 狀態,愉快、驚訝、悲傷、生氣、恐懼、厭惡。Picard(1997)[16]則使用隱藏式的 馬可夫模式(Hidden Markov Model, HMM)做情緒的模型以及辨認及預測情緒的
狀態。HMM 模型與動態貝氏網路(dynamic Bayesian network representation)是等價的
(Xiangyang Li ,2002)。在意識到人類內部情感狀態的相依性之後,用隱藏式的馬 可夫模式依生物時間序列隨機建構模型以獲得與使用者相依(User-dependent)的 辨識系統,此辨識系統可藉由一連串的訓練資料(training data)來學習情緒的識 別。 4.3. 情意的表達(Expression) 情緒的表達方式根據表達的主體及其能力而有很大的差別。如果表達的主 體是一個擬真的數位演員(Digital Actor),則透過文字、語音合成、手勢、臉部表 情、頭部運動、姿勢改變及其他方式中之一種或多種表達方式,均可適當的表達 電腦或環境的情緒反應。而這些語音或動畫的表達方式,都是目前熱門的研究課 題。另一方面,如果表達的主體不是一個擬人的動畫人物,則如何將情緒以融入 或抽象的方式適當地反映在情境中,是另一個具挑戰性的研究課題。 以語音為例,聲音通常以 Text-To-Speech 的方式發聲,以文字儲存說話內 容,或伴隨語調、速度等[6],Coulston 則提出適當的語調會提升孩童發問意願的 觀察結果[11]。最常使用來表達人格特質的介面是臉部表示[19],而動畫語言有 幾種方式來表現臉部,AML 為了要順從 MPEG-4 標準,因此臉部動畫就採用 MPEG-4 標準的 Facial Animation Parameters (FAP) [1]作為基礎,VHML 則是使用
圖四:AML 的架構圖[20]
兩個子語言Facial Animation Markup Language 和 Emotion Markup Language,將
臉部動作與表情分開表示[6]。CML 則是延伸其他語言:Facial Action Coding System(FACS)[8]關於臉部表示的部份[1]。 4.4. 情意的傳播(Communication) 智慧型數位家庭的計算特性是多採用無所不在的分散式計算模型,因此使 用者狀況及環境等情境資料有多方的來源,而系統所推導出的情緒模型,也需要 透過網路傳遞到其他有興趣的模組。因此如何建立外顯的情緒模型描述語言,並 透過適當的網路協定將情緒狀態完整表達並傳遞出去,是一個重要的研究課題。 目前大部分的情緒模型描述語言都是虛擬人體描述語言的一部份。以下謹就幾種 包含情緒標記的人體描述語言作進一步的說明。
Avatar Markup Language(AML)[20]:AML 是一個基於 XML 的多形式
腳本語言,設計的重點之一是希望它可以容易地被動畫師了解,也可以容易地由
軟體產生。AML 將 Text to Speech(TTS)、臉部動畫和肢體動畫封裝為一個附加同
步化資訊的表示法中。他在SoNG 計畫中,由 VRLab、Miralab 和 Imperial College
共同發展出來。在MPEG 4 標準中,定義一套關於臉部和身體的低階動畫參數, 但並沒有提供任何對於代理人的高階控制方式。在此環境下的系統,中介層 (middleware layer)險的特別有價值,它提供智慧型的軟體代理人可以輕易控制三 維空間的圖像表現,而不需要擔負每次產生所有低階設定的重擔。3D 內容製作 者因此能簡易快速地製作與分享豐富的代理人動畫。 AML 的架構分為三部份:臉部和肢體動畫的資料庫、圖像顯現、和 AML 腳本,如圖四。AML 處理器接受 AML 劇本輸入,該劇本可以事先定義或是在 運作流程中產生,產生合乎MPEG 4 標準的串流。AML 是個高階語言,智慧型
圖五:CML 的架構圖[2] 代理人可以簡易的控制3D 動畫。可以透過組合表達、手勢和 TTS 達成無縫動畫。 因為不倚賴基礎的低階動畫參數,各種各樣的avatar-based 系統的設計者能自由 地選擇他們自己的實作方式,但仍然能夠分享動畫。不過AML 雖然能混合動畫 產生新運動效果,但使用者只能改變速度、強度等有限屬性,所以缺點是僅能藉 由組合舊動作產生新動畫內容。
Character Markup Language (CML)[2]:是一個基於 XML 語言的動畫語
言,對於結合lifelike 代理人與線上應用軟體或虛擬世界提供幫助。CML 使用由 上而下(top-down)的方式,分開描述動作跟虛擬人的功能制定,角色動作、模 型和語音定義在一個設定檔,將情緒等虛擬人的狀態定義在另外一個設定檔,定 義角色特質、情緒和行為等高階屬性,整合這些高階屬性,產生具備同步能力的 動畫腳本。而新或者未被指定的行為可以由調和基本元素或屬性形成,提供開發 者一個具有彈性的動畫語言。 CML 的架構(如圖五)分為三個部份:臉部和肢體動畫資料庫、CML 處理 和動畫產生工具。腳本產生元件以狀態和基礎的感情、計畫、以及特定知識庫作 為輸入。基於這些輸入和確定的人格特質,CML 處理器產生適當的 CML 腳本, 然後被傳遞到解碼元件,解譯和對映基本元素到適當命令,再遞給最後的產生動 畫的元件。
VHML (Virtual Human Markup Language)[6]:VHML 是一個逐步形成標
準且基於XML 的語言,主要控制銀幕上的虛擬人。使用 VHML 的 MetaFace 框
架是結合很多技術提供對網站擬人般的互動。網站的界面有一個會說話的大頭, 利用面部的動畫(基於 MPEG-4 標準)對用戶作出回應和合成講話。VHML 對每 個型式提供子語言(GML 用於姿勢,SML 用於說話,BAML 用於身體,FAML 用於面部),也提供比較高階的子語言(EML 用於表情,DMML 用於對話),使得
圖六:PAR 的架構圖[5]
使用者和虛擬代理人的互動簡易化。另一個特色是定義實做的層次,當標準越來
越複雜時,允許發展者遵照某個定義層次實做VHML。
Parameterized Action Representation(PAR)[5]:PAR 設計的目標是要達成一
個富有靈活性的代表方式,也就是說很多不同類型訊息可以被 PAR 描述。自然
語言通常以高階的方式描述行為,省略許多關於動畫的細節,而 PAR 可以在自
然語言和動畫之間做溝通的橋樑。
PAR 的架構如圖六。執行引擎(execution engine)是這系統的主要控制者。他 控制全域的計時器,送訊息給圖像顯示者(Visualizer)和 JackToolkit 更新顯示,並
且送使用者輸入的自然語言給 NL2PAR 模組。這個模組接收自然語言,且使用
Actionary 資料庫產生一或多個 PAR,然後傳送給規則管理員(Rule Manager)。規
則管理員維護由NL2PAR 產生的複雜規則。代理人程序(Agent Process)是一個獨
立的代理人控制程序,擁有一個queue 管理具有優先順序及多層次的 IPAR[7]。 PAR 的是以提供測試平台給即時代理人在 3D 世界中工作、溝通或操作物件 為目標來設計架構和實做的。他們的目標在製作那些虛擬人之間的互動能像真實 人們的互動一般。並且著重在當中間媒介的語言,介於傳達和當做控制者的有限 狀態機。 5 情意計算在數位家庭的應用 情意計算的應用方式,根據所設計系統的不同需求,可依照情意辨識及表 達的方式分為數個層次[35]。例如,如果我們的應用只想讓使用者知道電腦有情 意的功能,以增加應用的趣味性,則我們可以完全不需進行使用者情意的辨識與 分析。例如,早期麥金塔電腦在開機時所呈現的笑臉畫面,及微軟Office 軟體的
小幫手精靈等,都是單向表達情緒的方式。如果我們的應用希望能藉助對使用者 情意的辨識與分析,來提高應用的效益,則可以單向的進行情意的感知與辨識, 並用來設計具可調適性的應用。例如,許多具智慧型人機介面的軟體(如智慧型 教學代理人)便是一個以情意辨識為主的應用。當然,情意計算的極致是希望情 意的感知與表達能整合在同一個系統上,並根據感知的結果隨時調整表達的方 式,例如「人工智慧(AI)」電影中的大衛,便是一個不但具有智慧,而且具有 情緒感知與表達能力的機器人。以目前計算技術而言,要將情意計算運用在數位 家庭的環境中,我們認為可以包含以下幾個應用情境。 娛樂是一個數位家庭不可或缺的一項應用。即使在未完全數位化的家庭 裡,娛樂項目通常是最容易融入家庭情境,為各個家庭成員所接受的應用。使用 者的情緒也最容易在娛樂的情境下被觀察到。除了觀察使用者在娛樂過程中的情 緒外,情意計算也可以用來在角色扮演遊戲中設計具情緒的虛擬角色,以建構新 型態的娛樂方式,提升娛樂的效果。 情 意 計 算 也 可 以 用 在 一 般 人 機 介 面 的 設 計 上 , 以 提 升 應 用 的 有 效 性 [21][22][23]。語音溝通介面的應用:緊急與舒緩情境的區隔例如,以語音介面為 例,具有警示作用的語調與速度,對吸引使用者的注意力,有相當大的助益。而 在輕鬆的情境下,感性緩慢的語調或動畫介面將有助於使用者進入舒緩的狀態。 另外,家庭環境中的各項因素如溫度、燈光、聲音及裝飾等,隨著數位化時代的 來臨,均有客製化的功能,只是目前缺乏適當的情意模型作為自動化設定的依 據。綜觀目前大部分家庭裡的多媒體資訊,均少有情意計算的特質,因此我們認 為在這些多媒體資料的呈現上加入情緒的因素,將有很大改進的空間。 對家庭中正規的行為輔導及教育,情意計算也應可以發揮一定的功能[10]。 例如南加大的研究指出,具有情境考量的動畫代理人能扮演更有效的輔導人員。 例如一個具情意功能的動畫代理人可以更容易讓幼童接受電腦所扮演的母親角 色。另外,在智慧型教學代理人的應用上,一個具有情意功能的教學代理人,比 一般的電腦教學軟體,更能真正根據使用者的情緒瞭解學習情況,進而提出有效 的表達方式,提高使用者的學習興趣。 6 情意計算的挑戰 人工智慧的研究從早期投入大量研發能量,到研究者逐漸清楚此議題的困 難度與瓶頸,經過了數十年的時間。因此,有人認為除非心理學在近期有突破性 的進展,否則比智慧更加難描述的情緒模型,將使情意計算流於空談[29]。的確, 情緒與人體其他功能之關係,仍是一個進行中的挑戰性研究議題。但要將情意計 算的精神用在人機介面的設計上,卻也不見得需要建立完整的情緒模型。就好像 雖然我們還不甚清楚人類智慧形成與累積的方式,但這事實並無法抹滅人工智慧
在特定應用所發揮的貢獻。經過這些年來的發展,情意計算還有以下幾個具挑戰 性的議題亟待進一步的探討。
6.1. 情緒的辨識結果是否精確
人的情緒表達方式以及表達的意涵包羅萬象,要能夠完全的將其辨識實難 如登天,而且每個人都有其獨特的情緒表達方式,更造成情緒辨認的困難。因為 如此,MIT Affective Computing Lab 朝著另一個方向前進:既然無法精確的細分 使用者當前的情緒狀態,那麼就轉向去尋求使用者當前這個狀態是因為特定因素 所引起的;換言之,不去辨認使用者現在的情緒狀態是「快樂」或是「生氣」。 而是去探究使用者現在的情緒狀態是使用電腦很愉快抑或是使用者現在遇上了 惱人的問題?將問題特殊化以後,或許可以解決這樣一類的問題。 6.2. 情緒塑模實驗環境代表性問題 由於情緒形成的方式及塑模的方法仍是一個百家爭鳴的研究議題,因此有 人認為在實驗室裡營造出來的實驗環境不具有代表性。如果將研究的成果直接用 在實際的應用上,成效將打很大的折扣。但是從電腦視覺(Computer Vision)的研 究歷史來看,雖然我們仍不清楚電腦視覺運作的完整模型,但在研發過程中所嘗 試建立的各種模型,都能在不同的情境或應用下發揮特定的功能。因此儘管情緒 塑模仍有很大的爭議,但是已有人開始對這些模型進行分類,我們相信這些經驗 都將有助於我們瞭解情緒的本質及可資應用的方式。 6.3. 情意表達的問題 人類表達情意是透過多元化的方式進行,有些是較容易觀察,如表情與聲 音,但是其他的反應則較不易察覺或表達。有人認為要正確模擬人類微妙情緒的 類別與程度,並讓人類清楚的辨識,是件不容易的事。事實上,機器表達情緒的 方式,不一定要和人類的表達方式相同。而且真正具挑戰性的議題在於如何知道 情緒表達的結果是否達到預定的目標。換言之,使用者是否能感知到電腦所欲表 達的情緒。例如,如果使用者的反應已經是非常生氣的情況下,如果電腦還在表 達快樂的情緒,則情意計算的呈現反而會得到反效果。因此,如何整合感知與表 達機制,並進行持續的觀察與互動,將是情意計算是否有效的關鍵。 6.4. 隱私與道德的問題(Ethics issues)
so-ciety, uIS)下,必然面臨隱私與道德的問題。在數位家庭中,我們需要知道大量關 於使用者的資訊,在擷取大量的資訊時又必須能夠保障使用者的隱私,也是一大 問題,而且顯然的,人的隱私權常常被擺在便利的數位家庭前面,所以數位家庭 的發展也必須在此限制之下擷取使用者願意被擷取的資訊才是,而且最好的策略 是將此隱私的考量設計在系統的最底層,徹底防範個人隱私資料的意外流出。 7 小結 雖然情意計算這個跨領域的技術在最近幾年有了不錯的進展,但是要能精 確的感知使用者的情緒,進而建立使用者的情緒模型,仍是一件困難的議題。但 是,以數位家庭環境的應用而言,情意計算的目的不是要建立公認正確的情緒模 型或證明情意與智慧之間的關係,而是希望透過使用者情意的特徵,設計具有情 意計算特色的人機介面,以融入到其他應用程式的人性化設計上。 8 相關文獻
[1] Y. Arafa, K. Kamyab and E. Mamdani, “Character animation scripting languages: a comparison,” in AAMAS '03: Proceedings of the second international joint
conference on Autonomous agents and multiagent systems, pp. 920-921, 2003.
[2] Y. Arafa and A. Mamdani, “Scripting embodied agent behavior with CML: Character markup language,” in IUI '03: Proceedings of the 8th international
conference on intelligent user interfaces, 2003.
[3] A.F.R. Araujo, Emotions Influencing Cognition: Effect of Mood Congruence and Anxiety upon Memory. In WAUME '93: Workshop on Architectures Underlying
Motivation and Emotion. Birmingham, UK: The University of Birmingham,
1993
[4] M.A. Arbib, “Book Review: Andrew Ortony, Gerald L. Clore and Allan Collins, The Cognitive Structure of Emotions.” Artificial Intelligence, vol. 54, pp. 229-240, 1992.
[5] N. Badler and J. Allbeck, “Toward Representing Agent Behaviors Modified by Personality and Emotion,” in Proceedings of the First International Joint
Con-ference on Autonomous Agents and Multiagent Systems (AAMAS '02), 2002.
[6] S. Beard and D. Reid, “MetaFace and VHML: A First Implementation of the Virtual Human Markup Language,” in Proceedings of the First International
Joint Conference on Autonomous Agents and Multiagent Systems (AAMAS '02),
2002.
[7] R. Bindiganavale, W. Schuler, J.M. Allbeck, N.I. Badler, A.K. Joshi and M. Palmer, “Dynamically altering agent behaviors using natural language instruc-tions,” in AGENTS '00: Proceedings of the fourth international conference on
[8] P. Ekman and E. L. Rosenberg, What the Face Reveals: Basic and Applied
Stud-ies if Spontaneous Expression Using the Facial Action Coding System, Oxford
University Press, 1997.
[9] W. Burleson, R. W. Picard, K. Perlin and J. Lippincott, “A Platform for Affective Agent Research,” in Proceedings of AAMAS, Columbia University, New York, NY, July 2004.
[10] W. Burleson, “Affective Learning Companions,” Doctorial Consortium in
con-junction with the 7th Intl Conf. on Intelligent Tutoring Systems, August 2004. *
[11] C. Darves, S. Oviatt, and R. Coulston, “The Impact of Auditory Embodiment on Animated Character Design,” in Proceedings of the First International Joint
Conference on Autonomous Agents and Multiagent Systems (AAMAS '02), 2002.
[12] M. Dyer, Emotions and their computations: Three Computer Models. Cognition
and Emotion, 1(3), 323-347, 1987
[13] C. Elliott, “Research problems in the use of a shallow artificial intelligence model of personality and emotion,” in AAAI '94: Proceedings of the twelfth
na-tional conference on Artificial intelligence, Vol. 1, pp. 9-15, 1994.
[14] I. Essa, “Ubiquitous Sensing for Smart and Aware Environments: Technologies towards the Building of an Aware Home,” Position Paper for the
DARPA/NSF/NIST Workshop on Smart Environments, July 1999.
[15] I. Essa and A. Pentland, “Coding, Analysis, Interpretation and Recognition of Facial Expressions,” IEEE Trans. Pattern Analysis and Machine Intelligence, 19(7), IEEE Computer Society Press, July, 1997. *
[16] Fernandez, "Stochastic modeling of physiological signals with hidden markov models: A step toward frustration detection in human-computer interfaces", 1997
[17] J. Gratch, , S. Marsella, “Modeling Emotions in the Mission Rehearsal Exer-cise,” Proceedings of the 10th Conference on Computer Generated Forces and
Behavioral Representation, May 2000.
[18] A. Kapoor, Y. Qi and R.W. Picard, “Fully Automatic Upper Facial Action Rec-ognition,” in Proceedings of IEEE International Workshop on Analysis and
Modeling of Faces and Gestures, October 17, pp. 195-202, 2003.
[19] T. Koda, and P. Maes, “Agents with Faces: The Effects of Personification of Agents,” in Proceedings of HCI'96, The British HCI Group, London, UK, pp. 98-103, 1996.
[20] S. Kshirsagar, N. Magnenat-Thalmann, Guye-Vuilleme, D. Thalmann, K. Kamyab and E. Mamdani, “Avatar Markup Language,” in EGVE '02:
Proceed-ings of the workshop on Virtual environments 2002, pp. 169-177, 2002.
[21] C. Lisetti, “Affective Computing in Tele-Home Health,” in Proceedings of the
37th Annual Hawaii International Conference on System Sciences (HICSS'04),
January 05 - 08, 2004.*
in UPGRADE 2(5), October 2001. *
[23] S. Meyer and A. Rakotonirainy, “A survey of research on context-aware homes,” in CRPITS '21: Proceedings of the Australasian information security workshop
conference on ACSW frontiers 2003, pp. 159-168, 2003.
[24] Y. Qi, C. Reynolds and R. W. Picard, “The Bayes Point Machine for Com-puter-User Frustration Detection via Pressure Mouse,” in Proceedings of the
Workshop on Perceptive Interfaces, Nov. 2001.
[25] P. Rani, N. Sarkar and C.A. Smith, “Affect-sensitive human-robot coopera-tion-theory and experiments,” in Proceedings of IEEE International Conference
in Robotics and Automation, pp. 2382-2387, 2003.
[26] S. Reilly and J. Bates, “Building Emotional Agents,” CMU-CS-92-143, Pitts-burgh, PA, USA, 1992.
[27] Padgett, C., Cottrell, G.W., and Adolphs, R. Categorical Perception in Facial Emotion Classification. In Proceedings of the Eighteenth Annual Cognitive Sci-ence ConferSci-ence, San Diego, CA, pp. 249-253, Mahwah, NJ: LawrSci-ence Erlbaum, 1996
[28] R. W. Picard, “Affective Computing,” TR-321, MIT, Media Laboratory, 1995. [29] R. W. Picard, “Affective Computing: Challenges,” in International Journal of
Human-Computer Studies, 59(1-2), July 2003, pp. 55-64, 2003.
[30] K. R. Scherer, “Feelings integrate the central representation of appraisal-driven response organization in emotion,” in A. S. R. Manstead, N. H. Frijda, & A. H. Fischer (Eds.). Feelings and Emotions: The Amsterdam Symposium, pp. 136-157, Cambridge, Cambridge University Press, 2004.*
[31] W.S.N Reilly, Believable Social and Emotion Agents, Ph.D. dissertation, Pitts-burgh, PA: Carnegie Mellon University.
[32] A. Sloman, “Review of Affective Computing,” in AI Magazine, 20(1), pp. 127-133, 1999.
[33] T. K. Tian, T. Kanade and J. Cohn", ""Facial expression analysis",", “Facial Ex-pression Analysis,” in "Handbook of face recognition", "., Z.L.&.A.K. Jain" Ed. " Editor, Springer", ", 2003",.
[34] D.R. Traum, D.R., J.Rickel, J., Gratch, J.,and S. Marsella, S. “Negotiations over Tasks in Hybrid Human-Agent Teams for Simulation-Based Training.,” in
Pro-ceedings of the AAMAS Conference, 2003.
[35] 楊錦潭、李季錦,情意計算在社會情境脈絡之發展與挑戰探討,2001 資訊 與教育雜誌。