一個以情緒引導意圖的聲控刺激反應人臉機器人

(1)

中華大學碩士論文

一個以情緒引導意圖的聲控刺激反應人臉機器人

A Sound-controlled Stimulus-Response Facial Robot Based on Emotion-Driven Intention

系所別：電機工程學系碩士班學號姓名：M09901051 羅翊修指導教授：謝焸家博士

陳竹一博士

中華民國 1 0 1 年 8 月

(2)

I

摘要

本論文主要以了解情緒變化的刺激反應，情緒刺激對著機器人使得臉部表情有變化效果，將人的表情、情感能呈現於冰冷的機械中。參數化的心情、人格、

事件，不見得完全要模擬人類真實的情感，但做為主要溝通媒介－『臉部表情』

這方面來說，是否能與人跟機器人的溝通更加方便。

利用語音辨識軟體(IBM Via Voice)來結合聲音控制的情緒上刺激反應，使機器人在語音方面強化許多，其中『聽』和『說』是人類互動的重要方式，以語音辨識為媒介，使人與機器人可以不需要透過鍵盤或滑鼠即可有著雙向溝通，其人機介面可以協助學童，例如:文字書寫太慢、中文識字不夠等問題，進而提升學童學習及興趣。其次，其機器人的系統架構中，將系統程式以模組化的方式呈現，其模組包含臉部表情變化模組、情緒變化模組、心情模組、說故事模組、編輯故事模組、記憶模組，並且使用流程圖來說明系統的工作動態，強化人機介面在使用上的效果，讓學童與機器人互動上能夠更加流暢與自然。

關鍵字：情緒、聲音控制、刺激反應、機器人。

(3)

II

Abstract

This thesis is to understand the stimulus-response which has the effective facial expressional transition. The human expression and emotion are embedded within the facial expressional robot as well. Parameterized emotion, personality, and stimulus events may not simulate the human emotion completely. But robot with the facial expression facilitates the communication between human and robot.

In this research, the IBM ViaVoice is used to recognize the human sentences and to extract keywords to stimulate the robot’s emotion. Listening and speaking is the most important ways in our daily life. With the sound recognition, human and robot can interact with each other without keyboard and mouse. Also, the specific Human-Computer-Interface assists the kid’s learning. The kids will overcome the writing and word recognizing drawback with this interface. In system architecture, the program will be modularized. These modules include Facial Expression Transition Module, Emotion Transition Module, Mood Module, Storytelling Module, Storytelling Editing Module, and Memory module. The flow chart also reveals the dynamicof this system and enhances the effectivenss of this Human-Computer-Interface. This will facilitate the interaction between this facial robot and the kids.

Keywords: Emotion, Sound-Controlled, Stimulus-Response, Robot

(4)

III

致謝

本篇論文能順利完成，首先要感謝焸家老師及陳竹一老師在我就讀研究所期間的提點與琢磨，不僅在研究上給予本人很多的啟發，並在學習過程中不斷的給予我鼓勵與實質的建議。

另外要特別感謝口試委員鐘仁峰教授及梁新聰教授和王志湖教授在百忙之中能抽空指導並給予寶貴的建議。另外要感謝實驗室的嘉文學長在這一年之間的砥礪，同時也要感謝俊煌學弟多方的協助。

最後要感謝辛苦栽培我的父母，謝謝您無怨無悔的付出以及支持，使能夠我心無旁鶩的進行研究，還有姊對於我就讀研究所期間的支持與鼓勵，使我能順利完成碩士學位。最後僅將我的成果與喜悅獻給我親愛的家人及所有愛護我的老師、

同學及朋友們。

(5)

IV

圖錄

圖 2- 1 機器人 Active Human Interface(AHI)架構[5] ... 4

圖 2- 2 六個基本情緒量值表 ... 5

圖 2- 3 六一基本情緒量值表 ... 6

圖 2- 4 情緒轉移示意圖 ... 7

圖 2- 5 感覺、知覺和檢定/辨認的階段 ... 8

圖 3- 1 情感計算概要示意圖[7]... 10

圖 3- 2 人類情感產生的三種因素[8]... 11

圖 3- 3 Eysenck 人格特質圖 ... 12

圖 3- 4 人類情感表達三要素[10]... 13

圖 3- 5 重新編排過後之表情 ... 14

圖 4- 1 因果關係類故事圖卡 ... 16

圖 4- 2 連續動作類故事圖卡 ... 16

圖 4- 3 說故事流程圖 ... 17

圖 4- 4 故事選擇區 ... 18

圖 4- 5 開始說故事 ... 19

圖 4- 6 編輯說故事介面 ... 19

圖 4- 7 圖形使用者介面 ... 22

圖 4- 8 心情流程圖 ... 23

圖 4- 9 心情區塊 ... 23

圖 4- 10 情緒流程圖 ... 24

圖 4- 11 情緒區塊 ... 25

圖 4- 12 臉部表情結構流程 ... 25

圖 4- 13 表情總覽 ... 26

(8)

VII

圖 4- 14 表情變化決策值 ... 26

圖 4- 15 情緒引導表情流程圖 ... 27

圖 4- 16 讀取情感記憶流程圖 ... 28

圖 4- 17 情感記憶編輯 ... 29

圖 4- 18 增加快樂情感記憶流程 ... 29

圖 4- 19 刪除快樂情感記憶流程 ... 30

圖 4- 20 連結式記憶示意圖 ... 31

圖 4- 21 六一模型軟體程式介面 ... 32

圖 4- 22 IBM Via Voice 與 Visual Basic 關係圖 ... 32

圖 4- 23 語音系統與機器人流程圖 ... 33

(9)

VIII

表目

表 4- 1 構成圖形使用者介面的四大要件 ... 20

(10)

1

第一章緒論

1.1 研究背景

隨著現代科技日漸發展以及知識工程化與人工智慧的高度開發，機器人技術已經廣泛應用在人類社會各個領域，更和我們日常生活互動越來越密切。在 2007 年 Scientific American《科學人》雜誌第 60 期中，比爾．蓋茲向世界預言：「在未來，家家都有機器人！」，現在的機器人被廣泛的定義為具有智慧性、自發行為，可以解決問題的軟、硬體。目前機器人於各領域的應用：資訊服務方面，擔任網頁導航、篩選資訊等工作；在教育方面，可作為虛擬的教師、虛擬的學習夥伴…等皆可稱之為機器人。[1]

人類文明的結晶可以分成人文和科技方面這兩大類。在人類五千年的歷史中

，人文方面的文明扮演著很重要的角色，可是近幾百年來，科技文明顯然已經越來越重要，我們幾乎可以說，人類重大事件的發展，都與科技發展密不可分。所以，科技與人文應是相輔相成的，不該強行區分為二的兩條平行線[1]。機器人不在於智能否有任何情感，而在於機器實現智能時怎麼能夠沒有情感，情感計算是指對與情緒有關的，由情緒引發的，或是能夠影響情緒的原素的組織計算。[2]

把人的情感分為六種基本類型︰快樂、害怕、悲傷、憤怒、驚訝以及厭惡，

其它情感都是由此派產生的，這種劃分方法缺乏理論依據；對於情感測量與計算，

缺乏理論前提、邏輯法則、計算方法與計算尺度。總之，心理學對於情感計算無法提供公理性、精確性和系統性的理論支持。[2]

人在操作使用機器人時，如果機器人能夠對人的臉部表情、自然語言、身體姿態以及對鍵盤、滑鼠的使用特徵進行觀察，來識別理解人的情感，並透過圖像、

文字、語音等做出智能，並且得到回應，產生生動而真實的使用環境，幫助使用者獲得高效而親切的感覺，形成自然而親切的交互作用，營造和諧的人機環境。

機器人對不同性格利益相關性、價值取向、情感特徵、個人喜好及專業特長等做

(11)

2

出不同的回應，方便使用者掌握其性格脾氣和功能特性，有利於在智能玩具和遊戲中構築擬人化風格使場景更加逼真。還可以透過對不同類型的用戶建模(如操作模式、表情特點、態度喜好、認知風格、知識背景等)，以識別用戶的情感狀態，並以適合的模式呈現訊息，在對當前的操作作出即時回饋，還要對情感變化背後的意圖形成新的預期，並激活相應的數據庫，及時主動提供用戶更多的新訊息。[2]

人機互動介面上，研究人員大部分著重在介面如何的完善，如何的貼近人群，

但介面是否能夠吸引人群持續的進行互動。端看近年來的機器人展，展場中有著各式各樣的機器人，這些機器人可以吸引多少人的目光，又能吸引多久的時間？

這個領域卻是很少人加以研究探討的。一個機器人、機器它要能長時間的吸引人群，那這個機器人就必須賦予它人格、個性以及豐富的故事性。

1.2 研究動機

故事是大朋友小朋友所喜愛的，更是幼兒認知世界的一扇窗口，講故事可讓幼兒進行早期教育和刺激思考非常好的形式，也是開啟智慧之門的一把鑰匙。然而，說故事簡單，能夠真正吸引孩子卻不容易，而「語音互動」藉機器人與人的互動，使得人機介面更加完善。

聽、說、讀、寫，在人類學習當中是相當重要的四項元素，人腦需要做連結語音,會說話是因為會聽，聽說是本能，要學習思考模式，比對的模仿，讀寫是後天的養成習慣，中文有先天的限制，而小朋友在學齡前並不會寫字，或著其他年齡層文字的輸入太慢，所以本研究主要使用IBM Via Voice軟體進行連續語音輸入、自然語言互動，幫助學童文字書寫太慢、中文識字不夠等問題，進而提升孩童學習興趣，配合德國維寶（Ravensburger）出版的“TELL-A-STORY”故事圖卡為故事題材，該故事圖卡中，只有圖片沒有任何文字。但根據我們的觀察發現圖卡中似乎蘊藏著故事結構，另一方面，因為沒有文字的輔佐，可以任意得變換圖片順序、編制故事內容。因此在故事的情節安排上較有彈性，變化也較活潑

(12)

3

[1]，而在Bandura的社會學習理論裡，學習來自於「觀察」與「模仿」；「觀察學習」指的是個體本身以旁觀者身分，自己不見得有實際參與活動。

藉由IBM Via Voice語音系統編輯圖卡故事，可隨著孩子的興趣與新構想，

將圖卡重新排列組合，如此可以產生很多不同的故事。一方面可以激發幼兒的想像空間，更同時也可以促進幼兒的語言發展，另一方面也與機器人有當面的互動式行為，讓機器人與幼兒一起「玩」故事，則幼兒不再只是一個聽眾，他會開始主動、傾聽和講故事，透過角色扮演的方式，體會故事中人物的情感。除此之外，

為了提昇學習的策略，我們也加入了人類連結記憶模式，有系統地將學習材料存入記憶架構中，此有助於學習材料保留在記憶中且不容易遺忘，讓幼兒記憶能更加深刻。

1.3 論文架構

本論文接下來要討論的內容為，第二章相關理論，第三章在說明本說機器人系統的研究在主要理論，第四章說系統架構，說明整個主要系統的軟體架構、故事設計以及軟體操作環境，語音與機器人的連結，第五章結語說明整個研究的成果與未來的發展。

(13)

4

第二章相關理論

2.1 機器人情感之構築

情緒在大多數人的生活當中扮演重要角色，有關情緒的研究對情感機器人而言也非常重要。不過，想要界定情緒的意義卻不容易。現代心理學家定義情緒 (emotion)為一種複雜型態的身體變化和心理變化，包括有針對個人認為有所意味的情境而產生的生理興奮、感覺、認知經歷，及行為反應。[3]

情緒為獨特、整合的心理反應系統。

包含三種可區分的反應系統：

(1)典型的表情模式 (2)一致的自律神經系統 (3)獨特的主觀感受狀態[4]

情感的哲學本質就是人對價值關係的主觀反映情感現象與情感規律在根本上取決於價值現象，自然科學化和數學化的價值理論（即統一價值論），也就是說，情感機器人研製的唯一途徑是︰一是建立統一價值論；二是建立數理情感學；

三是建立情感的數學模型；四是建立情感內部邏輯系統；五是建立情感識別系統、

情感表達系統。因此導入 Active Human Interface(AHI)系統架構，如圖 2-1 所示。

[5]

圖 2- 1 機器人 Active Human Interface(AHI)架構[5]

Human Machine

Human

Machine

(14)

5

2.2 情緒模型轉移流程

「情緒是什麼？」這個問題聽起來很簡單。但是，大家對於情緒並沒有共識的答案。一般來說，大部分的人同意只有少數基本情緒，所以接下來將要探討基本情緒的種類。焦點在於如何藉由臉部表情來描述或報告自己的情緒經驗。

臉部表情和情緒的關係是否在所有文化中都相同，如果研究發現是普遍的，

則會使所有人更加確定六種基本情緒，一項關鍵的研究是幾位心理學家在十個國家（愛沙尼亞、德國、希臘、香港、義大利、日本、蘇格蘭、蘇門答臘、土耳其、

美國）所進行的跨文化研究，此研究的參與者要判斷 18 張照片當中的臉孔所表達的情緒，其結果十分明確，不同文化的人對於最強烈之情緒的判斷有高度共識。

[1]

在許多心理學書中也都提到上述提到的六種基本情緒：快樂、驚訝、憤怒、

悲傷、害怕、厭惡。於是就以此六個基本情緒，為六一情緒模型設定了六個基本量值(如圖 2-2 所示)，此六個量值都是同時存在的。

圖 2- 2 六個基本情緒量值表

(15)

6

然而情緒總有起伏，有時候好幾種情緒一起達到最大值，也有時候會所有情緒都歸零，也就是回歸平靜的時候，於是再架構了平靜(如圖 2-3 所示)，這就是六一情緒模型的基本概念。

圖 2- 3 六一基本情緒量值表

整個六一情緒模型之情緒轉換基於之前機器人之內在與外在刺激以及六一情緒模型之解析而來。心情的轉換與情緒類似，唯其基於心理學的定義對於內部刺激與外部刺激有不同於情緒的定義。

情緒和心情的區別非常重要。情緒和心情的主要差異有以下三點：

1.心情(mood)通常比情緒持久。

2.心情不像情緒這麼強烈，我們通常會注意自己的情緒狀態，但是心情只是日常生活的背景。

3.處於特定心情的原因通常不明確，但是情緒通常由特定事件所引起。

[4]

雖然上述內容似乎顯示情緒和心情有很大的差別，但是事實上並非如此。每一種情緒都可能持續下去而成為心情，每一種情緒都隱含心情的變化。兩者的因果關係方向也可能反轉。心情可能引起情緒，因為它們隱含特定情緒的閾限降低。

(16)

7

[6]

圖 2- 4 情緒轉移示意圖

2.3 機器人之內在與外在刺激

心理學的感覺、知覺和檢定/辨認的階段，這個圖示摘要了在感覺、知覺和檢定/辨認的階段中使輸入的訊息產生轉換的歷程。舉例：懸掛牆壁上的圖畫，

在感覺的階段，這幅圖畫對應你的網膜影像上一個二次元的梯型；圖畫的上邊和下邊朝向右邊聚集，左邊和右邊長度不一。在知覺的階段，你把這個梯型看作是在三次元空間中向遠處延伸的一個矩形。你把圖畫的上邊和下邊知覺為平行的，

但朝向右倒退；你把左邊和右邊知覺為相同的長度。你的知覺歷程對於遠測刺激的物理特性已經發展出某種堅實的假設；現在它需要一種身分(identity)。在辨認的階段，你辨認這個矩形的物體為一幅圖畫[5]。依據這樣的理論我們定義出了內在刺激。

(17)

8

圖 2- 5 感覺、知覺和檢定/辨認的階段

而相對於經過心智歷程產生的內在刺激而言，外在刺激定義為一外部事物對我們產生的立即性的影響；例如：光線過於刺眼時，我們會立即將眼皮閉上等種種之反應。

2.4 機器人之刺激事件

刺激事件的來源都是依靠人類所擁有的多種感覺（sensation）：視覺、聽覺、

嗅覺、味覺、觸覺、溫覺、冷覺、平衡覺、運動感覺、痛覺等。感覺所做的事情是把外界接收到的物理事件轉換成神經事件，也就是把感覺訊號的物理形式轉換成可被神經系統處理的細胞訊號。在機器人上也就是許多的刺激感應器。[3]

感覺只是刺激事件的第一階段，而知覺則是下一階段，在這一階段中，刺激的內在表徵會成形，而且外在刺激的知覺表象也會產生。知覺（perception）在機器人上就是本論文的六一情緒模型，將感覺所接收資料經過六一情緒模型的處

環境刺激感覺

知覺組織(特徵的綜檢定/辨認其他心智歷程

預期信念

動機知識

記憶語言

分析成各部份

恆常性深度

組織

感覺歷程

由

下

而

上

的

歷

程 (

由

資

料

所

驅

動 )

(18)

9

理，在這一階段決定了最後一階段的反應。

刺激事件的最後就是反應，反應通常都表現在臉上或是一些反射動作，也就是機器人的臉部表情或是脖子的動作。

(19)

10

第三章主要理論

3.1 情感產生

美國麻省理工學院媒體實驗室 Picard 教授於其 1995 年出版的<<Affective Computing>>著作中曾提出了情感計算的論述[15]。情感能力簡易的描述是一種能夠感知所處環境事件以及作出相對應的情感表達，其中由情感的感知到表達的過程即不可缺少情感的計算。目前情感計算在國際上的研究著名公司如國際商用機器(IBM)和美國電信(British Telecom)皆有成立情感計算相關的研究單位，另外 學術單位日本的早稻田大學亦有相關研究。

人的情感計算可概分四個步驟，首先是信號的獲取，來源包含所處環境的人、

事、物等等。然後對信號分析出有用的資訊並加以識別，接著對分析識別後的資訊作情感的理解，人的理解能力的不同所理解出的結果也會有所不同，最後將理解後的結果以合理方式作情感的表達[7]。

圖 3- 1 情感計算概要示意圖[7]

機器人的情感產生是參考於人類，人類情感的產生受到了外在環境事件例如看到生命的誕生與死亡、聽到巨大聲響等，自身的生理狀態例如肚子餓了想吃飯、

夜深了想睡覺、生病了全身無力等生理現象，經由每個人不同的認知過程而產生不同的情感。所以機器人需有外在環境事件感知的能力和生理狀態變化的條件。

每個人因遺傳基因、生長環境與對事物的認知不盡然相同，也衍生出各種不同的人格特質、情感記憶與不同的認知過程。不同人格特質的人遇到相同的環境事物會產生出不同的情感，例如憂鬱質人格遇到竉物死亡，會傷心難過好一陣子，

信號獲取分析識別情感理解情感表達

(20)

11

但若是樂觀質人格的人則平靜的面對。不同的情感記憶也會有相異的情感產生，

例如曾經溺水記憶的人，在有海邊或水池的環境中，就較易產生恐懼的情感。因此機器人也需賦予不同的人格特質與情感記憶，讓機器人依不同的人格特質與情感記憶，當遇到各種事物產生出不同的情感表現。

心理學家沙赫特與辛格所提出的情緒三因素理論中指出「情感的產生取決於環境事件、生理狀態與認知過程三種因素的影響，其中更以認知過程為主要因素 [8]」。決定認知過程的因素十分廣泛，在此研究中主要是以人格特質與關鍵字比對情感記憶為主要研究與論述方向。

圖 3- 2 人類情感產生的三種因素[8]

人格的區分方式在心理學領域中有許多不同的方式，人格將影響人在各種不同環境事件中的行為模式。英國心理學家漢斯．艾克森定義的人格理論[9]將人格依內外向、穩定性及心理素質三個維度分成三十二種獨特的人格特質如圖 3-3 所示:

(21)

12

圖 3- 3 Eysenck 人格特質圖

3.2 情感表達

為了達到良好的人機相處環境與接近人與人的相處，我們必需讓機器人有著相似於人的情感能力，包含了情感產生的能力與情感表達的能力。心理學家亞伯特·梅拉賓認為「人類情感的表達中其中語言占了 7%、聲音占了 38%其餘的 55%

則是由臉部表情[10]」。所以能夠正確的表達臉部的情感表情是非常重要的技能，

只要能正確的表達臉部的表情，即可完成人類大多數的情感表達。

(22)

13

圖 3- 4 人類情感表達三要素[10]

臉部的表情是表達情感的重要的途徑，臉部表情是由眼睛、眉毛、鼻子、嘴唇等各器官所組合而成。人類在情感的表達中，臉部的表情占了大多數的訊息，

臉部的表情是人類表達情感最直接的窗口。

情感的表達能力包含了快樂、悲傷、驚訝、害怕、厭惡、憤怒等，表達的方式包含了語言、聲音、臉部表情三要素，語言包含了狹義的不同國家的各種語言與廣義的肢體語言等，例如害怕時四肢緊縮、高興時手足舞蹈、開懷時捧腹大笑、

氣憤時摩拳擦掌等。聲音的情感表達指的是聲調、速度、音量等方面的變化，例如高興時語調高昂與速度較快，難過時語調低沉、語速遲緩。

情感的產生與情感的表達中，機器人對外部的環境事件與自身的生理狀態的認知過程產生情感並經由語言、聲音與臉部表情作情感的表達。

3.3 表情之構築

Serrano 對於嬰兒的表情做了以下研究：

恐懼：嘴巴縮回，眉毛平坦且上下移動，眼皮往上舉。

厭惡：舌頭伸出，上唇上揚，鼻子皺著。

喜悅：雙頰上舉，嘴巴微笑。

哀傷：嘴角垂下，眉頭上揚。

生氣：嘴角平坦，眉毛緊縮下沉，眼睛注視前方。

基於此不同情緒之動作區塊研究我們將機器人的表情依據其強弱重新編排，

以達到能表現出情緒程度的不同，圖 3-5 為重新編排過後的表情。

38%

7% 55%

語言聲音臉部

(23)

14

圖 3- 5 重新編排過後之表情

3.4 語音互動理論

Garrison （1993）認為互動（interactivity）的意義是「兩個或兩個以上的人，

基於解釋或挑戰的觀點之目的，所維持的雙向溝通」。Rogers（1995）對互動的定義是「傳播過程中，兩造雙方角色可以彼此互換並控制相互間論述的參與程度」

。Rafeli & Sudweeks(1997)陳述互動性是「一個溝通的要件，在其中同時不斷透過交換的過程,產生一股社會約束的力量」。簡言之，互動定義強調了「交換」和

「相互」的概念，亦即互動是「建立相互關係之管道提供雙方即時參與、聯繫的機會。」Gilbert 和 Moore（1998）認為互動的意義是「在學習情境下，為了達到任務/教學競賽或是社會關係建立的目的，於兩個或以上的人之間所進行的雙向溝通」。

隨著電腦應用領域不斷延伸、軟體系統功能越趨複雜，人與電腦之間的互動模式也越加多樣化，電腦的使用已走入一般人的生活中，符合「簡單、自然、友好、一致」的人與電腦間互動模式，成為設計使用者介面的重要原則[11]。目前

(24)

15

教育娛樂機器人在機器人產業當中一直是扮演著先驅者的角色，不僅能載歌載舞逗人開心，蹦蹦跳跳或撒嬌或依偎在人們身旁的同時以特有人工智慧一再的讓人驚豔，更甚至能夠當做載具、教具讓人們學習新知、原理，並試圖讓人們更進一步的發揮創造力[12]。根據 2008 ABI Research 所作的市場調查報告，機器人分成四種類別，教育用機器人（education）、娛樂用機器人（entertainment）、保全用機器人（security）與事務用機器人（task）。有學者指出，藉由學習者與機器人互動的過程中，能提昇參與度、專注力、娛樂和內在興趣的感覺。因此在本論文中機器人利用語音互動輔助伴學的角色，以「教師輔助者」的身分出現。

區國良與陳國棟（民 90）在「教師代理人之知識與策略分析」一文中，在輔助教學上，則利用資料庫系統記錄學生的學習行為及互動關係，並在人工智慧的技術上，可以將代理人、資料探勘及溝通網路分析技術等來幫助教師觀察及分析學生的學習特徵及互動關係，並幫助教師依此尋找影響群體學習成效的因素，

預測學習表現，提供教學策略決策時所需的資訊，進而有效提升學生在網路環境中之學習效果[13]。

(25)

16

第四章系統架構

4.1 說故事系統架構

要講故事給孩子聽，首先需要創設一個良好的故事氛圍。若能有一個實體的機器人在一旁解說故事，以其生動活潑的表情，便能吸引孩子的興趣。搭配良好的操作介面以及音效，塑造整個說故事的情境，藉由實體機器人及畫面的呈現，

達到超越單純文字與播放故事的方式所帶來的效果。因此除了如何組成故事的結構之外，如何運用機器人使得故事能夠更加生動也是我們所要探討的問題。

所以，本論文的主要目的在於探討如何建構一個彈性的故事模組，並將這套模組實現於現有的機器人[14]。

4.1.1 故事圖卡

本研究採用德國維寶（Ravensburger）出版的“TELL-A-STORY”故事圖卡為故事題材，每組故事由五張圖卡來組成一個小型的故事。故事可以被分類成兩種類型[1]，主要著重於敘述事件間的因果關係 (如圖 4-1) 或一連續動作的描述 (如圖 4-2)。而著重連續動作描述之圖卡其前後圖卡的動作具有強烈的關聯，使其順序難以調換，而必須依照一定之順序較容易解釋其故事內容。

圖 4- 1 因果關係類故事圖卡

圖 4- 2 連續動作類故事圖卡

(26)

17

4.1.2 說故事模式運作流程

開始

選擇故事圖卡

編輯故事內容

是否編輯故事內容

編輯圖卡順序

開始說故事說故事主

角

情感記憶

說故事編輯離開

否是

故事關鍵字比對

關鍵字資料庫

情緒模組

輸入

情緒刺激輸出

結束說故事

圖 4- 3 說故事流程圖

(27)

18

當程式開啟之後，便進入四個選擇事的介面。如圖 4-3，可以先選定說故事主角或者直接進入說故事主題，再來就可以看到十組故事主題的圖卡顯示在畫面當中如圖 4-4，旁邊有一個機器人的虛擬頭像。當閒置的時候，機器人便會以內建的設定用語開始招呼使用者，使用者亦可以跟機器人互動，當觸摸螢幕上機器人臉部的不同部位時，機器人會有不同的反應。此一設計可以帶來孩童與機器人說故事介面的互動樂趣，增加孩童進一步探索整個系統的興趣。

圖 4- 4 故事選擇區

當我們點擊圖卡選擇了一個故事之後，便會進入故事閱聽畫面。使用者可以依照自己的喜好點擊圖卡選擇順序，也可以自己決定新的順序及內容，當五張圖卡順序都決定好了，便可按下『說故事』的按鈕，啟動說故事的程序。如下圖 4-5 所示，此時機器人會開始朗讀故事，當朗讀到的那一段故事便會顯示在下方的框框中，此時機器人內部進入一個關鍵字比對再說故事中來改變情緒變化，相對應的圖卡也會被放大顯示，以提醒使用者現在故事進行到哪一張圖卡。

(28)

19

圖 4- 5 開始說故事

4.1.2 故事編輯介面

機器人說故事系統使用 TXT 作為故事的編輯輸入介面，在互動性與操作直覺性上面都略顯不足，在本研究中新增加了互動式的編輯介面，我們可以透過互動式編輯介面來編輯故事，並且讓機器人能夠參與故事編輯之間的互動。如圖 4-6，每張圖卡的故事，使用者可以依照自己意思填入故事內容，以培養構思創造的能力。

圖 4- 6 編輯說故事介面

(29)

20

此一編輯介面具有相當良好的操作體驗，我們可以選擇已經儲存的故事順序

，然後再點選圖卡，則對應的故事就會顯示在下方的故事框裡。使用者直接在故事框裡編輯故事，或者也可以新建立一個故事順序，先選擇自己所想的圖卡的順序，再選擇圖卡填入對應的故事內容。

4.2 機器人系統環境

4.2.1 互動式體驗

數位化的時代來臨，以往紙本形式的故事書也不再是唯一。電子書與多媒體的教具帶來了更多聲光娛樂效果，並且具有紙本形式所缺乏的互動性。透過良好的使用者介面，使用者可以輕易的操作，並迅速獲得需要的資訊。有效的降低了使用者與電腦的隔閡，加上圖像的操作介面，直覺性的操作模式，使用者可以輕易的學習。[15]

使用者介面是電腦與使用者溝通的媒介，良好的使用者介面必須弄懂使用者真正想要完成什麼事。方裕民(2003)提出了圖形使用者介面由 windows (視窗)、

icons (圖像)、menu (選單)、mouse (滑鼠)這四個要件所構成，如下表 4-1( 資料來源：芳裕民，2008 )[16]：

表 4- 1 構成圖形使用者介面的四大要件

所謂的 WIMP，就是圖像使用者介面，所代表的是 windows、icon、mouse、

menus，以及 pop-up、pull-down menus 下顯快拉式選單 pointing、device (方裕民，

項目解釋

視窗 ( windows ) 將螢幕分為不同的區域。

圖像 ( icons ) 用以代表物件，圖像可以在螢幕上被任意的移動。

選單 ( menu ) 顯示可供選擇、使用的功能項目。

滑鼠 ( mouse ) 用以在螢幕顯示區域操作物件的裝置。

(30)

21

2003 )。圖形使用者介面藉由圖像引導使用者操作，而免除了傳統鍵入指令的麻煩。而 Borsook & Higginbotham 提出構成互動的要素，包括[17]：

1. 立即回應 ( immediacy of response )：當參與者提出了某項訊息或是要求時，能夠立即依據索求提供訊息回應。

2. 非線性資訊處理 ( non-sequential access information )：依照每位參與者的需要或是興趣提供資料庫裡的資訊或是訊號，是構成整體互動操作的中樞系統。

3. 調適性 ( adaptability )：針對不同的參與者，而做出適當的機制調整，以不同的資訊或是互動方式去適應使用者，產生出合理的人性化空間、介面。

4. 回饋性 ( feedback )：雖然參與者彼此之間都存在著差異，然而經由個人的回應或是動作表現給予回饋，使促使整個過程走向個別化、適性化的重要條件，

而互動本身即是一種回饋。

5. 選擇權 ( options )：參與者自身擁有自由發揮、操控的權力，藉由身處的環境與條件做思考的判斷，使得原本被動的角色轉換為主動的角色。

雙向溝通 (bi-directional communication )：在互動的過程中，必須具備溝通的管道，如此才能夠相互提供訊息以及意見與需求，增進互動的品質。

本說故事機器人具備了簡潔的圖形使用者介面，如圖 4-7，減少畫面上的按鈕讓畫面的配置不至於複雜化，畫面上的每個圖像安排在適當的位置讓整體看起來更井然有序。

(31)

22

圖 4- 7 圖形使用者介面

此一介面具有高度的互動性，除了使用者與介面的互動，機器人的存在更是將互動的過程提升到一個更高的層次。原本使用者透過點選畫面上的圖畫或 icon，

而操控電腦產生對應的動作，現在機器人更可透過擬人化的方式，以口頭的指點來引導使用者操作。機器人會根據使用者輸入的資訊，做出相對應的指引，如同老師在一旁指導一般，讓使用者可以更快的上手。

(32)

23

4.3 心情與情緒架構

開始

讀取心情

圖卡內的心情

顯示心情

心情暫存心情

圖 4- 8 心情流程圖

如圖 4-8 的流程圖來說明心情的架構，心情主要依照著說故事圖卡的背景動機，故事開始心情模組會先讀取圖卡背景隱藏的心情來顯示出來，將會把心情存入程式內部的暫存空間。

圖 4- 9 心情區塊

(33)

24

心情模組如圖 4-9 所示為一個大愛心，在愛心裡面有六個圈圈分別代表著六種心情的變數，(厭惡，快樂，驚訝，害怕，悲傷，憤怒)，心情等級分為 10 個等級。

開始

情緒運算人格

心情特質

得到情緒情緒

情緒加減情緒

關鍵字

顯示情緒

圖 4- 10 情緒流程圖

如圖 4-11 情緒的開始會有這情緒運算(內部刺激與外部刺激)我們可以得到情緒，在說故事中的關鍵字比對或語音刺激會影響情緒的加減，最後一個步驟將加減後情緒顯示情緒。

(34)

25

圖 4- 11 情緒區塊

情緒的變化主要依據六一情緒模型而來，將六一情緒模型參數(快樂、生氣、

悲傷、驚訝、害怕、厭惡)放置於其中。情緒區塊如圖 4-11 所示每一格代表量值 1，所以整個為 0~10 的數值。

4.4 臉部表情架構

開始

讀取表情參數

表情參數

顯示表情

是否要改變

新表情

決策值

否是

圖 4- 12 臉部表情結構流程

(35)

26

如圖 4-12 來說明表部表情的一些基本流程，在程式開始會先讀取 37 種表情六一情緒模型定義出來表情如圖 4-13，表情分為六大種類(厭惡、快樂、驚訝、

害怕、悲傷、憤怒)每一個種類都有六個等級有弱到強，還有一個則是平靜表情，

在六種情感沒有大於平靜值，表情沒有變化的條件。

圖 4- 13 表情總覽

表情決策值(如圖 4-14)是在說明有三種狀況可以影響表情，第一種：心情大於平靜值、第二種：情緒大於平靜值、第三種：不在前兩項內一定時間會有表情動作。

表情決策值

心情影響表情

情緒影響表情

特殊影響表情

變化表情

圖 4- 14 表情變化決策值

(36)

27

4.4.1 情緒引導表情

開始

讀取六種情緒六種

情緒

是否大於平靜

歸零開平方

加總

抽籤平靜值

否是

抽籤減去情緒是否

有餘數

執行下一個情緒抽籤值

是

選中情緒否

開始做表情

圖 4- 15 情緒引導表情流程圖

(37)

28

六一情緒模型核心是引導表情變化的一個重要因素，主要動作：單一情緒是否大於平靜值，如果情緒值大於平靜值則情緒值開平方，情緒值小於平靜值情緒值將歸零(平靜值也要單獨開平方)，將處理過的六種情緒和平靜值來做一個加總將加總的總數來抽籤，抽籤值來作為處理呈現表情的變化。舉例六種情緒(厭惡 6、

快樂 2、驚訝 8、害怕 0、悲傷 4、憤怒 0)平靜值為 3，先處理情緒是否大於平靜後(厭惡 6*6、快樂 2*0、驚訝 8*8、害怕 0、悲傷 4*4、憤怒 0)+(平靜 3*3)，再來一個加總(厭惡 36+快樂 0+驚訝 64+害怕 0+悲傷 16+憤怒 0+平靜 9=125)來做抽籤，抽籤範圍(1~125)如果抽到 35 將(抽籤 35-平靜 9)於(抽籤 24)再以(抽籤 24-厭惡 36)只要抽籤沒有餘數判定是選中該情緒，等於我們抽中厭惡這時候機器人會做出厭惡表情。

4.5 情感記憶模組架構

開始

讀取記憶資料庫

資料庫 1 To 12

顯示資料1 To 12

圖 4- 16 讀取情感記憶流程圖

如圖 4-15 程式開始記憶會先讀取資料庫並顯示，只要有增加或者減少都要再一次顯示資料，情感記憶而對六一情緒參數產生影響，而不同的情感記憶亦會對六一情緒參數產生不同影響，例如六一情感記憶中「快樂」增加記憶中包含著

「高興」，當說故事內容有講到高興關鍵字時，則將對「快樂」的六一情感有所

(38)

29

增加。情感記憶包含六一參數中六種基本情感的增加與刪除記憶，故共有十二個記憶庫可供編輯，十二個記憶庫可各別選擇編輯，增加記憶會放至檔案尾端、刪除記憶可刪除任意位置情感記憶，如圖 4-16 所示。

圖 4- 17 情感記憶編輯

開始

讀取開心資料

快樂資料庫

顯示資料庫

關鍵字加入資料庫內

輸入關鍵字

比對有沒有重複

沒有

更新資料庫清除

關鍵字有

圖 4- 18 增加快樂情感記憶流程

(39)

30 開始

讀取開心資料

快樂資料庫

顯示資料庫

刪除資料庫內關鍵字

輸入關鍵字

比對有沒有重複

有

更新資料庫清除

關鍵字沒有

圖 4- 19 刪除快樂情感記憶流程

如圖 4-17 是增加記憶流程，主要重點是一個比對關鍵字與資料庫內來做比對，資料庫存取工作字元處理，比對後刪除或增加字元，刪除記憶的流程如圖 4-18。

4.5.1 連結式記憶

在機器人內，關鍵字產生的情緒，是採用關鍵字資料庫來比對，利用連續語音方式輸入文字，再將符合資料庫的文字來當作關鍵字，進行語意情感刺激，語意分析及關鍵字比對，對應機器人的情感記憶，改變六一情緒參數，不同情感記憶，對六一情緒參數，使機器人產生不同表情。本論文當中，引述到最重要的論述就是連結式記憶，在創智慧[18]一書當中霍金斯提到人腦的架構不僅有階層的連結，而且有相互的連結，人腦接收輸入的訊號從下層進入，流經中層，最後進入上層，每個神經細胞都是一種類型的型態辨別器，來決定是否要活化(被激發)，

如圖 4-20 所示:腦內有辨識部分文字層次，當圖一的訊息進入時，負責辨識外框

(40)

31

(口)的神經細胞活化，由於資訊不明確，負責辨識『或』的神經細胞沒活化，到了大腦上層，負責辨識文字中有口的神經細胞一起活化，有可能是『圖』或『圓』

但到了更上層，負責辨識國家的神經細胞活化，因此認出完整的名詞

圖 4- 20 連結式記憶示意圖

4.6 語音編程軟體程式

本論文中使用 Microsoft Visual Basic 6.0 開發機器人事件編程，此程式可分為幾個主要表單，分別為機器人事件編程、六一量值、人格特質、情感記憶編輯表單等如圖 4-21 所示。另外使用 IBM Via Voice 語音辨識軟體，由使用者端與系統端所構成。使用者可透過麥克風、或者經由觸控式螢幕直接與機器人做簡單的互動式交談，進行連續語音輸入、自然語言的語意分析，將關鍵字中的情緒比對與六一情緒參數整合而成，讓參與者能更簡單有效的學習。運用人機互動的介面設計，使參與者有身歷其境的感覺，另一方面藉著機器人(臉)生動活潑的表情述說故事，更能增加參與者的學習興趣，使其融入故事之中。在系統端，由螢幕上顯示使用者的操作畫面，使用者可依個人構想，將故事圖卡重新排列組合以變化出許多不同的故事。

(41)

32

圖 4- 21 六一模型軟體程式介面

4.7 語音系統架構

IBM Via Voice

Visual Basic

圖 4- 22 IBM Via Voice 與 Visual Basic 關係圖

如圖 4-22 IBM Via Voice 語音辨識軟體與 Visual Basic 機器人程式只是一個互助的關係，Visual Basic 無法控制 Via Voice，Via Voice 算是一個輔助程式。

(42)

33

開始

開啟 IBM Via

Voice

開啟 Visual Basic

編輯功能 Via Voice功

能切換

程式集功能

語音轉文字

編輯故事內容

編輯關鍵字控制

Visual Basic

語音互動

圖 4- 23 語音系統與機器人流程圖

圖 4-23 當 IBM Via Voice 語音系統與 Visual Basic 程式連結開啟之後，Via Voice 便有兩個主要功能一個語音轉文字、另一個控制程式集，使用編輯功能可進入情感記憶編輯的介面，用語音系統在記憶輸入的地方，輸入要與說故事機器人比對的關鍵字或編輯說故事內容都可以用語音編輯，可以利用控制功能選擇人格特質進入說故事系統，可以看到故事主題的圖卡顯示在畫面當中，再利用語音編輯說故事的內容，當故事內容輸入完畢時，說故事機器人程式啟動將會與情感記憶庫比對關鍵字，如果有相同的關鍵字將會有外部的情緒刺激，給予六一情緒參數，使機器人產生表情情緒，藉由語音互動可以帶來孩童與機器人更加多的樂趣。

(43)

34

第五章結論

5.1 具體成果

本論文的主要目的在於探討情緒變化的刺激反應，並將機器人的臉部表情有所變化。機器人是模仿人類頭部外型及動點所設計，其外觀包含表達人類臉部情緒會產生動作的眼睛、眼簾、眉毛、嘴巴、以及頸部，讓情感機器人可以產生有如人類臉部情緒變化的表情。

強化和整合了六一情緒模型，也將人格特使得更為顯著的表現，使原本的六一情緒參數更加符合我們的期待，修正程式架構，將原本的六一情緒更改為刺激參數的論點，也讓此情緒參數有更高的拓展空間，此外透過程式的模擬可以發現對於臉部表情的變動方面也符合我們的預期。

將 IBM Via Voice 語音辨識與機器人結合，使機器人有多了新的互動方式，

使用機器人與孩童互動，當學齡前的孩童並不會寫字，抑或是文字的輸入太慢，

所以在進行說故事時隨著劇情高低起伏變化，機器人臉部的表情有不同的變化，

語音互動有助於孩子在聽故事時更能投入故事情境中。更進一步期望說機器人能成為孩子學習過程中的玩伴。

5.2 未來展望

本研究情緒的引導及語音系統，研究領域廣泛包涵了機器人的情感的產生機制、記憶模式、情緒表達方式、語音的互動關係、情感量值轉換函式與各種語音編輯故事編程機制等，在說故事內加入機器人記憶的關鍵字比對，提昇說故事時臉部表情的變化。在執行的程式中可發現到，機器人的表情變化生動許多，未來只需要在表情架構方面，加入一些特殊的一連串動作反應來強化整體機器人的表現是更加生動，然而目前互動模式僅限於單一機器人與人的互動，未來可加入多機器人間的互動模式以及多機器人與人之間的互動模式。

(44)

35

參考文獻

[1] 朱麗君”說故事機器人：單一情節結構在隨機組合故事圖卡中的表現”, 中華大學電機工程學系碩士論文, 2008.

[2] 彭建勳, “SE-EBS:情感機器人之連續性動態控制表示分析”, 中華大學電機工程學系碩士論文, 2005.

[3] Philip G. Zimbardo、Richard J. Gerrig 著,游恆山譯, “心理學”, 五南圖書出版有限公司, 2007.

[4] Micheal W. Eysenck 著,危芷芬譯, “心理學入門”,洪葉文化,2004.

[5] 彭建勳, “SE-EBS:情感機器人之連續性動態控制表示分析”, 中華大學電機工程學系碩士論文, 2005.

[6] 范智浩, “SO-EM:情感機器人之六一情緒模型”, 中華大學電機工程學系碩士論文, 2008.

[7] 王志良，人工情感，1 版，機械工業出版社，北京，2009 年 6 月。

[8] S. Schachter and J. E. Singer, ”Psychological Review: Cognitive, Social, and Physiological Determinants of Emotional State,” Journal of Psychological Association of America, Vol. 69, No. 5, pp. 379-399, Sep. 1962.

[9] H. Gleitman 著，心理學，洪蘭譯，遠流出版社，台灣，1997.

[10] Mehrabian, Nonverbal communication, Transaction Publishers, U.S.A., 2007.

[11] 唐國豪(2003)，人機互動，科學發展，368 期。

[12] 顏睿余(2008)，台灣教育娛樂機器人之發展與思考，微星科技股份有限公司。

[13] 區國良、陳國棟(2001)，教師代理人之知識與策略分析，資訊與教育雜誌。

[14] 鄭瑋璿, “SE-EBS:臉部表情機器人之連續事件情緒行為排程器“, 中華大學電機工程學系碩士論文, 2004.

(45)

36

[15] 黃雯羚,黃國禮,程筑鈺,“互動式介面應用於數位博物館之初探-以兒童數位博物館為例”南台科技大學數位內容與動畫設計研究所, 2008.

[16] 方裕民,“人與物的對話‧互動介面理論與實務”, 初版, 田園城市, 台北, p.48, 2003.

[17] Borsok, T. K. & Higginbotham, N. (1991). Interactivity : What is is and what can it do for computer-based instruction?. Educational Technology,3(10),11-17.

[18] 吳嘉文，情感機器人的運轉，中華大學，碩士論文，民國 93 年。

一個以情緒引導意圖的聲控刺激反應人臉 機器人

中 華 大 學 碩 士 論 文