行政院國家科學委員會專題研究計畫 成果報告
以 VoiceXML 為基礎的個人化資訊廣播站(II)
計畫類別: 個別型計畫 計畫編號: NSC92-2213-E-004-007- 執行期間: 92 年 08 月 01 日至 93 年 07 月 31 日 執行單位: 國立政治大學資訊科學系 計畫主持人: 廖文宏 共同主持人: 曾國峰 計畫參與人員: 賴建安 劉明哲 張繼志 報告類型: 精簡報告 處理方式: 本計畫可公開查詢中 華 民 國 93 年 11 月 1 日
行政院國家科學委員會補助專題研究計畫
■ 成 果 報 告
□期中進度報告
子計畫二:以 VoiceXML 為基礎的個人化資訊廣播站(II)
計畫類別:■ 個別型計畫 □ 整合型計畫
計畫編號:NSC 92 - 2213 - E - 004 - 007 -
執行期間:
2003 年 8 月 1 日至 2004 年 7 月 31 日
計畫主持人:
廖文宏
共同主持人:
計畫參與人員:
成果報告類型(依經費核定清單規定繳交):■精簡報告 □完整報告
本成果報告包括以下應繳交之附件:
□赴國外出差或研習心得報告一份
□赴大陸地區出差或研習心得報告一份
□出席國際學術會議心得報告及發表之論文各一份
□國際合作研究計畫國外研究報告書一份
處理方式:除產學合作研究計畫、提升產業技術及人才培育研究計畫、列
管計畫及下列情形者外,得立即公開查詢
□涉及專利或其他智慧財產權,□一年□二年後可公開查詢
執行單位:國立政治大學
中 華 民 國 93 年 10 月 31 日
附件一行政院國家科學委員會專題研究計畫成果報告
子計畫二:以 VoiceXML 為基礎的個人化資訊廣播站(II)
Building a VoiceXML-Based Personalized Information Broadcasting
System (II)
計畫編號:NSC 92-2213-E-004-007-
執行期限:2003 年 8 月 1 日至 2004 年 7 月 31 日
主持人:廖文宏 國立政治大學資訊科學系
計畫參與人員: 國立政治大學資訊科學系
一、中文摘要 本篇報告描述一個具自動化產生自然 語言(Natural Language Generation)之語音 互動模組,以及將該模組整合至個人化資 訊廣播站(PIBS)之可能方式。互動模組中運 用了:(1)混合導引模式(Mix-Initiative)的設 計架構、(2)自動化自然語言語句產生、及 (3)VoiceXML 標記語言文件的表現方式, 不但能達成運用自然語言來進行語音互動 的效果,且提高了系統對話流的彈性,此 外,不需要經過繁複的背景知識獲取訓 練、可提供即時互動的對話內容、及便利 地轉換至不同應用的語音資訊系統的發展 方法。 關鍵詞:多媒體資訊系統、語音互動應用、 網際網路媒體應用、自然語言應用 AbstractThis report summarizes the integration of a natural language generation (NLG) module into the Personalized Information Broadcasting System developed previously in an NSC-funded project. The newly devised interaction module supports mixed initiative dialog. It can dynamically generate sentences according to the progress of the conversation. The system is VoiceXML based, minimizing compatibility issues and accelerating deployment. The incorporation of NLG module has the potential to enhance user experience of the speech interface, as attested in several case studies presented in this report.
Keywords: Multimedia System, Voice
Interaction, Internet Media, Natural Language Generation. 二、緣由與目的 圖一、現代資訊傳播結構 由於科技的進步,舊有資訊的傳播方 式已不敷現今使用者的需求,以傳統的新 聞媒體舉例來說,從舊有的平面、廣播、 電視為媒介都逐漸蛻變,走向網際網路上 的各類電子媒體,此一趨勢從近年來更可 以明確地發現,大量的資訊科技不但應用 在新聞的收集、發行乃至使用者取用的整 個流程之中;從使用者的角度來看,與其 被動地接收這些經過篩選的資料,能符合 每一位使用者的個人化需求,具有此種主 動性的代理程式,才是構成整個資訊傳播 結構的最頂層。 與傳統媒體兼容並蓄的網路電子 媒 體,不但在傳播上無遠弗屆,此外,網路 上還存在有各式的討論群組,通過這些群 組討論所完成的資訊交換,不僅在傳播的 速度上與其背後輿論所能造成的迴響,都 已是傳統媒體所無法比擬和以往無法想像 的。 使用者 取用 發布 收集 PIBS…etc HTML、MMS、 Streaming...etc 線上編採系統…etc
在網路資訊取得的成本差異,也直接 影響了與資訊世界接軌的程度,所以在前 一年計畫中,我們所設計的個人化資訊廣
播 站 (Personal Information Broadcasting
System, PIBS)能以語音透過不同的傳播方 式(電腦、網路、FM 廣播發射器),大幅降 低使用者在網路資訊接收上的軟、硬體成 本,及其所造成的數位落差現象。 然以一個語音資訊系統而言,PIBS 仍 有其不足之處;雖然透過已完成的使用者 偏好設定選項,PIBS 可以自動化地取得符 合個人化的網路資訊內容,但是在表達層 次上,仍有缺乏語音控制輸入、以及自然 語言分析的能力,這使得使用者必須花費 更多的注意力成本在控制程式之上,此外 也不利於許多仍不熟悉電腦操作的使用 者。 加入語音控制選項的PIBS,不只能夠 進行單純的程式控制,還能使用語音與程 式進行互動,簡便地達成PIBS 收集使用者 偏好的功能,在這樣的互動模式之下,已 和我們一般聆聽或者收看傳統電視及廣播 媒體時並無不同,甚而言之,使用者在獲 得資訊的主動性上更有別於以往的被動方 式。 近年來,商用語音資訊系統不但在各 行各業廣為應用,從信用卡公司的電話語 音到電影院或航空公司的自動化語音訂票 系統,這些應用不但說明了語音辨識以及 語音合成技術,雙方面都有顯著的發展和 進 步 , 已 足 以 取 代 原 先 的 預 錄 語 音 (Pre-recorded Prompt) 或 者 電 話 鍵 盤 輸 入 (DTMF)的互動模式,通過 VoiceXML 標記 語言的幫助,我們也簡單的完成了一個「虛 擬DJ」的語音互動界面的雛型。 然而要將此類型之界面整合至PIBS, 除了語音辯識功能外,我們更進一步地要 求 要 有 自 動 化 產 生 自 然 語 言 (Natural Language Generation, NLG)的文字轉語音 (Text-to-Speech)的表現能力。 在第一期計畫中開發的「虛擬DJ」, 屬於人工撰寫(Hand-crafted)方式的規則導 向,因此限制了與使用者在互動時的自由 度,且以系統為導向的一問一答方式,使 得語音系統在發話敘述上也缺乏彈性。相 對來說,自動產生自然語言的設計方法, 不但在軟體發展上,可以減少以往設計眾 多對話時將各種情節寫作為硬式鑲嵌的程 式碼(Hard-Coded)的情形,大大提昇往後的 維護性,更能夠運用不同的語句提問,使 問答時的互動結構較為彈性化。 三、結果與討論 3.1 知識獲取 要建立一個以自然語言為基礎的語音 系統,首要考慮的就是知識如何獲取的部 份 。 一 般 而 言 , 知 識 獲 取(Knowledge Acquisition, KA)是泛指該語音系統所應用 領域的相關知識、使用者的身分、語言、 字句等等。在相關的自然語言研究中,常 常運用到例如:排序(Sorting)、機器學習 (Machine Learning) 及 語 料 分 析 (Corpus Analysis)等技術來達成知識獲取的任務。 但在設計知識系統時,不管使用到何 種技術,都會因為運用的領域不同而遭遇 以下幾個問題: (1) 錯綜複雜的特性 不管是運用在何種領域上的知識 系 統,要面臨的可能是成千上萬種的例外情 況和使用者的臨場反應,在此種情況下, 往往造成系統效能不彰或運算極為耗時的 缺失。 (2) 屬於新興的知識 對於有些新興領域的知識,可供 參 考、分析的範本通常處於極為稀少的情 況。如此一來,不論使用的是何種技術都 很難達成完滿的知識獲取。 (3) 缺乏認知 在某些特定領域中的知識,是尚缺乏 有完整的理論模型,即使我們能透過專家 的協助與建議來獲取相關的知識,仍會有 難以彌補的鴻溝。例如:天氣的預測或人 類的情緒。 (4) 模糊難辨的特性 有些知識因為依據不同的學派或不同 的角度看法,形成在獲取知識時有歧異或 模糊的地帶。例如:文學或藝術的評論。 由於可能遭遇到的這些瓶頸,短時間
Natural Language Understanding NLG Document Planner Sentence Planner Representa -tion TTS ASR VPIBS 內,現有的技術都缺乏有效的解決方案, 與其訴求一個可以針對對話內容作常識判 斷或推理的智慧型系統,所依賴的將是長 時間在機器學習方法上的改良及改善語料 分析的訓練上。故我們將NLG 系統,重新 定義為更類似於裁剪一些給定的範例語 句,再將其運用在適當的時機,天衣無縫 般地經過文字語音轉換而表現出來,以達 到和使用者自然而然的互動為主要發展的 目標。 經過重新定義後的 NLG 語音資訊系 統,不但可以讓使用者自然而然的使用一 般對話來進行互動,系統也會依據應答時 所搜集到的資訊,自動產生符合自然語言 的對話內容。在我們的方法下建立的自然 語言產生系統,不需要任何事先進行的語 料訓練,也容易應用或轉換在不同領域的 語音資訊服務上,更可以達成即時互動的 需求。 3.2 VPIBS 語音系統 由於我們同樣是利用 VoiceXML 標籤 語言及類似於「虛擬DJ」的發展方法,來 增強個人化資訊廣播系統(PIBS)在語音 互動模組上的功能,因此擁有自然語言產 生(NLG)的 PIBS 語音互動系統,之後我們 均改稱之為VPIBS(如圖二)。 圖二、VPIBS 系統架構 為了要加入自然語言互動的功能,且 在現階段自然語言處理(NLP)的研究中,英 文的處理是較具有可供借鏡參考的解決方 案,所以在VPIBS 中所增強的語音互動功 能,目前只以實作英文自然語言互動界面 為主要探討的目標,希望能由英文界面入 題,再謀求可供發展中文自然語言語音互 動界面的解決之道。 3.2.1 自然語言理解 在「虛擬DJ」計畫中,由於我們採用 以樣版(Template-based)的方式來安排系統 的對話流(Call-Flow),在樣版模式下的對話 流必須預設所能接受的使用者語音輸入, 這使得對話的方式,有點類似於看著菜單 來進行點菜,而進行點菜時,系統則會依 據 固 定 的 選 項 導 入 預 先 定 義 好 的 VoiceXML 語音文件,接著將又是另一份 的菜單來接受使用者的語音輸入;如此, 虛擬 DJ 本身並不存在相關於所提供之服 務的背景知識,甚至連發話方式也和專業 人員所給人的感覺大相逕庭,經過使用者 測試後,常常得出使用者的主動權過度受 限於系統導引(System-Initiative)的結論。 雖然透過一些變數物件的控制,在樣 版模式設計下的對話流,可以有效率的建 立起一個堪稱功能健全的語音資訊系統, 然而,由於語音輸入的準確性不佳,容易 產生誤判的特性,往往每一回接受使用者 點菜之前,系統都要再重覆確認一次,來 保證輸入的正確性,因此在設計之初,不 但有無法設計太過冗長的對話流,也必須 迴避過度要求使用者進行更詳細的輸入等 缺陷,這也是使得互動的自由度大大降低 的主因。 有鑒於此,在新的VPIBS 系統所採用 的是將互動時的主動權,形成混合導引 (Mix-Initiative)的設計方式,在這個設計方 法中,我們改寫了原先的JSGF 文法格式, 加入了更多遞迴(Recursion)跟參數傳遞的 引用,這讓系統在從對話中所能搜集的資 訊大幅放寬,雖然離真正的自然語言理解 尚有一段差距,但是,再配合上相應的自 然語言產生回覆,是足以提供使用者不同 於使用樣版模式設計的語音系統在互動時 的自由度。 以「虛擬DJ」的應用場景為例:使用 者利用歌手名字(亞倫卡特)來點閱相關 歌曲,表一是使用樣版設計的互動方式, 表二則是經過改寫後的混合導引的方式: C(Computer):接下來,我們來找找你想 要點的歌。你要先告訴我歌名?還是 歌手? H(Human):歌手。 C:請問歌手,是合唱團嗎?
H:不是 C:請問歌手是? H:亞倫卡特 ……(中略) C:第 6 首,獲得, 第 7 首,嗨你, 第 8 首, 我願意, 第 9 首,你是我的全部, 第 10 首,我將是你的, 有你想要點的歌 嗎? H:第六(或說“獲得”) C:是亞倫卡特,的作品,獲得,確定嗎? H:對的 C:一旦撥放,就無法停止,要繼續嗎? H:好 C:獲得,送給你。 (音樂聲) …… 表一、System-Initiative 互動方式 C:歡迎來到虛擬 DJ 點歌系統,請…(說 出你想點的歌?) H:我想要點“亞倫卡特”的“獲得” (Barge-in)。 C:你選的是亞倫卡特的獲得,要直接 進行撥放嗎? H:好 C:獲得,送給你。 (音樂聲) …… 表二、Mixed-Initiative 互動方式 從上表中可以簡單發現,使用者在語 音輸入上彈性的改善,而且對話流也能更 為精簡。相反的,如果無法找到這首歌, 自然語言產生系統會產生另外相應的文 句,此類情況,我們將在之後另外作探討。 3.2.2 自然語言產生 在VPIBS 的架構圖中,NLG 主要可細 分為以下三部份。 (1) 文件規劃器(Document Planner) 在 VPIBS 中,DP 的任務是針對功能 性的對話文件作管理,從原先的PIBS 系統 中,我們提供了有:即時中英文新聞的播 放系統、根據不同類別新聞的關鍵字查詢 系統、以及即時郵件監控等功能。DP 的任 務便是將這些高階的功能選項拆解為細微 的對話目標(Atomic Conversation Goal), 並且形成該目標的語音提示文件,來引導 使用者進入整個語音互動模式。 至於對話的目標,實際上近似於我們 先前在樣版模式設計中的 VoiceXML 語音 文件所運用的填表格(Fill Form)方法, 在此則轉化成建立一個對話目標的資料結 構(如表三),此外,DP 也包含了一些類 似廣域變數物件的宣告;在大部份的語音 資訊系統中,事先定義一些預設的關鍵字 (例如:“Help(協助)”、“Transferring Calls (轉接專人服務)”等)是常見的設計 方式,而這些類似全域變數的物件,將可 以在之後對話的任何一處被觸發。 雖然在概念上,我們希望提升我們的 對話流的自由度,因而引進了混合導引的 文法設計結構及以文句為單位的規畫器, 但是在實作面上,我們仍需藉助DP 來虛擬 出 一 個 假 性 的 語 音 文 件 (Pseudo-Voice Document),作為系統在切換不同功能時 的區隔。
(News-Keyword: “President Election”) (News-Category: “Politics”) (Date-Range: “1 month”) … 表三、對話目標的資料結構 (2) 文句規劃器(Sentence Planner) SP 所要進行的任務是承繼 DP 所產生 的假語音文件的細節實作,事實上,經過 使用者的語音輸入後,語音中的關鍵字則 會透過文法規則萃取出來;SP 的主要工作 有兩件,一件就是維護由DP 所建立的資料 結構,藉以達成由已知會話中收集使用者 所提供的資訊。
C(Computer): Welcome to VPIBS English News Search Engine. What kind of News do you want to know?
H(Human): Politics News in the recently 1 month.
C: Last 30 days politics News. Which news title do you interest in?
…… 表四、英文新聞的查詢 Request (Title-Keyword) Implicit-confirm(News-Category: “Politics”) Implicit-confirm(Date-Range: “30 days”) … 表五、維護資料結構 從表四中的對話,我們可以看到透過 維護的步驟(表五),SP 可以得知,那些 資訊已經被收集完成,那些資料則有待被 確認,以及尚有那些資料仍需再向使用者
詢求?以此資料結構為指導原則,SP 的第 二件任務便是形成回覆使用者的語句。 同樣地,從表四與先前表一的回覆語 句中,我們可以比較出來,經過SP 形成的 語句,不但取代了原本死板的重新確認 句,還可以聚集(Aggregation)新的詢求問 句,藉此再度改善原來的對話流,同時也 讓系統呈現了更像自然語言的表現方式。 (3) 表現層(Representation) 表現層是將 NLG 系統的最後一個部 份,表現層的任務是將DP 和 SP 所產生的 文句,運用 VoiceXML 標籤語言的機制來 完成製作最後的語音文件。 此外,為求互動時對話的自然逼真, 在此處亦可以適當地在 SP 所產生的文句 之中添加無意義的語助詞或慣用的發語 詞,來突顯語音系統中,虛擬角色的個性 特徵。 之所以繼續延用 VoiceXML 標籤語法 是因為在以往當我們發展「虛擬DJ」系統 時,就發現使用 VoiceXML 所開發的語音 資訊系統,不但具有在開發過程簡易迅速 的優點,而且它與支援語音合成時聲韻 (Prosody)變化的 SSML 語法,以及建立語 音辨識的文法集合所使用的JSGF 語法,都 擁有交互合作順暢等多項的特色,這使得 整個程式發展的重心,直接落實於語音應 用本身的功能性需求,而不必花費太多額 外的心力在ASR 及 TTS 等元件的細部控制 之上。 四、討論 在這次的計畫結果中,我們實作了一 個以自動化產生自然語言為基礎的英文語 音互動模組;除了改進了我們在先前延續 計畫中的個人化廣播系統(VPIBS)外,在發 展這樣一個語音互動的資訊系統的過程 中,也發現許多以往未曾考慮的現象及尚 有待努力之處,以下逐一將之提出來進行 個別的討論。 4.1 對話流自由度的增加 在樣版設計模式為基礎的「虛擬DJ」 中,語音文件透過變數物件的取代,來達 到系統自動化產生對話流的結果,在此 處,自由度只存在在每一份個別的語音文 件 之 中 , 仍 是 經 過 對 話 盒 管 理(Dialogue Manager)的導引和幫助來形成系統的對話 流。而在NLG 系統中,我們將對話流的自 由度,縮小至以單一的對話目標 (Atomic Conversation goal) 為單位,經過語句規劃 器 (SP) 形成單一語句的語音文件,不但在 內容上,新的語音文件較之原先的包含許 多語句的對話盒縮短許多,這也使得在軟 體發展的維護過程上變得更為簡明,即使 往後再行添加新的功能模組的靈活性上也 大大提昇。 以往根據不同的語音資訊應用,對話 盒文件需重新編寫,系統對話流的設計也 需要重新安排,並沒有一貫性的軟體發展 流程可以依循,放寬對話流的自由度,不 但整合自動產生自然語言的功能,可以提 昇語音系統的表現,往後只需調整 SP 及 DP 中的參數跟對話流導引的設定,即可形 成其他不同應用的語音資訊系統。 4.2 對話流深度的衝擊 先前在我們所提出的,通過語音互動 界面的英文新聞搜尋系統(見表四、五)中, 對話流的深度均不深,且我們所要搜集的 特徵欄位數目少,因此只須經過數次的會 話過程,這些特徵欄位都可以被收集完 成,而SP 所要維護的資料結構亦不複雜。 但是,在某些語音資訊系統的應用裡(例 如:航空公司訂位系統),將遭遇到的,是 對話流深度極深的考驗,當特徵欄位數量 也相形增多下,SP 形成回覆語句的效率也 會隨之降低,因此重新改善資料結構是有 其必要性的。此外,由於使用混合導引的 互動模式,一旦使用者提供過多的特徵欄 位資訊,也有可能會遭遇無符合條件的結 果,此時的系統應該主動提示使用者來選 擇放寬的條件,例如:在航空訂位系統中, 使用者給定了完整的航班時間、航空公司 和整個旅行起迄站之後,很可能查不到任 何符合的班機,這時語音系統應主動提 醒,並逐步地放寬日期時間或航空公司等 特徵欄位,來重新進行航班的查詢。
C(Computer) : Welcome to Airline reservation center. Where do you want to go? .
H(Human):Swiss Air From Moscow to St. Petersburg on July 4.
C: Swiss Air from Moscow to St. Petersburg on July 4?
H: yes.
C: Sorry, No such flight is available.(bad) cf.
C: No such flight is available. Do you want change other airlines?(better)
…… 表六、航空訂位系統場景 這種逐步放寬的回復機制,也必須在 設計特徵欄位的資料結構時一併考慮,以 增加整個系統的強健性。 4.3 特徵欄位間的隱藏屬性 除了考慮維護特徵欄位資料結構的設 計,在維護同時,這些特徵欄位是否具有 相依性也是一個值得深思的問題,在許多 應用中,這些特徵欄位的重要性並不是均 等的,有些具強烈顯性的特徵欄位,可能 足以取代或有關連到其他數的特徵的重要 性。 一樣舉航空訂位系統的例子說明,給 定“班機號碼”這個特徵欄位可能就足以 取代航空公司、出發起迄站、航班時間等 欄位,因此在當SP 在維護這個資料結構的 同時也應該進行其他欄位的更動。 C(Computer) : Welcome to Airline
reservation center. Where do you want to go?
H(Human):LX300-256 on July 4.
C: “Swiss Air” from Moscow to St. Petersburg on July 4? Do you want to make a reservation? …… 表七、相依欄位的同步更新 除了相依性,語音系統也可能因為特 徵欄位的嚴重性,導致對話流在導引上的 問題,同樣的例子會發生在訂位查詢系統 之中。例如,與使用者個人資料相關的欄 位的嚴重性應該是超過查詢服務所需的資 訊欄位,因此當SP 得知後者時,應該選擇 形成單純查詢功能的對話回覆,而不是要 求使用者輸入更多的個人資料,來進行接 續的訂位服務,這往往是造成使用者不悅 的一種過當設計。 4.4 更自然地產生自然語言語句 在我們的設計的系統中,由於不需要 任何事前的KA 訓練,因此 SP 在形成回覆 語句時,僅是單純的將部分特徵欄位的確 認語句,及詢求進一步資訊的語句,作簡 單的歸納跟聚集(Aggregation) ,這樣的方 法可以視為是一種產生自然語言的基線方 法(Baseline),除此之外,在一些相關的英 文自然語言處理的研究中顯示,英文語句 的聚集方式經過歸納整理可以分成七種類 型的規則(見表八)。 表八、英文子句的聚集規則 從表八中,我們可以讓SP 透過這些可 能的聚集方式,來形成不只一對一對映的 回覆語句,然後再經過一些機器學習的方 法,依據不同會話時機來排序(Ranking), 挑選出最佳的回覆方式。 因為自然語言處理在中文上不只有斷 詞上的問題,許多英文的特性,這些聚集 方法並不完全適用在發展中文自然語言的 產生上,因此要發展中文語音界面,目前 我們仍是以基線方法來進行語句的聚集。 五、參考文獻
[1] E Reiter, S Sripada, and R Robertson, “Acquiring Correct Knowledge for Natural
規則 子句一 子句二 聚集結果
Merge Election holds in USA
Election holds on Nov.3 Election holds in USA on Nov. 3 Merge- General
When does the election hold?
Election hold in USA
When does the election hold in USA? Soft- Merge Flight depart from Moscow Flight arrive to St. Petersburg
Flight fly from Moscow to St. Petersburg Soft- Merge- General What time does the flight
depart?
Flight arrive at St.
Petersburg
What time does the flight fly to St. Petersburg? Conjunctio n The cake is with the spoon. The cake is on the table
The cake is with the spoon and the cake is on the table. Relative-
Clause 同上 同上
The cake, which is with the spoon, on the table.
Period
(Baseline) 同上 同上
The cake is with the spoon. The cake is on the table.
Language Generation” Journal of Artificial
Intelligence Research 18:491-516, 2003
[2] M. Walker, O. Rainbow, and M. Rogati, “Training a Sentence Planner for Spoken Dialogue Using Boosting” Computer Speech
and Language, 16:409-433, 2002
[3] R. Sproat (Editor), “Multilingual Text-To-Speech Synthesis : The Bell Labs Approach”, Kluwer Academic Pub, 1997. [4] K. R. Abbott, “Voice Enabling Web Applications:VoiceXML and Beyond”, apr ès, 2002. p 41-47.
[5] C. Sharma and J. Kunins, “VoiceXML:Strategies and Techniques for Effective Voice Application Development with VoiceXML 2.0” , John Wiley & Sons, 2002.
[6] W3C, “Jspeech Grammar Format”, http://www.w3.org/TR/jsgf
[7] W3C, “ Speech Synthesis Markup Language Specification ”, http://www.w3.org/TR/speech-synthesis/,200 2 六、成果自評 本年度的預定目標,是以整合去年度 開發完成的 PIBS 及「虛擬 DJ」兩個子系 統,成為具有語音互動功能的VPIBS 為重 點,實作部份則在融入英文語音互動模組 及系統互動模式的改進。 此外,原本計劃導入常識推理及學習 的功能,但由於現有的知識庫及知識獲取 技術,在資訊的表示(Representation)及 操作(Manipulation)多擁有自成一格的獨立 特性,不利於與我們的個人化廣播子系統 進行後端資料的整合,因此,我們引入了 自動化自然語言產生(NLG)的概念,在加上 前端重新改良過的自然語言理解的設計架 構,初步解決了「虛擬DJ」系統中對話流 及對話內容欠缺彈性的缺陷。也重新檢視 到,在設計一個語音資訊系統時,所將遭 遇的問題和困難,藉由我們發展語音互動 模組的過程和經驗,歸納討論出可供參考 的設計模式。同時藉由英文自然語言處理 的相關研究,期望可以從完整的語音資訊 系統的角度,發掘中文語音互動模式的設 計雛型和契機。
9
可供推廣之研發成果資料表
□ 可申請專利 □ 可技術移轉 日期:93 年 10 月 31 日國科會補助計畫
計畫名稱:子計畫二:以 VoiceXML 為基礎的個人化資訊廣播站(II) 計畫主持人: 廖 文 宏計畫編號: 92-2213-E-004-007- 學門領域:Web Technology
技術
/創作名稱
Personalized Information Broadcasting System
發明人
/創作人
廖 文 宏中文:開發語音介面系統,藉由導入自然語言處理技術,使對話 方式更為人性化,對話流程更具彈性,而透過 VoiceXML 描述語言 之整合,可以簡化資訊的擷取與傳遞程序。
技術說明
英文:Incorporating natural language generation module into voice user-interface design to enhance the human-machine dialog progess. A VoiceXML-based implementation simplifies the retrieval and delivery of personalized information in speech/audio format.