1
行政院國家科學委員會專題研究計畫成果報告
口語處理系統語言模型之研究(I)
Language Models in Spoken Language Pr ocessing Systems (I)
計畫編號:NSC 87-2213-E-002-030
執行期限:86 年 8 月 1 日至 87 年 7 月 31 日
主持人:陳信希 國立台灣大學資訊工程學系
一、中文摘要 口語處理系統使得人類運用語音和電 腦交談的夢想不再遙不可及。由於語音和 語言處理技術的快速發展,使得口語處理 的技術也相對的提升不少。雖是如此,但 仍有一些瓶頸需要進一步的克服。 本兩年期的計畫,針對口語處理系統 中基本研究主題,作深入而廣範的討論。 第一年主要集中於語音修復處理和口語的 斷詞上,為了要利用傳統書面語的語言模 型去處理口語的資料,我們研究這兩種語 言系統的差異。藉由降低這兩種語言系統 差異的技術來降低重新發展一個新的語言 模型所需付出的代價。 語音修復的目的是要將一些會對系統 造成理解上錯誤的雜訊預先排除掉。為了 處理口語的斷詞,我們提出了一個新詞學 習的模型來輔助詞典無法涵蓋所有詞的缺 點。 關鍵詞:自然語言處理、斷詞、口語、書 面語 Abstr actThe spoken language processing systems facilitate man-machine interface using speech. Although the technologies for the spoken language processing have made rapid advances in the underlying speech and language technologies, there are significant obstacles that must be overcome.
This two-year project focuses on fundamental research topics in spoken language processing. In the first year we
deal with speech repair processing and spoken word segmentation. In order to utilize the conventional written language model to process spoken data, we investigate the differences between the written languages and the spoken languages, and propose several techniques to reduce the differences between these two language systems.
Speech repair processing removes some noises. For spoken word segmentation, a new word learning model is proposed.
Keywor ds: Natural Language Processing, Segmentation, Spoken Languages, Written Languages 二、緣由與目的 對於人與人之間的通訊而言,語音是最 自然的一種方式。口語處理系統使得人類 運用語音和電腦交談的夢想不再遙不可 及。由於語音和語言處理技術的快速發 展,使得口語處理的技術也相對的提升不 少。雖是如此,但仍有一些瓶頸需要進一 步的克服。一般而言,一個口語交談系統 有下列四項困難需要解決: (1) 不特定語者, (2) 使用流暢自然的語音輸入, (3) 傳統書面語言模型的使用, (4) 口語交談的管理。 近年來語料庫為本 (corpus-based) 的策略 在許多應用上獲得極大的成功。一般而 言,語料庫反應了真實語言的使用方式。 因此對設計一個口語交談系統而言,它是 一個好的知識來源,因為大多數的語言現 象都可以從大型的語料庫中發掘出來。所
2 以在這本論文中,我們便採用此種策略來 發展我們的系統。 本兩年期的計畫,針對口語處理系統中 的五個基本研究主題作深入而廣範的討 論。第一年主要集中於語音修復處理和口 語的斷詞上,為了要利用傳統書面語的語 言模型去處理口語的資料,我們研究這兩 種語言系統的差異。藉由降低這兩種語言 系統差異的技術來降低重新發展一個新的 語言模型所需付出的代價。 三、結果與討論 3.1 口語語料庫 我們所使用的口語語料包含了兩段在 公共場合中朋友之間的日常交談。每段都 有大約 40 分鐘的長度。在這兩個對話 中,各有四個和五個語者包含在其中。在 這個語料庫中共有 448 個語音修復。我們 將這 448 個語音修復分成四種類型:重複 的語音修復、附加的語音修復、取代的語 音修復、以及放棄的語音修復。部分語料 庫的內容如下頁所示: 113 Z: ...(1.2)那楊經理<A 有沒有 A>[在^唸]?/ 114 W: [就等於],- {P1,2-2,2} 115 ..就是,-116 ...跟^過年這樣.\ 117 Y: (0)<L2 okay L2>?/ 118 W: ...(1.2)他%-- {R1,1-1,1} 119 ..他沒有.\ 120 ..他就說^可以.\ 121 Z: ...哦那%--122 ..一下越變越好.\ 123 ...不%-- {R1,1-1,1} 124 ..不是,-125 ..<SAR 他是太忙了.\ 126 ...沒有時間唸 SAR>.\ 127 L: ...(3.)楊-- {R1,1-1,1} 128 Z: ..ha?/ 129 L: ..楊 M 會唸他?/ 130 Z: ...誰/ 131 L: 楊 M,- {R1,1-1,1} 132 Y: ...楊 emu.\ 133 L: ...楊,- {R1,1-1,1} 134 ...[楊 K=]比較懂.\ 135 W: [啊=],-136 全%-- {R1,1-1,1} 137 ..全公司=,-138 L: ...(1.7)現在他沒賺錢,-139 他 {P1,1-1,2} ^大家都 {R1,1-1,1}都唸了 ha?/ 140 W: ...不是=,-141 Z: ...他%,-142 ..沒有.\ 143 ..他其實很忙唉呵?/ 在這四種語音修復中,重複的語音修復佔 最大宗 (約佔 70%) 。其次是附加的語音 修復 (約佔 13%) 。再來是取代的語音修 復 (約佔 10%) 。最後是放棄的語音修復 (約佔 7%) 。 3.2 中文語音修復處理 修復重複的語音我們先利用簡單的比 對來產生可能的修復位置,再利用兩個基 本分析以及四個進一步的分析來過濾不可 能的位置。這六個線索如下所示: 基本分析一: 重複音節的長度會有一定的限制。 基本分析二: 重複的音節之間不可以有太多其它語 者的介入。 進一步的分析一: 需要被修復的情況,重複的音節之間 一般會有停頓出現。 進一步的分析二: 重 複 的 音 節 之 間 出 現 急 速 停 頓 (glottal stop, %) 的現象時,這些重複的音 節一般需要被修復。 進一步的分析三: 相同的兩句話,如果它們的長度太 長,則一般不需要修復。 進一步的分析四: 有一些重複出現的音節,它們雖然重 複,但不需要修復。相反的,有一些音節 只要它們重複一般就需要修復。基於上述 的分析,我們可以達到 93.87% 的精確率 以及 90.65% 的召回率。 修復附加的語音我們利用兩個基本分 析以及七個進一步的分析來過濾不可能的
3 位置。其中,兩個基本分析和四個進一步 的分析的原理和修復重複的語音相同,因 此我們省略不寫。底下僅針對三個新的線 索加以探討。 進一步的分析五: 需要被修復的情況,重複的音節之間 的終端音調一般是水平的出現,否則不需 要被修復。 進一步的分析六: 我們需要去區分是附加的語音修復或 者是取代的語音修復。 進一步的分析七: 需要被修復的情況,被附加的音節一 般是一個詞。如果被附加的音節不是一個 詞或者它是詞的一部份,則此種情況不需 要被修復。 修復取代的語音我們也是利用上述的 幾個分析,因此我們省略不寫。基於上述 的分析,我們可以達到 42.55% 的精確率 以及 45.45% 的召回率。 3.3 中文口語斷詞 在斷詞的步驟上,我們首先利用書面語 的斷詞系統去斷口語語料。實驗的結果顯 示,我們的書面語斷詞系統得到 89.01% 的精確率以及 90.35% 的召回率。這個結 果和其它一些斷詞的研究所得到的結果 (95%以上 的精確 率及召回 率) 有 一 段 差 距。而當我們分析口語的語料後,我們發 現口語語料中 13.34% 的詞無法在九萬多 詞的書面語詞典中找到。這就是斷詞的結 果不甚理想的原因。造成這樣的結果,明 顯的是由於未知詞的影響。因此,新詞的 自動學習是必要的。 在新詞的自動學習上,我們利用 φ2 的 分佈來標定可能之詞。考慮下列的句子: 從王惠然先生創制徐州柳琴出發 正確的斷詞結果如下所示: 從 王惠然 先生 創制 徐州 柳 琴 出發 這個句子前 11 個字的 φ2 分佈如下圖所 示: 從 王 惠 然 先 生 創 制 徐 州 柳 由這個圖中我們可以發現,詞的邊界是落 在圖的區域最低點上。 我們利用這樣的觀念,來產生一連串的 詞。我們過濾了一些原本就出現在詞典中 的詞以及單字詞後, 903 個可能的新詞被 提出。其中有 153 個是真正的新詞。除此 之外,我們也自行增加了一些口語的常用 詞如 “唉呀” 、 “唉約” 、 “對不對” 、 “那 有” 等。對於一些口語的衍生詞我們也建 立了一些規則來解決這個問題。例如 “S+ ” (S={好、呵、咚、哦、對、罵、… }) 是針 對下列的詞而產生的: “好好好” 、 “哦 哦哦哦哦” 、 “對對對對對對對” 等。而 “S一S” (S={弄、套、烤、算、… }) 是針對 “弄一弄” 、 “算一算” 等詞而產生的。 利用新詞學習的方法,我們將所學習到 的新詞加入原本的書面語詞典中。重新斷 詞的結果,我們得到 95.30% 的精確率以 及 93.08% 的召回率。精確率比原來增加 6.29% 而召回率比原來增加 2.73%。 四、計畫成果自評 近年來,口語的處理逐漸受到大家的 重視。在這個計畫中,我們針對口語處理 系統中的基本研究主題作深入而廣範的討 論。任何口語處理系統不可能表現的很 好,假如我們沒有有效率的處理這些問 題。為了要處理因流暢自然的語言輸入所 造成的困難,我們研究在這種情形下的語 音修復處理。為了要利用傳統書面語的語 言模型來處理口語的資料,我們研究這兩 種語言系統的差異。進而發展出口語的斷 詞系統。藉由降低這兩種語言系統差異的 技術,來降低重新為這些系統發展新的語 言模型所需付出的代價。 在語音修復的處理上,取代的語音修 復仍需要更多線索的幫助才能有效的提高 系統的正確率。此外,在報告中放棄的語 音修復也沒有提出解決的辦法。我們發現 一個可用的線索是:急速停頓。然而,放 Φ2 *1000000 1 10 100 1000 10000 100000 Position
4 棄的語音修復仍然需要更多其它的輔助線 索。 整體而言,研究內容與原計畫所列的 工作項目完全相符、並已經達成預期的目 標、所提出的語言模型是多項應用的基 礎、適合在學術期刊或會議上發表。 五、參考文獻
[1] J. Bear, J. Dowding and E. Shriberg (1992) “Integrating Multiple Knowledge Sources for Detection and Correction of Repairs in Human-Computer Dialog,”Proceedings of 32nd Annual Meeting of ACL, 1992, pp. 56-63.
[2] J.S. Chang, Z.D. Chen and S.D. Chen (1991) “A Method of Word Identification for Chinese by Constraint Satisfaction and Statistical Optimization Techniques,” Proceedings of ROCLING, 1991, pp. 147-165.
[3] H.H. Chen and J.C. Lee (1996) “Identification and Classification of Proper Nouns in Chinese Texts,” Proceedings of 16th International Conference on Computational Linguistics, 1996, pp. 222-229.
[4] K.J. Chen and S.H. Liu (1992) “Word Identification for Mandarin Chinese Sentences,” Proceedings of 14th International Conference on Computational Linguistics, 1992, pp. 101-107. [5] K. Chui (1995) “Repair in Chinese
Conversation,” Proceedings of the Second International Symposium on Language in Taiwan, 1995, pp. 75-96.
[6] C.K. Fan and W.H. Tsai (1988) “Automatic Word Identification in Chinese Sentences by the Relaxation Technique,”Computer Processing of Chinese and Oriental Languages, Vol. 4, No. 1, 1988, pp. 33-56.
[7] B.A. Fox and R. Jasperson (1996) “A Syntactic Exploration of Repair in English Conversation,” Descriptive and Theoretical Models in the Alternative Linguistics, P.W. Davis (Ed.), John Benjamins Publishing, 1996.
[8] P. Heeman and J. Allen (1994) “Detecting and Correcting Speech Repairs,”Proceedings of 34th Annual Meeting of ACL, 1994, pp. 295-302. [9] D. Hindle (1983) “Deterministic Parsing of
Syntactic Nonfluencies,” Proceedings of 23rd Annual Meeting of ACL, 1983, pp. 123-128. [10] G.I. Kikui and T. Morimoto (1994)
“Similarity-Based Identification of Repairs in Japanese Spoken Language,” Proceedings of IEEE International Conference on Acoustic, Speech, and Signal Processing, 1994, pp. 915-918. [11] S. Kurohashi and M. Nagao (1992) “Dynamic
Programming Method for Analyzing Conjunctive Structure in Japanese,”Proceedings of 14th International Conference on
Computational Linguistics, 1992, pp. 170-176. [12] Y.S. Lee and H.H. Chen (1996) “Correcting
Chinese Repetition Repairs in Spontaneous Speech,” Proceedings of ROCLING, 1996, pp. 137-158.
[13] J.C. Lee, Y.S. Lee and H.H. Chen (1994) “Identification of Person Names in Chinese Texts,” Proceedings of ROCLING, 1994, pp. 203-222.
[14] W.J.M. Levelt (1983) “Monitoring and Self-Repair in Speech,”Cognition, Vol. 14, 1983, pp. 41-104.
[15] C. Nakatani and J. Hirschberg (1993) “A Speech-First Model for Repair Detection and Correction,” Proceedings of European Conference on Speech Communication and Technology, 1993a, pp. 1173-1176.
[16] C. Nakatani and J. Hirschberg (1993) “A Speech-First Model for Repair Detection and Correction,” Proceedings of 33rd Annual Meeting of ACL, 1993b, pp. 46-53.
[17] R. Sproat (1990) “An Application of Statistical Optimization with Dynamic Programming to Phonemic-Input-to-Character Conversion for Chinese,”Proceedings of ROCLING, 1990, pp. 377-390.
[18] M.S. Sun, D. Shen and C. Huang (1997) “Cseg&Tag1.0: A Practical Word Segmenter and POS Tagger for Chinese Texts,” Proceedings of Applied Natural Language Processing, 1997, pp. 119-126.