緒論 - 旅遊英語會話相似主題段落發掘之研究

1.1 研究背景與動機

在這個全球化蓬勃發展的年代，做為國際語言的英語，重要性不言可喻。由於數位學習是當今世界的趨勢，電腦輔助語言教學（Computer Aided Language Learning，簡寫為 CALL）的研究，也因而應運而生。CALL 的發展方向，不單單只是將英語教材數位化，更重要的是讓電腦以更有智慧的方式輔助使用者，增進學習的成效。

本研究所著重的範疇為「旅遊英語會話」的學習。市面上的旅遊英語會話書籍，對於某個情境，通常都只能提供一兩篇範例會話。然而，實際出國旅行時，

我們所遭遇的情況卻是千變萬化。因為語言是活的，同樣的對話主題，就算是在相似的情境下也常常是豐富而多變的。

本研究希望能建立一套自動化的方法，讓使用者在閱讀一篇連貫的會話時，

電腦能將該篇會話切割出許多小主題，並針對每一個主題段落舉一反三地從既有的語料庫中找出相似的會話段落推薦給使用者，讓使用者學習英語時得收觸類旁通之效。

評估文章間的語意相似度的相關研究，在資訊擷取（Information Retrieval）

以及自然語言處理（Natural Language Processing）領域中已經有相當長久的研究，也產生出許多經典的相似度比對方法，如 TF-IDF 的單字權重設定、機率模型與向量模型等等。然而，學者大部分都將研究對象設定為具有相當長度的文章，所比較的文章主題上也具有一定的差異，此與本研究所面臨的問題有許多本

首先，本研究進行相似度比對的會話段落常常只由兩三個句子所組成，相對於一篇完整的文章，可使用來判斷語意的資訊十分稀少。另外，為了推薦相似段落給使用者，語料庫中蒐集大量「情境相同」之範例會話，使具有相同主題的會話段落一再出現於不同的範例會話之中，造成許多過去學者使用之相似度比對方法將無法適用於本研究。例如，TF-IDF 權重設定就不適合應用在同質性高的語料庫之上。

基於上述討論，本研究提出不同於過去的方法進行短文語意相似度的比較，

並將其實際運用於英語語言教學之上。

1.2 研究目的

本研究的目的為設計一個相似段落發掘的方法。當使用者瀏覽一篇旅遊會話時，電腦能自動將此會話切割為許多主題獨立且完整的段落，並針對每個段落舉一反三地從現有的語料庫中找出內容不同，但「主題相似」的會話段落，推薦給使用者，讓使用者學習英語會話時能觸類旁通，達事半功倍之效。

如表 1，左手邊「原始對話」為使用者從資料庫中選取的一篇海關入境的旅 planning to be here?

About three weeks.

How long do you plan to stay here?

About one week.

Are you traveling Alone?

I am with a friend. We purpose for visiting Australia?

My wife and I are on vacation.

And are you here for business or pleasure?

Just a vacation.

Is your visit for business or pleasure?

Pleasure, sir.

在文檔中旅遊英語會話相似主題段落發掘之研究 (頁 9-12)