字根相關度權重 - 段落主題相似度比較 - 相似主題段落發掘方法論

3 相似主題段落發掘方法論

3.4 段落主題相似度比較

3.4.4 字根相關度權重

會話中，相似主題的段落，使用的字彙經常有相當大的差異，若單純比較段落之間的單字組成，將難以辨識出彼此間的主題相似度。例如以下兩段範例對話：

（段落一）

海關：” Are you carrying any spirits or tobacco?”

遊客：”No.”

（段落二）

海關：“Any alcohol or cigarettes?”

遊客：”No.”

兩段皆為海關詢問旅客是否攜帶菸酒入境，然而，包含的詞彙卻大相逕庭。在前段，「酒類」海關使用的詞彙為 spirits，後段為 alcohol；前段中的「香煙」為 tobacco，

後段則為 cigarettes。

上面的例子為同義字交替使用的情況，除此之外，兩兩主題相似的段落，也常常會使用「字義相似度不高」，但字彙「相關度高」的單字。

例如當海關詢問旅遊目的時，前來觀光的遊客可回答”I am here for pleasure.”

或是”I am on vacation.”。兩句話所描述的主題相似，字彙交集卻不甚明顯。其中，

pleasure 與 vacation，字義相差甚大，難以找出兩單字之間任何字義上的相似之處。但是在海關入境的情境中，pleasure 與 vacation 卻時常出現在相鄰的語句裡，

顯示兩單字間具有某種「相關性」。

據此，若我們能找出在某個情境下單字間的相關性，並在段落相似度比較時依此相關性擴充段落的特徵向量，將能有效提昇段落主題相似度比較的效果。

在本研究裡，我們假設「兩個相異的單字，共同出現在相同主題單元的情形越明顯，其相關度越高。」其中「主題單元」意指「只包含單一主題的會話片段」。對於英語會話，我們假設一個句子只討論一個主題，問句與緊接於其後的答句也只包含一個主題。據此，我們將「單一語句」與「相鄰的問答句」設定為主題單元，如表 8 為一篇英語旅遊會話，總共包含六個句子與四個主題單元。

表 10 主題單元範例

語句型態內容主題單元

（1）直述句 Please take out your customs declaration card. 單元 1

（2）問句 What's inside this luggage? 單元 2 比估計值檢定（Likelihood Ratio Test），判斷兩個字根之間的相關度 [Manning and Schütze 1999]。P(r₂|r₁)=p₁

我們以最大可能估計（Maximum Likelihood Estimate）求出 H1 中的 p 及 H2 二項分佈（Binomial Distribution），如公式（3-8）。

( )

⁽ⁿ ^k⁾

在[Mood et al. 1974: 440]中提到-2logλ接近於卡方分佈，故我們將原有的比值 λ，轉換為-2logλ。

自由度為 1 時的卡方臨界值如表 11。

表 11 自由度為 1 時的卡方臨界值 α 臨界值（critical value）

0.99 0.00016 0.95 0.0039

本研究將 95%與 99.9%的信心水準設定為門檻值，若-2logλ大於或等於 10.83（α≦0.001，即超過 99.9%的信心水準），我們將兩字根的相關度設定為 1。

若-2logλ低於 3.84（α>0.05，小於 95%的信心水準），我們將兩字根間的相關度設定為 0，以濾除相關性不明顯的字根對。若-2logλ介於 3.84 與 10.83 之間，我

經過多次嘗試後發現，動詞、介係詞、代名詞等詞性，因為通用性較高，常

重。

( )

ri,rj ⁼Correlation

⁽

r1,r2

⁾

^×^α

CW （3-15）

回到一開始所舉的例子。海關詢問旅客攜帶菸酒與否可能會有以下兩種問法：” Are you carrying any spirits or tobacco?”或” Any alcohol or cigarettes?”。依照上述的方法，在海關入境情境中，我們可以找到如表 12 的字根相關。本研究所提出之方法雖然無法找出同義字字根間的相關性（同義的單字很少會同時出現在相同的主題單元中），但卻可以明確地找出不同問句所使用的「煙」與「酒」的單字字根的相關性。

表 12 字根相關度範例

r1 r2 c1 c2 c12 -2logλ 單字相關度 cigarette spirit 7 4 2 11.05 1.00 tobacco alcohol 3 3 1 6.23 0.57 c₁：r₁於情境中出現次數

c2：r2於情境中出現次數

c₁₂：r₁與 r₂出現於同主題單元的次數

＊海關入境情境之主題單元總數（N）為 374

我們將兩段落進行字根擷取後，可將兩句話轉換為 S₁與 S₂兩個字根集合。

(

ar,you,carri,ani,spirit, tobacco,no

)

S₁ =

(

^ani,^alcohol,^or,^cigarett,^no

)

S₂ =

兩集合所共有的字根為

(

^ar,^carri,^ani,^spirit,^tobacco,^alcohol,^or,^cigarett,^no,^you

)

在表 13 中，我們將 S₁與 S₂兩集合轉換為向量SK₁ 與SK₂

，並比較設定字根相關度權重與否的差別。

表 13 設定字根相關度權重範例未使用字根相關度權重：

維度： ar carri ani spirit tobacco alcohol or cigarette no you

SK1

： 1 1 1 1 1 0 0 0 1 1

SK2

： 0 0 0 0 0 1 1 1 1 1 使用字根相關度權重：

維度： ar carri ani spirit tobacco alcohol or cigarette no you

SK1

： 1 1 1 1 1 0.57α 0 1.00α 1 1

SK2

： 0 0 0 1.00α 0.57α 1 1 1 1 1

由表 13 可知，透過字根相關度設定，將可擴增段落的字根特徵，增進具有相關字根的段落彼此間的向量相似度。

在文檔中旅遊英語會話相似主題段落發掘之研究 (頁 28-35)