3 相似主題段落發掘方法論
3.4 段落主題相似度比較
3.4.4 字根相關度權重
會話中,相似主題的段落,使用的字彙經常有相當大的差異,若單純比較段 落之間的單字組成,將難以辨識出彼此間的主題相似度。例如以下兩段範例對話:
(段落一)
海關:” Are you carrying any spirits or tobacco?”
遊客:”No.”
(段落二)
海關:“Any alcohol or cigarettes?”
遊客:”No.”
兩段皆為海關詢問旅客是否攜帶菸酒入境,然而,包含的詞彙卻大相逕庭。在前 段,「酒類」海關使用的詞彙為 spirits,後段為 alcohol;前段中的「香煙」為 tobacco,
後段則為 cigarettes。
上面的例子為同義字交替使用的情況,除此之外,兩兩主題相似的段落,也 常常會使用「字義相似度不高」,但字彙「相關度高」的單字。
例如當海關詢問旅遊目的時,前來觀光的遊客可回答”I am here for pleasure.”
或是”I am on vacation.”。兩句話所描述的主題相似,字彙交集卻不甚明顯。其中,
pleasure 與 vacation,字義相差甚大,難以找出兩單字之間任何字義上的相似之 處。但是在海關入境的情境中,pleasure 與 vacation 卻時常出現在相鄰的語句裡,
顯示兩單字間具有某種「相關性」。
據此,若我們能找出在某個情境下單字間的相關性,並在段落相似度比較時 依此相關性擴充段落的特徵向量,將能有效提昇段落主題相似度比較的效果。
在本研究裡,我們假設「兩個相異的單字,共同出現在相同主題單元的情形 越明顯,其相關度越高。」其中「主題單元」意指「只包含單一主題的會話片段」。 對於英語會話,我們假設一個句子只討論一個主題,問句與緊接於其後的答句也 只包含一個主題。據此,我們將「單一語句」與「相鄰的問答句」設定為主題單 元,如表 8 為一篇英語旅遊會話,總共包含六個句子與四個主題單元。
表 10 主題單元範例
語句型態 內容 主題單元
(1)直述句 Please take out your customs declaration card. 單元 1
(2)問句 What's inside this luggage? 單元 2 比估計值檢定(Likelihood Ratio Test),判斷兩個字根之間的相關度 [Manning and Schütze 1999]。P(r2|r1)=p1
我們以最大可能估計(Maximum Likelihood Estimate)求出 H1 中的 p 及 H2 二項分佈(Binomial Distribution),如公式(3-8)。
( )
(n k)在[Mood et al. 1974: 440]中提到-2logλ接近於卡方分佈,故我們將原有的比值 λ,轉換為-2logλ。
自由度為 1 時的卡方臨界值如表 11。
表 11 自由度為 1 時的卡方臨界值 α 臨界值(critical value)
0.99 0.00016 0.95 0.0039
本研究將 95%與 99.9%的信心水準設定為門檻值,若-2logλ大於或等於 10.83(α≦0.001,即超過 99.9%的信心水準),我們將兩字根的相關度設定為 1。
若-2logλ低於 3.84(α>0.05,小於 95%的信心水準),我們將兩字根間的相關度 設定為 0,以濾除相關性不明顯的字根對。若-2logλ介於 3.84 與 10.83 之間,我
經過多次嘗試後發現,動詞、介係詞、代名詞等詞性,因為通用性較高,常
重。
( )
ri,rj =Correlation(
r1,r2)
×αCW (3-15)
回到一開始所舉的例子。海關詢問旅客攜帶菸酒與否可能會有以下兩種問 法:” Are you carrying any spirits or tobacco?”或” Any alcohol or cigarettes?”。依照 上述的方法,在海關入境情境中,我們可以找到如表 12 的字根相關。本研究所 提出之方法雖然無法找出同義字字根間的相關性(同義的單字很少會同時出現在 相同的主題單元中),但卻可以明確地找出不同問句所使用的「煙」與「酒」的 單字字根的相關性。
表 12 字根相關度範例
r1 r2 c1 c2 c12 -2logλ 單字相關度 cigarette spirit 7 4 2 11.05 1.00 tobacco alcohol 3 3 1 6.23 0.57 c1:r1於情境中出現次數
c2:r2於情境中出現次數
c12:r1與 r2出現於同主題單元的次數
*海關入境情境之主題單元總數(N)為 374
我們將兩段落進行字根擷取後,可將兩句話轉換為 S1與 S2兩個字根集合。
(
ar,you,carri,ani,spirit, tobacco,no)
S1 =
(
ani,alcohol,or,cigarett,no)
S2 =
兩集合所共有的字根為
(
ar,carri,ani,spirit, tobacco,alcohol,or,cigarett,no,you)
S=
在表 13 中,我們將 S1與 S2兩集合轉換為向量SK1 與SK2
,並比較設定字根相 關度權重與否的差別。
表 13 設定字根相關度權重範例 未使用字根相關度權重:
維度: ar carri ani spirit tobacco alcohol or cigarette no you
SK1
: 1 1 1 1 1 0 0 0 1 1
SK2
: 0 0 0 0 0 1 1 1 1 1 使用字根相關度權重:
維度: ar carri ani spirit tobacco alcohol or cigarette no you
SK1
: 1 1 1 1 1 0.57α 0 1.00α 1 1
SK2
: 0 0 0 1.00α 0.57α 1 1 1 1 1
由表 13 可知,透過字根相關度設定,將可擴增段落的字根特徵,增進具有 相關字根的段落彼此間的向量相似度。