經驗法則式推論模型

4. 第四章研究方法

4.2 經驗法則式推論模型

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2 經驗法則式推論模型

圖 4.12 為經驗法則式推論模型的系統架構與運行流程，首先將語料讀入系統後，透過數字轉換模組將數字正規化，接著進行中文斷詞或英文分詞，並標記實體名詞與解析句法結構，最後通過我們提出的計算方法與門檻值設定，計算推論關係的評分，由 0 至 1，

並根據門檻值獲得欲判斷的句子推論關係。

完成 4.1 節的元件之後，我們利用多種的分數評比，評估一個句子的意義是否能夠推論至另一個句子；我們提出一個簡單的概念為計算推論關係的基礎，認為句子當中每一個詞彙都表示一項資訊，當兩個句子裡相同的詞彙比例夠高時，則相信這兩個句子包含等價的資訊量，因而具有推論的關係。

將經過數字轉換後的句子進行中文斷詞或英文分詞，以 t₂產生的詞彙集合做為基底，

計算兩個句子詞彙重疊的比例，如下方公式(3)。公式(3)中 T₁及 T₂分別為兩個句子斷詞或分詞後的詞彙集合，透過該公式計算兩個句子所使用相同詞彙的比例，由 1 到 0 顯示相同比例的高低。

𝑓𝑤𝑜𝑟𝑑𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑇₁, 𝑇₂) =|𝑇₁∩ 𝑇₂|

|𝑇₂| , (3)

但公式(3)要求詞彙的完全相同才納入計算，如此一來可能遺漏掉部分相同的縮寫詞彙或因為各種原因被斷詞器斷開的情況，因此我們稍稍修改了公式(3)，加入詞彙部分相同的計算；而近義詞的使用，也減少了字面上的比對相同的機會，降低詞彙的重疊比例，

因此近義詞的判斷也加入到公式(3)的修改，使之成為公式(4)。公式(4)中𝑐(𝑤₁, 𝑤₂)為計算詞彙部分相同的分數，由 0 至 1 表示完全不相同到完全相同，若兩個詞彙完全相同或為近義詞，則給予完全相同的分數；若兩個詞彙僅部分相同，我們依照兩個詞彙相差的字元數來調整詞彙重疊比例。透過調整後的公式，我們預期可以增加詞彙比對相同的機

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

𝑆𝑐𝑜𝑟𝑒_{𝑒𝑛𝑡𝑎𝑖𝑙𝑚𝑒𝑛𝑡}= 𝑓′𝑤𝑜𝑟𝑑𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑇₁, 𝑇₂) − 𝑓_{𝑁𝐸𝐷𝑖𝑓𝑓}(𝑡₁, 𝑡₂), (7)

在先前曾提到否定詞對語句推論造成可能的影響，因此我們增加系統對否定詞的擷取，並設計簡單的規則判斷否定詞對計算推論關係的影響，適當地調整推論關係的評分。

我們認為兩個句子若包含不同數量的否定詞時，則較容易有不同意義的產生，而降低推論關係的可能性，因此再度加入一個函式針對否定詞做推論分數的調整，如下方公式(8) 所示。Negation 表示句子當中包含的否定詞集合，β為否定詞數量不相等時用以調整的 懲罰分數，其值介於 0 到 1，並將推論關係的判斷延伸成公式(9)。

𝑓_{𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛}(𝑡₁, 𝑡₂) = {𝛽, |𝑁𝑒𝑔𝑎𝑡𝑖𝑜𝑛_𝑡₁| ≠ |𝑁𝑒𝑔𝑎𝑡𝑖𝑜𝑛_𝑡₂|

0, 𝑒𝑙𝑠𝑒 , (8)

𝑆𝑐𝑜𝑟𝑒_{𝑒𝑛𝑡𝑎𝑖𝑙𝑚𝑒𝑛𝑡} = 𝑓′𝑤𝑜𝑟𝑑𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑇₁, 𝑇₂) − 𝑓_{𝑁𝐸𝐷𝑖𝑓𝑓}(𝑡₁, 𝑡₂) − 𝑓_{𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛}(𝑡₁, 𝑡₂), (9)

除了否定詞外，句子之間若存在反義詞，我們認為這樣是更加顯示兩個句子之間可能不具有推論的關係，因此我們嘗試分析句子之間的反義詞包含狀況，若包含反義詞，

則給予較重的懲罰分數，大幅調整推論關係的判斷。公式(10)顯示反義詞判斷的函式，

Antonym 表示一個詞彙透過 4.1 節提出的方法獲得的反義詞集合，γ則是反義詞存在時 的懲罰分數，其值為 1 至 2，而判斷推論關係的公式則變成公式(11)。

𝑓_{𝑎𝑛𝑡𝑜𝑛𝑦𝑚}(𝑇₁, 𝑇₂) = {𝛾, {𝑤1∈ 𝐴𝑛𝑡𝑜𝑛𝑦𝑚_𝑤₂|𝑤₁∈ 𝑇₁, 𝑤₂∈ 𝑇₂}

1, 𝑒𝑙𝑠𝑒 , (10)

𝑆𝑐𝑜𝑟𝑒_{𝑒𝑛𝑡𝑎𝑖𝑙𝑚𝑒𝑛𝑡}=𝑓′𝑤𝑜𝑟𝑑𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑇₁, 𝑇₂)− 𝑓_{𝑁𝐸𝐷𝑖𝑓𝑓}(𝑡₁, 𝑡₂)− 𝑓_{𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛}(𝑡₁, 𝑡₂)

𝑓_{𝑎𝑛𝑡𝑜𝑛𝑦𝑚}(𝑇₁, 𝑇₂) , (11)

前一小節曾提及主詞與受詞位置可能影響句子語意上的，因此我們在前處理便標記出實體名詞的索引，並且我們認為當推論分數較高時，代表句子之間的詞彙使用非常相

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

近，此時若實體名詞發生錯位，則較容易影響兩個句子語意的相似程度，如圖 4.13，因 此增加一個函式判斷索引值的迥異，藉以調整推論關係的評分，如公式(12)。公式中 i 代表實體名詞於句子中的位置，m 和 n 為 NE_Order 的索引值，δ為範圍 1 到 2 的懲罰 分數，λ為使用該函式的推論分數門檻值。透過上述的各種語言資訊的使用，最後合併成一項推論關係的計算公式(13)，將推論關係的程度以 0 至 1 的分數顯示高低，我們預期該方法能有效地判定語句間的推論關係。

t1：台灣出口至印度成長 28.6%

t2：印度從台灣出口成長率可達 28.6%

𝑁𝐸_𝑂𝑟𝑑𝑒𝑟_𝑡₂ = [台灣：0, 印度：1]

𝑁𝐸_𝑂𝑟𝑑𝑒𝑟_𝑁𝐸_𝑡2_{𝑖𝑛 𝑡}₁ = [台灣：1, 印度：0]

圖 4.13 實體名詞位置比對範例

𝑓_{𝑁𝐸𝑜𝑟𝑑𝑒𝑟}(𝑡₁, 𝑡₂) = ∏ 𝑓𝑁𝐸𝑂rder𝑃𝑒𝑛𝑎𝑙𝑡𝑦(𝑖_m, 𝑖_𝑛)

𝑖_𝑚,𝑖_𝑛∈𝑁𝐸𝑂𝑟𝑑𝑒𝑟𝑁𝐸𝑡2 𝑖𝑛 𝑡1 𝑎𝑛𝑑 𝑚 <𝑛

, (12)

𝑓𝑁𝐸𝑂rder𝑃𝑒𝑛𝑎𝑙𝑡𝑦(𝑖_𝑚, 𝑖_𝑛) = {𝛿, 𝑖_𝑛 − 𝑖_𝑚 < 0 and 𝑆𝑐𝑜𝑟𝑒_{𝑒𝑛𝑡𝑎𝑖𝑙𝑚𝑒𝑛𝑡} > 𝜆

1, 𝑒𝑙𝑠𝑒 ,

𝑆𝑐𝑜𝑟𝑒_{𝑒𝑛𝑡𝑎𝑖𝑙𝑚𝑒𝑛𝑡} =𝑓′𝑤𝑜𝑟𝑑𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑇₁, 𝑇₂)− 𝑓_{𝑁𝐸𝑒𝐷𝑖𝑓𝑓}(𝑡₁, 𝑡₂)− 𝑓_{𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛}(𝑡₁, 𝑡₂)

𝑓_{𝑎𝑛𝑡𝑜𝑛𝑦𝑚}(𝑇₁, 𝑇₂) × 𝑓_{𝑁𝐸𝑜𝑟𝑑𝑒𝑟}(𝑡₁, 𝑡₂) , (13)

在文檔中中英文語句語意推論 - 政大學術集成 (頁 37-40)

4. 第四章 研究方法

4.2 經驗法則式推論模型

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2 經驗法則式推論模型

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4. 第四章研究方法

立政治大學

立政治大學

立政治大學