• 沒有找到結果。

經驗法則式推論模型

4. 第四章 研究方法

4.2 經驗法則式推論模型

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

4.2 經驗法則式推論模型

圖 4.12 為經驗法則式推論模型的系統架構與運行流程,首先將語料讀入系統後,透過數 字轉換模組將數字正規化,接著進行中文斷詞或英文分詞,並標記實體名詞與解析句法 結構,最後通過我們提出的計算方法與門檻值設定,計算推論關係的評分,由 0 至 1,

並根據門檻值獲得欲判斷的句子推論關係。

完成 4.1 節的元件之後,我們利用多種的分數評比,評估一個句子的意義是否能夠 推論至另一個句子;我們提出一個簡單的概念為計算推論關係的基礎,認為句子當中每 一個詞彙都表示一項資訊,當兩個句子裡相同的詞彙比例夠高時,則相信這兩個句子包 含等價的資訊量,因而具有推論的關係。

將經過數字轉換後的句子進行中文斷詞或英文分詞,以 t2產生的詞彙集合做為基底,

計算兩個句子詞彙重疊的比例,如下方公式(3)。公式(3)中 T1及 T2分別為兩個句子斷詞 或分詞後的詞彙集合,透過該公式計算兩個句子所使用相同詞彙的比例,由 1 到 0 顯示 相同比例的高低。

𝑓𝑤𝑜𝑟𝑑𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑇1, 𝑇2) =|𝑇1∩ 𝑇2|

|𝑇2| , (3)

但公式(3)要求詞彙的完全相同才納入計算,如此一來可能遺漏掉部分相同的縮寫詞 彙或因為各種原因被斷詞器斷開的情況,因此我們稍稍修改了公式(3),加入詞彙部分相 同的計算;而近義詞的使用,也減少了字面上的比對相同的機會,降低詞彙的重疊比例,

因此近義詞的判斷也加入到公式(3)的修改,使之成為公式(4)。公式(4)中𝑐(𝑤1, 𝑤2)為計 算詞彙部分相同的分數,由 0 至 1 表示完全不相同到完全相同,若兩個詞彙完全相同或 為近義詞,則給予完全相同的分數;若兩個詞彙僅部分相同,我們依照兩個詞彙相差的 字元數來調整詞彙重疊比例。透過調整後的公式,我們預期可以增加詞彙比對相同的機

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

24

𝑆𝑐𝑜𝑟𝑒𝑒𝑛𝑡𝑎𝑖𝑙𝑚𝑒𝑛𝑡= 𝑓′𝑤𝑜𝑟𝑑𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑇1, 𝑇2) − 𝑓𝑁𝐸𝐷𝑖𝑓𝑓(𝑡1, 𝑡2), (7)

在先前曾提到否定詞對語句推論造成可能的影響,因此我們增加系統對否定詞的擷 取,並設計簡單的規則判斷否定詞對計算推論關係的影響,適當地調整推論關係的評分。

我們認為兩個句子若包含不同數量的否定詞時,則較容易有不同意義的產生,而降低推 論關係的可能性,因此再度加入一個函式針對否定詞做推論分數的調整,如下方公式(8) 所示。Negation 表示句子當中包含的否定詞集合,β為否定詞數量不相等時用以調整的 懲罰分數,其值介於 0 到 1,並將推論關係的判斷延伸成公式(9)。

𝑓𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛(𝑡1, 𝑡2) = {𝛽, |𝑁𝑒𝑔𝑎𝑡𝑖𝑜𝑛𝑡1| ≠ |𝑁𝑒𝑔𝑎𝑡𝑖𝑜𝑛𝑡2|

0, 𝑒𝑙𝑠𝑒 , (8)

𝑆𝑐𝑜𝑟𝑒𝑒𝑛𝑡𝑎𝑖𝑙𝑚𝑒𝑛𝑡 = 𝑓′𝑤𝑜𝑟𝑑𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑇1, 𝑇2) − 𝑓𝑁𝐸𝐷𝑖𝑓𝑓(𝑡1, 𝑡2) − 𝑓𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛(𝑡1, 𝑡2), (9)

除了否定詞外,句子之間若存在反義詞,我們認為這樣是更加顯示兩個句子之間可 能不具有推論的關係,因此我們嘗試分析句子之間的反義詞包含狀況,若包含反義詞,

則給予較重的懲罰分數,大幅調整推論關係的判斷。公式(10)顯示反義詞判斷的函式,

Antonym 表示一個詞彙透過 4.1 節提出的方法獲得的反義詞集合,γ則是反義詞存在時 的懲罰分數,其值為 1 至 2,而判斷推論關係的公式則變成公式(11)。

𝑓𝑎𝑛𝑡𝑜𝑛𝑦𝑚(𝑇1, 𝑇2) = {𝛾, {𝑤1∈ 𝐴𝑛𝑡𝑜𝑛𝑦𝑚𝑤2|𝑤1∈ 𝑇1, 𝑤2∈ 𝑇2}

1, 𝑒𝑙𝑠𝑒 , (10)

𝑆𝑐𝑜𝑟𝑒𝑒𝑛𝑡𝑎𝑖𝑙𝑚𝑒𝑛𝑡=𝑓′𝑤𝑜𝑟𝑑𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑇1, 𝑇2)− 𝑓𝑁𝐸𝐷𝑖𝑓𝑓(𝑡1, 𝑡2)− 𝑓𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛(𝑡1, 𝑡2)

𝑓𝑎𝑛𝑡𝑜𝑛𝑦𝑚(𝑇1, 𝑇2) , (11)

前一小節曾提及主詞與受詞位置可能影響句子語意上的,因此我們在前處理便標記 出實體名詞的索引,並且我們認為當推論分數較高時,代表句子之間的詞彙使用非常相

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

25

近,此時若實體名詞發生錯位,則較容易影響兩個句子語意的相似程度,如圖 4.13,因 此增加一個函式判斷索引值的迥異,藉以調整推論關係的評分,如公式(12)。公式中 i 代表實體名詞於句子中的位置,m 和 n 為 NE_Order 的索引值,δ為範圍 1 到 2 的懲罰 分數,λ為使用該函式的推論分數門檻值。透過上述的各種語言資訊的使用,最後合併 成一項推論關係的計算公式(13),將推論關係的程度以 0 至 1 的分數顯示高低,我們預 期該方法能有效地判定語句間的推論關係。

t1:台灣出口至印度成長 28.6%

t2:印度從台灣出口成長率可達 28.6%

𝑁𝐸_𝑂𝑟𝑑𝑒𝑟𝑡2 = [台灣:0, 印度:1]

𝑁𝐸_𝑂𝑟𝑑𝑒𝑟𝑁𝐸𝑡2 𝑖𝑛 𝑡1 = [台灣:1, 印度:0]

圖 4.13 實體名詞位置比對範例

𝑓𝑁𝐸𝑜𝑟𝑑𝑒𝑟(𝑡1, 𝑡2) = ∏ 𝑓𝑁𝐸𝑂rder𝑃𝑒𝑛𝑎𝑙𝑡𝑦(𝑖m, 𝑖𝑛)

𝑖𝑚,𝑖𝑛∈𝑁𝐸𝑂𝑟𝑑𝑒𝑟𝑁𝐸𝑡2 𝑖𝑛 𝑡1 𝑎𝑛𝑑 𝑚 <𝑛

, (12)

𝑓𝑁𝐸𝑂rder𝑃𝑒𝑛𝑎𝑙𝑡𝑦(𝑖𝑚, 𝑖𝑛) = {𝛿, 𝑖𝑛 − 𝑖𝑚 < 0 and 𝑆𝑐𝑜𝑟𝑒𝑒𝑛𝑡𝑎𝑖𝑙𝑚𝑒𝑛𝑡 > 𝜆

1, 𝑒𝑙𝑠𝑒 ,

𝑆𝑐𝑜𝑟𝑒𝑒𝑛𝑡𝑎𝑖𝑙𝑚𝑒𝑛𝑡 =𝑓′𝑤𝑜𝑟𝑑𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑇1, 𝑇2)− 𝑓𝑁𝐸𝑒𝐷𝑖𝑓𝑓(𝑡1, 𝑡2)− 𝑓𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛(𝑡1, 𝑡2)

𝑓𝑎𝑛𝑡𝑜𝑛𝑦𝑚(𝑇1, 𝑇2) × 𝑓𝑁𝐸𝑜𝑟𝑑𝑒𝑟(𝑡1, 𝑡2) , (13)