找出共同概念詞

第七章非包含關係概念關聯句組建立

7.1 找出共同概念詞

本系統由包含任一查詢詞彙的句子中，找出和查詢詞彙一同出現的字詞，經過處理之後，產生和兩個查詢詞彙高度相關的共同概念詞。本小節首先介紹如何產生共同候選概念詞集，再介紹擷取高度相關共同概念詞的處理方法。

7.1.1 產生共同候選概念詞集

當使用者輸入之兩個查詢詞彙𝑄₁以及𝑄₂ 被分類成非包含關係，系統會回傳包含查詢詞彙𝑄₁句子所成的集合𝑠𝑒𝑛(𝑄₁)，以及包含查詢詞彙𝑄₂句子所成的集合 𝑠𝑒𝑛(𝑄₂)。根據第四章 4.3.2 提出的方法，可取出每一個句子 𝑠 的概念詞集 𝑠𝑒𝑛_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑠)。我們對於𝑠𝑒𝑛(𝑄₁)中每個句子的概念詞集進行聯集，得到𝑄₁所有概念詞集𝑐𝑎𝑛𝑑𝑖_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑄₁)，如算式 16；以同樣的方法，得到𝑄₂所有概念詞集𝑐𝑎𝑛𝑑𝑖_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑄₂)。

𝑐𝑎𝑛𝑑𝑖_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑄_𝑖) = ⋃_{∀𝑠∈𝑠𝑒𝑛(𝑄}_𝑖₎𝑠𝑒𝑛_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑠), 𝑖: *1,2+ (算式 16)

兩個共同概念詞集取交集後，再去掉𝑄₁和𝑄₂兩個查詢詞彙，如算式 17 所示，

剩下來的字詞就是兩個查詢詞彙的共同候選概念詞集comcandi_C(𝑄₁, 𝑄₂)。

𝑐𝑜𝑚𝑐𝑎𝑛𝑑𝑖_𝐶(𝑄₁, 𝑄₂) = (𝑐𝑎𝑛𝑑𝑖_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑄₁) ∩ 𝑐𝑎𝑛𝑑𝑖_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑄₂)) − *𝑄₁, 𝑄₂+

(算式 17) 7.1.2 擷取高度相關的共同概念詞

接下來本系統會對共同候選概念詞集進行三個階段的篩選處理，取出和查詢詞彙高度相關的共同概念詞，篩選方法說明如下。

[第一階段篩選]

取出的共同候選概念詞集中有些概念詞雖然符合複合字詞的型式但語意不明顯或是無意義的，例如，‖follow sort algorithm‖。這類的字詞和查詢詞彙沒有語意上的關聯，也無法了解該字詞想要表達的關係。我們採用的篩選方法是利用本系統所使用的語句檢索系統，擷取句子中包含 𝐶_𝑖 的句子所成之集合以𝑠𝑒𝑛(𝐶_𝑖) 表示，並訂定一門檻值，我們設為 1。假設在整個資料來源中，|𝑠𝑒𝑛(𝐶_𝑖)|的句數

小於門檻值，我們認為是語意不明顯的字詞，而予以刪除。

[第二階段篩選]

接下來我們以算式 18 計算各候選概念詞𝐶_𝑖和兩個查詢詞彙𝑄₁和𝑄₂之 Mutual Information 值，以下稱 MI 值，評估共同候選概念詞 𝐶_𝑖與查詢詞彙 𝑄_𝑗的關聯程度。

𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄₁, 𝑄₂, 𝐶_𝑖) = 𝑀𝐼(𝑄₁, 𝐶_𝑖) ∗ 𝑀𝐼(𝑄₂, 𝐶_𝑖) , 𝐶_𝑖 ∈ 𝑐𝑜𝑚𝑐𝑎𝑛𝑑𝑖_𝐶(𝑄₁, 𝑄₂)

(算式 18)

𝑀𝐼(𝑄_𝑗, 𝐶_𝑖) = 𝑃(𝑄_𝑗, 𝐶_𝑖) ∗ 𝑙𝑜𝑔₂_𝑃(𝑄^𝑃(𝑄^𝑗^,𝐶^𝑖⁾

𝑗)𝑃(𝐶_𝑖) (算式 19) 𝑃(𝑄_𝑗, 𝐶_𝑖) = ^{𝑠𝑓(𝑄}_{𝑠𝑓(𝑄}^𝑗^∩𝐶^𝑖⁾

𝑗) (算式 20) 𝑃(𝑄_𝑗) = _{|𝑎𝑙𝑙𝑆𝑒𝑛|}^{𝑠𝑓(𝑄}^𝑗⁾ (算式 21)

𝑃(𝐶_𝑖) = _{|𝑎𝑙𝑙𝑆𝑒𝑛|}^{𝑠𝑓(𝐶}^𝑖⁾ (算式 22)

其中𝑀𝐼(𝑄_𝑗, 𝐶_𝑖)表示共同候選概念詞𝐶_𝑖對查詢詞彙𝑄_𝑗的 MI 值，j = 1 或 2；

𝑃(𝑄_𝑗, 𝐶_𝑖)表示出現𝑄_𝑗 的句集中出現共同候選概念詞𝐶_𝑖的機率；𝑃(𝑄_𝑗)和𝑃(𝐶_𝑖)分別表示資料集中句子包含查詢詞彙𝑄_𝑗及句子包含共同候選概念詞𝐶_𝑖的機率。

我們認為一個共同概念詞𝐶_𝑖與兩個查詢詞彙𝑄₁及𝑄₂出現機率都要有正相關性，即𝑀𝐼(𝑄₁, 𝐶_𝑖)及𝑀𝐼(𝑄₂, 𝐶_𝑖)值皆必頇大於零的情況；如果共同候選概念詞𝐶_𝑖對 於任一查詢詞彙的 MI 值是小於零或是等於零時，表示𝐶_𝑖和任一查詢詞彙的出現機率是負相關性或是獨立事件，我們會去除這類的候選概念詞𝐶_𝑖。

[第三階段篩選]

在共同候選概念詞集中，有些概念詞彼此存在語意上重複的現象。假設存在概念詞𝐶₁和𝐶₂，我們以算式 23 來計算重複率。

𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝐶₁, 𝐶₂) =^{|𝑠𝑒𝑛(𝑄}_{|𝑠𝑒𝑛(𝑄}¹^,𝑄²^,𝐶¹^{)∩𝑠𝑒𝑛(𝑄}¹^,𝑄²^,𝐶²^)|

1,𝑄₂,𝐶₁)∪𝑠𝑒𝑛(𝑄₁,𝑄₂,𝐶₂)| (算式 23) 𝑠𝑒𝑛(𝑄₁, 𝑄₂, 𝐶_𝑖) = 𝑠𝑒𝑛(𝑄₁, 𝐶_𝑖) ∪ 𝑠𝑒𝑛(𝑄₂, 𝐶_𝑖) (算式 24)

其中𝑠𝑒𝑛(𝑄₁, 𝐶_𝑖)表示𝑄₁的句子集中有出現𝐶_𝑖的句子所成的集合。𝑠𝑒𝑛(𝑄₁, 𝑄₂, 𝐶_𝑖)表示𝑄₁的句子集中有出現𝐶_𝑖的句子所成的集合和𝑄₂的句子集中有出現𝐶_𝑖的句子所

成的聯集。

若是重複率𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝐶₁, 𝐶₂)大於等於α值，在此α = 0.8，我們將刪除其中一個概念詞𝐶_𝑖。我們認為𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄₁, 𝑄₂, 𝐶_𝑖)值較大的概念詞𝐶_𝑖和兩個查詢詞彙有

較高的關聯程度，因此若是由算式 18 所得之𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄₁, 𝑄₂, 𝐶₁) 大於 𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄₁, 𝑄₂, 𝐶₂)，則保留概念詞𝐶₁，去掉概念詞𝐶₂，反之，則保留概念詞𝐶₂，去掉概念詞𝐶₁。

舉例來說，假設查詢詞彙為‖binary tree‖和‖red black tree‖時，共同候選概念詞有‖binary search tree‖和‖search tree‖，若

o𝑣𝑒𝑟𝑙𝑎𝑝(𝑏𝑖𝑛𝑎𝑟𝑦 𝑠𝑒𝑎𝑟𝑐𝑕 𝑡𝑟𝑒𝑒, 𝑠𝑒𝑎𝑟𝑐𝑕 𝑡𝑟𝑒𝑒)大於等於 0.8，且

𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄₁, 𝑄₂, 𝑏𝑖𝑛𝑎𝑟𝑦 𝑠𝑒𝑎𝑟𝑐𝑕 𝑡𝑟𝑒𝑒)大於𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄₁, 𝑄₂, 𝑠𝑒𝑎𝑟𝑐𝑕 𝑡𝑟𝑒𝑒)，則去除共同候選概念詞‖search tree‖。

經過三階段的處理後，剩下的共同候選概念詞集我們稱為高度相關的共同概念詞集𝑕𝑖𝑔𝑕𝑆𝑒𝑚𝑎𝑛𝑡𝑖𝑐_𝐶(𝑄₁, 𝑄₂)，我們可以將𝑕𝑖𝑔𝑕𝑆𝑒𝑚𝑎𝑛𝑡𝑖𝑐_𝐶(𝑄₁, 𝑄₂)內的所有

概念詞留下來進行下一階段處理，或是保留前 k 名建立關聯句組，後面的實驗會比較這兩種方法的效果。

在文檔中兩個專有詞彙關聯句自動擷取之研究 (頁 44-48)

第七章 非包含關係概念關聯句組建立

7.1 找出共同概念詞

第七章非包含關係概念關聯句組建立