• 沒有找到結果。

找出共同概念詞

第七章 非包含關係概念關聯句組建立

7.1 找出共同概念詞

本系統由包含任一查詢詞彙的句子中,找出和查詢詞彙一同出現的字詞,經 過處理之後,產生和兩個查詢詞彙高度相關的共同概念詞。本小節首先介紹如何 產生共同候選概念詞集,再介紹擷取高度相關共同概念詞的處理方法。

7.1.1 產生共同候選概念詞集

當使用者輸入之兩個查詢詞彙𝑄1以及𝑄2 被分類成非包含關係,系統會回傳 包含查詢詞彙𝑄1句子所成的集合𝑠𝑒𝑛(𝑄1),以及包含查詢詞彙𝑄2句子所成的集合 𝑠𝑒𝑛(𝑄2)。根據第四章 4.3.2 提出的方法,可取出每一個句子 𝑠 的概念詞集 𝑠𝑒𝑛_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑠)。我們對於𝑠𝑒𝑛(𝑄1)中每個句子的概念詞集進行聯集,得到𝑄1所 有概念詞集𝑐𝑎𝑛𝑑𝑖_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑄1),如算式 16;以同樣的方法,得到𝑄2所有概念詞 集𝑐𝑎𝑛𝑑𝑖_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑄2)。

𝑐𝑎𝑛𝑑𝑖_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑄𝑖) = ⋃∀𝑠∈𝑠𝑒𝑛(𝑄𝑖)𝑠𝑒𝑛_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑠), 𝑖: *1,2+ (算式 16)

38

兩個共同概念詞集取交集後,再去掉𝑄1和𝑄2兩個查詢詞彙,如算式 17 所示,

剩下來的字詞就是兩個查詢詞彙的共同候選概念詞集comcandi_C(𝑄1, 𝑄2)。

𝑐𝑜𝑚𝑐𝑎𝑛𝑑𝑖_𝐶(𝑄1, 𝑄2) = (𝑐𝑎𝑛𝑑𝑖_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑄1) ∩ 𝑐𝑎𝑛𝑑𝑖_𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝑄2)) − *𝑄1, 𝑄2+

(算式 17) 7.1.2 擷取高度相關的共同概念詞

接下來本系統會對共同候選概念詞集進行三個階段的篩選處理,取出和查詢 詞彙高度相關的共同概念詞,篩選方法說明如下。

[第一階段篩選]

取出的共同候選概念詞集中有些概念詞雖然符合複合字詞的型式但語意不 明顯或是無意義的,例如,‖follow sort algorithm‖。這類的字詞和查詢詞彙沒有 語意上的關聯,也無法了解該字詞想要表達的關係。我們採用的篩選方法是利用 本系統所使用的語句檢索系統,擷取句子中包含 𝐶𝑖 的句子所成之集合以𝑠𝑒𝑛(𝐶𝑖) 表示,並訂定一門檻值,我們設為 1。假設在整個資料來源中,|𝑠𝑒𝑛(𝐶𝑖)|的句數

小於門檻值,我們認為是語意不明顯的字詞,而予以刪除。

[第二階段篩選]

接下來我們以算式 18 計算各候選概念詞𝐶𝑖和兩個查詢詞彙𝑄1和𝑄2之 Mutual Information 值,以下稱 MI 值,評估共同候選概念詞 𝐶𝑖與查詢詞彙 𝑄𝑗的關聯程度。

39

𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄1, 𝑄2, 𝐶𝑖) = 𝑀𝐼(𝑄1, 𝐶𝑖) ∗ 𝑀𝐼(𝑄2, 𝐶𝑖) , 𝐶𝑖 ∈ 𝑐𝑜𝑚𝑐𝑎𝑛𝑑𝑖_𝐶(𝑄1, 𝑄2)

(算式 18)

𝑀𝐼(𝑄𝑗, 𝐶𝑖) = 𝑃(𝑄𝑗, 𝐶𝑖) ∗ 𝑙𝑜𝑔2𝑃(𝑄𝑃(𝑄𝑗,𝐶𝑖)

𝑗)𝑃(𝐶𝑖) (算式 19) 𝑃(𝑄𝑗, 𝐶𝑖) = 𝑠𝑓(𝑄𝑠𝑓(𝑄𝑗∩𝐶𝑖)

𝑗) (算式 20) 𝑃(𝑄𝑗) = |𝑎𝑙𝑙𝑆𝑒𝑛|𝑠𝑓(𝑄𝑗) (算式 21)

𝑃(𝐶𝑖) = |𝑎𝑙𝑙𝑆𝑒𝑛|𝑠𝑓(𝐶𝑖) (算式 22)

其中𝑀𝐼(𝑄𝑗, 𝐶𝑖)表示共同候選概念詞𝐶𝑖對查詢詞彙𝑄𝑗的 MI 值,j = 1 或 2;

𝑃(𝑄𝑗, 𝐶𝑖)表示出現𝑄𝑗 的句集中出現共同候選概念詞𝐶𝑖的機率;𝑃(𝑄𝑗)和𝑃(𝐶𝑖)分別 表示資料集中句子包含查詢詞彙𝑄𝑗及句子包含共同候選概念詞𝐶𝑖的機率。

我們認為一個共同概念詞𝐶𝑖與兩個查詢詞彙𝑄1及𝑄2出現機率都要有正相關 性,即𝑀𝐼(𝑄1, 𝐶𝑖)及𝑀𝐼(𝑄2, 𝐶𝑖)值皆必頇大於零的情況;如果共同候選概念詞𝐶𝑖於任一查詢詞彙的 MI 值是小於零或是等於零時,表示𝐶𝑖和任一查詢詞彙的出現 機率是負相關性或是獨立事件,我們會去除這類的候選概念詞𝐶𝑖

[第三階段篩選]

在共同候選概念詞集中,有些概念詞彼此存在語意上重複的現象。假設存在 概念詞𝐶1和𝐶2,我們以算式 23 來計算重複率。

𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝐶1, 𝐶2) =|𝑠𝑒𝑛(𝑄|𝑠𝑒𝑛(𝑄1,𝑄2,𝐶1)∩𝑠𝑒𝑛(𝑄1,𝑄2,𝐶2)|

1,𝑄2,𝐶1)∪𝑠𝑒𝑛(𝑄1,𝑄2,𝐶2)| (算式 23) 𝑠𝑒𝑛(𝑄1, 𝑄2, 𝐶𝑖) = 𝑠𝑒𝑛(𝑄1, 𝐶𝑖) ∪ 𝑠𝑒𝑛(𝑄2, 𝐶𝑖) (算式 24)

40

其中𝑠𝑒𝑛(𝑄1, 𝐶𝑖)表示𝑄1的句子集中有出現𝐶𝑖的句子所成的集合。𝑠𝑒𝑛(𝑄1, 𝑄2, 𝐶𝑖)表 示𝑄1的句子集中有出現𝐶𝑖的句子所成的集合和𝑄2的句子集中有出現𝐶𝑖的句子所

成的聯集。

若是重複率𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝐶1, 𝐶2)大於等於α值,在此α = 0.8,我們將刪除其中一 個概念詞𝐶𝑖。我們認為𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄1, 𝑄2, 𝐶𝑖)值較大的概念詞𝐶𝑖和兩個查詢詞彙有

較 高 的 關 聯 程 度 , 因 此 若 是 由 算 式 18 所 得 之𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄1, 𝑄2, 𝐶1) 大 於 𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄1, 𝑄2, 𝐶2),則保留概念詞𝐶1,去掉概念詞𝐶2,反之,則保留概念詞𝐶2,去 掉概念詞𝐶1

舉例來說,假設查詢詞彙為‖binary tree‖和‖red black tree‖時,共同候選概念 詞有‖binary search tree‖和‖search tree‖,若

o𝑣𝑒𝑟𝑙𝑎𝑝(𝑏𝑖𝑛𝑎𝑟𝑦 𝑠𝑒𝑎𝑟𝑐𝑕 𝑡𝑟𝑒𝑒, 𝑠𝑒𝑎𝑟𝑐𝑕 𝑡𝑟𝑒𝑒)大於等於 0.8,且

𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄1, 𝑄2, 𝑏𝑖𝑛𝑎𝑟𝑦 𝑠𝑒𝑎𝑟𝑐𝑕 𝑡𝑟𝑒𝑒)大於𝑞𝑢𝑒𝑟𝑦𝑅𝑒𝑙(𝑄1, 𝑄2, 𝑠𝑒𝑎𝑟𝑐𝑕 𝑡𝑟𝑒𝑒),則去 除共同候選概念詞‖search tree‖。

經過三階段的處理後,剩下的共同候選概念詞集我們稱為高度相關的共同概 念詞集𝑕𝑖𝑔𝑕𝑆𝑒𝑚𝑎𝑛𝑡𝑖𝑐_𝐶(𝑄1, 𝑄2),我們可以將𝑕𝑖𝑔𝑕𝑆𝑒𝑚𝑎𝑛𝑡𝑖𝑐_𝐶(𝑄1, 𝑄2)內的所有

概念詞留下來進行下一階段處理,或是保留前 k 名建立關聯句組,後面的實驗會 比較這兩種方法的效果。

41

相關文件