特徵擷取 - 問題句分類方法 - 針對問答社群中的事實問題句自動產生答案摘要之研究

第三章問題句分類方法

3.2 特徵擷取

為了挑選出兩類別的代表字詞作為特徵字詞，首先分別蒐集屬於兩類別的問題句，以𝑄_𝑓表示所有蒐集的事實問題句集合，若總共取 n 個事實問題句，每個事 實問題句以𝑞_{𝑓_𝑖}表示(i=1,2,…,n)，則𝑄_𝑓={𝑞_{𝑓_1}, 𝑞_{𝑓_2},…, 𝑞_{𝑓_𝑛}}，以𝑄_𝑛𝑓表示所有蒐 集的非事實問題集合，若總共取 n 個非事實問題句，每個非事實問題句以𝑞_{𝑛𝑓_𝑖}表 示(i=1,2,…,n)，則𝑄_𝑛𝑓={𝑞_{𝑛𝑓_1}, 𝑞_{𝑛𝑓_2},…, 𝑞_{𝑛𝑓_𝑛}}。接著將兩類別問題集合內的問題 經過問題前處理後，共可以得到 m 個相異的字詞，每個字詞以𝑤_𝑗表示 (j=1,2,…,m)。對字詞𝑤_𝑗分別計算在𝑄_𝑓中的出現頻率，以及在𝑄_𝑛𝑓中的出現頻率，

一般來說，若字詞𝑤_𝑗出現頻率有達到一定程度時，則代表字詞𝑤_𝑗在此類別中具有一定程度的重要性。令字詞𝑤_𝑗在𝑄_𝑓中的出現機率以𝑃_𝑓(𝑤_𝑗)表示，計算方式如公式一所示，其中𝑤_𝑗 ∈ 𝑞_{𝑓_𝑖}表示𝑤_𝑗在問題句𝑞_{𝑓_𝑖}有出現。字詞𝑤_𝑗在𝑄_𝑛𝑓中的出現機率以 𝑃_𝑛𝑓(𝑤_𝑗)表示，計算方式如公式二所示，其中𝑤_𝑗 ∈ 𝑞_{𝑛𝑓_𝑖}表示𝑤_𝑗在問題句𝑞_{𝑛𝑓_𝑖}有出現。

𝑃_𝑓(𝑤_𝑗) =

^|{𝑞

^𝑓_𝑖

^|𝑞

^𝑓_𝑖

^∈𝑄

^𝑓

^{⋀ 𝑤}

^𝑗

^∈𝑞

^𝑓_𝑖

^}|

|𝑄

_𝑓

|

(公式一)

𝑃_𝑛𝑓(𝑤_𝑗) =

^|{𝑞

^{𝑛𝑓_𝑖}

^|𝑞

^{𝑛𝑓_𝑖}

^∈𝑄

^𝑛𝑓

^{⋀ 𝑤}

^𝑗

^∈𝑞

^{𝑛𝑓_𝑖}

^}|

|𝑄

_𝑛𝑓

|

(公式二)

【範例 3-1】挑選各類別重要字詞之範例

假設蒐集的事實問題句集合及非事實問題句集合經前處理後，如表 2 所示。

透過公式一及公式二計算所有字詞分別在兩類別中的出現機率，計算結果如表 3 所示。假設字詞𝑤_𝑗在其中一類別出現的機率大於 0.6，代表𝑤_𝑗為此類別的重要字詞，根據結果顯示，對於類別為事實問題句較為重要的字詞有 {What, is, information, of, character}，類別為非事實問題句較為重要的字詞有{What, is, of, your, opinion}。

表 2 事實問題句及非事實問題句集合問題句所屬集合問題句的內容

𝑄_𝑓 What is movie information of Inception 𝑄_𝑓 What is character information of Twilight 𝑄_𝑓 What is character information of Harry Potter 𝑄_𝑛𝑓 What is your honest opinion of Inception 𝑄_𝑛𝑓 What is your opinion of Twilight

𝑄_𝑛𝑓 What is your impression of movie Harry Potter

表 3 範例 3-1 與 3-2 計算結果

範例 3-1 範例 3-2

𝒘_𝒋 𝑷_𝒇(𝒘_𝒋) 𝑷_𝒏𝒇(𝒘_𝒋) 𝑲𝑳_𝒇(𝒘_𝒋) 𝑲𝑳_𝒏𝒇(𝒘_𝒋)

What 1 1 0.00 0.00

is 1 1 0.00 0.00

movie 0.33 0.33 0.00 0.00

information 1 0 2.02 -0.02

of 1 1 0.00 0.00

Inception 0.33 0.33 0.00 0.00 character 0.67 0 1.25 -0.02

Twilight 0.33 0.33 0.00 0.00 Harry 0.33 0.33 0.00 0.00 Potter 0.33 0.33 0.00 0.00

your 0 1 -0.02 2.02

honest 0 0.33 -0.02 0.52

opinion 0 0.67 -0.02 1.25 impression 0 0.33 -0.02 0.52

在這個範例中我們可以發現，若挑選在各類別中出現機率值較高重要的字詞作為代表字詞時，可能發生字詞𝑤_𝑗同時被挑選為事實問題句及非事實問題句重要字詞的情況。此情況代表字詞𝑤_𝑗並沒有足夠的類別代表性，或是字詞𝑤_𝑗事實上並沒有實質的語意，通常為句子中的冠詞、介系詞或助詞等。為了改善上述情況，

除了考慮字詞𝑤_𝑗在單一類別中出現的機率，同時相對考慮字詞𝑤_𝑗在另一個類別出現的機率是否有一定的差異。因此本論文透過 Kullback–Leibler divergence(以下簡稱 KL divergence)的計算挑選各類別中具代表特徵的字詞。

KL divergence 是用來比較兩個機率分布的差異程度，常用在資料檢索領域，

當文字出現的機率分佈差異值越大，則代表兩個文件集合的內容差異越大，反之則代表兩個文件集合的內容十分相似。因此我們利用 KL divergence 的概念，計算一個字詞𝑤_𝑗在兩個類別間的出現機率差異程度，當字詞𝑤_𝑗在𝑄_𝑓中的出現機率大，

並且相對於在𝑄_𝑛𝑓中的出現機率差異比例大，則這樣的字詞𝑤_𝑗為𝑄_𝑓中較具代表性的字詞。將一個字詞在𝑄_𝑓中的代表分數以𝐾𝐿_𝑓(𝑤_𝑗)表示，計算方式如公式三所示。

反之，亦可算出一個字詞在𝑄_𝑛𝑓中的代表分數，以𝐾𝐿_𝑛𝑓(𝑤_𝑗)表示，計算方式如公式四所示。在公式三及公式四中為了避免分子出現 0 的情況，因此對於字詞𝑤_𝑗在 𝑄_𝑓中的出現機率和在𝑄_𝑛𝑓中的出現機率同時加上常數 c。

𝐾𝐿_𝑓(𝑤_𝑗) = (𝑃_𝑓(𝑤_𝑗) + 𝑐)log

^𝑃

^𝑓

^(𝑤

^𝑗

^)+𝑐

𝑃

_𝑛𝑓

(𝑤

_𝑗

)+𝑐

(公式三)

𝐾𝐿_𝑛𝑓(𝑤_𝑗) = (𝑃_{𝑛_}_𝑓(𝑤_𝑗) + 𝑐)log

^𝑃

^𝑛𝑓

^(𝑤

^𝑗

^)+𝑐

𝑃

_𝑓

(𝑤

_𝑗

)+𝑐

(公式四)

【範例 3-2】挑選各類別代表字詞之範例

以範例 3-1 為例，假設 c 為 0.01，若字詞𝑤_𝑗在𝑄_𝑓中的出現機率𝑃_𝑓(𝑤_𝑗)大於 0.6，

且透過公式三計算字詞𝑤_𝑗在𝑄_𝑓中的代表分數𝐾𝐿_𝑓(𝑤_𝑗)大於 0.8，則表示字詞𝑤_𝑗為事實問題句具有代表特徵的字詞。同樣可計算字詞是否為非事實問題句的代表特徵字詞計算結果如表 3 所示。根據結果顯示，在範例 3-1 中同時被挑選為事實問題句及非事實問題句的重要字詞{What, is ,of}，所算出 KL 值並沒有大於一定程度，

因此並不會被挑選為代表字詞。最後，找出事實問題句的代表字詞有{information, character}，非事實問題句的代表字詞有{your, opinion}。

在文檔中針對問答社群中的事實問題句自動產生答案摘要之研究 (頁 24-28)

特徵擷取

第三章 問題句分類方法

3.2 特徵擷取

|{𝑞

|𝑞

∈𝑄

⋀ 𝑤

∈𝑞

}|

|𝑄

|

|{𝑞

|𝑞

∈𝑄

⋀ 𝑤

∈𝑞

}|

|𝑄

|

𝑃

(𝑤

)+𝑐

𝑃

(𝑤

)+𝑐

𝑃

(𝑤

)+𝑐

𝑃

(𝑤

)+𝑐

第三章問題句分類方法

^|{𝑞

^|𝑞

^∈𝑄

^{⋀ 𝑤}

^∈𝑞

^}|

^|{𝑞

^|𝑞

^∈𝑄

^{⋀ 𝑤}

^∈𝑞

^}|

^𝑃

^(𝑤

^)+𝑐

^𝑃

^(𝑤

^)+𝑐