事實資訊摘要方法

第五章查詢結果摘要方法

5.1 事實資訊摘要方法

關於查詢結果摘要的方法，本論文採用本研究室過去在網頁搜尋結果重要面向事實內容自動擷取之研究技術 SR-Summarization [20]。此篇論文是針對使用者給予的查詢主體以及多個事實面向，透過搜尋引擎得到查詢結果，以查詢結果中的文字敘述片段(snippet)作為資料來源，提出評估文字敘述片段在一般面向上重要性分數和事實面向上重要性分數的計算方法，分別產生查詢關鍵字一般面向資訊摘要及面向事實資訊摘要。如圖 12 所示，使用者以“harry potter”為查詢關鍵字，

並且指定查詢面向為“actors”和“awards”，透過 SR-Summarization 提供一般面向資訊摘要，描述 harry potter 是一系列的奇幻小說，且作者為英國作家 J.K. Rowling，

關於 actors 提供的事實面向資訊摘要，則列出參與 harry potter 演出的名單，關於 awards 提供的事實面向資訊摘要，則提到 harry potter 為美國 “Teen Choice Awards(青少年票選獎)”得主。

圖 12 SR-Summarization 摘要結果

SR-Summarization 評估文字敘述片段在事實面向上重要性分數時會同時考慮面向代表性分數以及事實資訊性分數。

<1> 文字片段面向代表性分數

計算文字敘述片段在面向 f 的面向代表性分數時，首先取得文字敘述片段中 的代表字詞，接著計算每個代表字詞 w 在 f 的面向代表性分數並加總，即為文字 敘述片段在 f 的面向代表性分數。而計算代表字詞 w 在 f 的面向代表性分數時，

同時考慮字詞 w 在面向 f 的資料來源中出現的頻率，並考慮該出現頻率是否大於 w 在其他面向之資料來源中出現的頻率，若字詞 w 在面向 f 的資料來源中出現的

頻率很大，且相對於其他面向的資料來源中出現的頻率較大，則代表字詞 w 在面 向 f 中具有代表性。

<2> 文字片段事實資訊性分數

計算文字敘述片段在面向 f 的面向事實資訊性分數時，則是計算文字敘述片 段中每個代表字詞 w 的面向事實資訊性分數並加總，即為該文字敘述片段的面向

事實資訊性分數。而計算代表字詞 w 的面向事實資訊性分數時，是考慮字詞 w 在 面向 f 的資料來源中，相對於全部面向資料來源的機率分布情形，若字詞 w 集中 出現在面向 f，而其他面向很少出現字詞 w，則代表字詞 w 很可能是面向 f 的重要 資訊字詞。相反地，當字詞 w 平均出現在各個面向中，則字詞 w 為面向 f 上的重 要資訊字詞可能性較小。

基於上述 SR-Summarization 方法評估文字敘述片段在事實面向的重要性分數時，必須相對其他面向同時進行考慮。因此，當使用者提出一個問題句後，利用本論文的方法擷取出問題句的查詢主體字詞，以及查詢面向字詞，若要運用 SR-Summarization 的事實資訊摘要方法，則需產生查詢主體字詞的其他面向字詞，方能有效的利用 SR-Summarization 方法產生各個面向的事實資訊摘要，並擷取使用者詢問的面向事實資訊摘要，做為答案提供給使用者。

方法流程如圖 13 所示，首先會對擷取的查詢主體字詞產生候選查詢主體面向字詞，並計算每個候選查詢主體面向字詞的分數。為了避免挑選的候選查詢主體面向字詞面向相似，本研究會將候選查詢主體面向字詞進行分群，最後挑選前 x 高分且落在不同群的候選查詢主體面向字詞，當作查詢主體字詞的其他對照面

向字詞。接著利用問題句的查詢主體字詞、問題句的查詢面向字詞，以及查詢主體字詞的其他面向字詞，利用 SR-Summarization 產生問題句的查詢面向事實資訊摘要。

圖 13 查詢結果摘要方法流程圖

在文檔中針對問答社群中的事實問題句自動產生答案摘要之研究 (頁 45-48)

第五章 查詢結果摘要方法

5.1 事實資訊摘要方法

第五章查詢結果摘要方法