第五章 查詢結果摘要方法
5.1 事實資訊摘要方法
關於查詢結果摘要的方法,本論文採用本研究室過去在網頁搜尋結果重要面 向事實內容自動擷取之研究技術 SR-Summarization [20]。此篇論文是針對使用者 給予的查詢主體以及多個事實面向,透過搜尋引擎得到查詢結果,以查詢結果中 的文字敘述片段(snippet)作為資料來源,提出評估文字敘述片段在一般面向上重 要性分數和事實面向上重要性分數的計算方法,分別產生查詢關鍵字一般面向資 訊摘要及面向事實資訊摘要。如圖 12 所示,使用者以“harry potter”為查詢關鍵字,
並且指定查詢面向為“actors”和“awards”,透過 SR-Summarization 提供一般面向資 訊摘要,描述 harry potter 是一系列的奇幻小說,且作者為英國作家 J.K. Rowling,
關於 actors 提供的事實面向資訊摘要,則列出參與 harry potter 演出的名單,關於 awards 提供的事實面 向資訊摘要,則提到 harry potter 為美 國 “Teen Choice Awards(青少年票選獎)”得主。
圖 12 SR-Summarization 摘要結果
SR-Summarization 評估文字敘述片段在事實面向上重要性分數時會同時考慮 面向代表性分數以及事實資訊性分數。
<1> 文字片段面向代表性分數
計算文字敘述片段在面向 f 的面向代表性分數時,首先取得文字敘述片段中 的代表字詞,接著計算每個代表字詞 w 在 f 的面向代表性分數並加總,即為文字 敘述片段在 f 的面向代表性分數。而計算代表字詞 w 在 f 的面向代表性分數時,
同時考慮字詞 w 在面向 f 的資料來源中出現的頻率,並考慮該出現頻率是否大於 w 在其他面向之資料來源中出現的頻率,若字詞 w 在面向 f 的資料來源中出現的
頻率很大,且相對於其他面向的資料來源中出現的頻率較大,則代表字詞 w 在面 向 f 中具有代表性。
<2> 文字片段事實資訊性分數
計算文字敘述片段在面向 f 的面向事實資訊性分數時,則是計算文字敘述片 段中每個代表字詞 w 的面向事實資訊性分數並加總,即為該文字敘述片段的面向
39
事實資訊性分數。而計算代表字詞 w 的面向事實資訊性分數時,是考慮字詞 w 在 面向 f 的資料來源中,相對於全部面向資料來源的機率分布情形,若字詞 w 集中 出現在面向 f,而其他面向很少出現字詞 w,則代表字詞 w 很可能是面向 f 的重要 資訊字詞。相反地,當字詞 w 平均出現在各個面向中,則字詞 w 為面向 f 上的重 要資訊字詞可能性較小。
基於上述 SR-Summarization 方法評估文字敘述片段在事實面向的重要性分數 時,必須相對其他面向同時進行考慮。因此,當使用者提出一個問題句後,利用 本論文的方法擷取出問題句的查詢主體字詞,以及查詢面向字詞,若要運用 SR-Summarization 的事實資訊摘要方法,則需產生查詢主體字詞的其他面向字 詞,方能有效的利用 SR-Summarization 方法產生各個面向的事實資訊摘要,並擷 取使用者詢問的面向事實資訊摘要,做為答案提供給使用者。
方法流程如圖 13 所示,首先會對擷取的查詢主體字詞產生候選查詢主體面 向字詞,並計算每個候選查詢主體面向字詞的分數。為了避免挑選的候選查詢主 體面向字詞面向相似,本研究會將候選查詢主體面向字詞進行分群,最後挑選前 x 高分且落在不同群的候選查詢主體面向字詞,當作查詢主體字詞的其他對照面
向字詞。接著利用問題句的查詢主體字詞、問題句的查詢面向字詞,以及查詢主 體字詞的其他面向字詞,利用 SR-Summarization 產生問題句的查詢面向事實資訊 摘要。
圖 13 查詢結果摘要方法流程圖