• 沒有找到結果。

第二章 文獻探討

2.1 關鍵詞擷取

傳統 TF-IDF 方法經常使用在擷取關鍵詞。TF-IDF 假設一篇文章中,重要 關鍵詞有特異性性質,在一篇文章中會重複出現,但在其他篇文章中較少出現,

則可視為該文章中的主要關鍵詞。但此方法適合應用在長文章,例如:新聞、雜

誌文章等。而近年興起的社群媒體中,使用者習慣發表短篇文章,且經常使用縮 寫字和文法錯誤的文字,因此[4]考慮短篇文章中存在少量關鍵詞,TF-IDF 無法 處理短文章、縮寫字和錯字的問題,便以[5]方法做延伸,加入文字詞向量特徵,

利用分群演算法將相似字詞群聚,解決因文章過短和文法錯誤無法擷取關鍵字問 題。

PageRank 方 法 原 是 用 來 擷 取 網 路 中 重 要 節 點 網 站 , TextRrank[6] 運 用 PageRank 的處理概念用來擷取一篇文章中重要關鍵詞,此方法根據連結文章中

7

字詞與鄰居字詞的關係,建立一個字詞網絡,字詞對應的節點間以隨機慢走的方 式彼此互相傳遞分數,直到分數收斂為止。此方法需要決定如何建立字詞網絡,

字詞與字詞間的連線權重會影響擷取出的關鍵詞結果。

[9]則是從搜尋引擎的搜尋紀錄中,找出經常出現的語句樣板,像是 birthplace of ___,底線可以填入地名命名實體。因此,若文章中出現此種字詞片段樣式,

能夠以此語言樣板擷取出命名實體關鍵字詞。

目前幾種常見的擷取關鍵詞方法,有計算字詞重要性的TF-IDF,語句樣板 方法,或是將命名實體當關鍵詞在知識庫查詢,這些方法雖能夠找出文章中關鍵 詞,但是卻無法找出關鍵詞的同義詞或是相關詞,而那些詞卻會影響新聞事實的 擷取效果。

Word2vector[12]提出將字詞以向量形式表示,此方法透過 skip-gram 模型學 習文章中詞彙與詞彙間同時出現的機率值,並使用類神經網路訓練出固定維度的 字詞向量模型,不同於以往使用 bag-of-word 方式來表達字詞特徵,特徵表達限 制在詞彙出現次數表現上。 以向量形式表示的字詞在相似度計算上較傳統 bag-of-word 有更佳的準確度,因此本研究基於文章中已找出的關鍵字詞,計算

文章中其他字詞與關鍵詞相似度,擷取出同義字。

事實資訊擷取方法

文章中的命名實體常能代表敘述內容的重要語意,以往提出的方法常利用字 典找出命名實體當成主詞或受詞,[2]認為此方式只有當文章中的字詞跟字典詞

8

彙相同才能辨識出,而文章常會有錯字,導致字典辨識效率不佳,將造成找回的 命名實體結果個數太少。因此[2]方法結合子字串比對方式和相似度計算方法來 提升命名實體辨識率。此方法雖能精準辨識出文章中的命名實體,但是受限於字 典無法有效快速更新,仍無法辨識出新穎詞彙。

[1]主要目的是從 Wikipedia 的條目文章中之基本資料表格擷取出 RDF。RDF 是表達兩個物件之間的關係,此方法透過外部DBpedia 知識庫來得知表格中任一 筆條目之基本資料兩欄位間的關係,進而推論此關係到具有相同欄位資料表格的 其他條目資料。但只用此方式進行推論不一定得到正確關係,因此再使用分類方 法來預測判定此關係是否成立。此方法雖然可以找出物件關係,但限定於 Wikipedia 中基本資料表的欄位關係且需要使用外部知識庫,且使用樣板方式做

學習,在新聞更新快速且非結構化資料中,此方法無法有效擷取出新聞事實。

[7]從英文新聞文章和評論中,利用 Wikipedia 外部資源找出存在於文章和 評論裡的實體名詞,再利用傳統詞性標註和字彙相依性分析結果,定義三種簡易 字彙相依性規則,用來擷取出實體名詞的面向詞。此方法使用知識庫為依據,如 果文章中出現不存在知識庫中的名詞,則無法被辨識出該名詞。此外,文章中的 關鍵詞並非一定由單個名詞組成,此方法無法擷取出多個名詞組合的關鍵詞。採 用字彙相依性規則擷取面向詞或描述詞,缺點是字彙相依性關係是一個詞對應到 一個詞的關係,而面向詞和描述詞常會以多個名詞組成,若直接使用相依性規則 擷取面向詞和描述詞,會造成擷取出的字詞不完整。

9

[11]主要目的為從音樂文章擷取出預先定義好的命名實體類別,並從文章 中的單個句子擷取出兩個命名實體類別之間的事實關係。[11]使用 DBpedia 知 識庫並以DBpedia Spotlight 工具辨識出文章中存在於 DBpedia 的命名實體和其 類別,再擷取出兩命名實體間的字詞的相依性線,並將相依性線通過的字詞的 詞性當成兩命名實體類別間的關係模板。為避免模板擷取出錯誤資訊,透過從 多篇文章中擷取出模板,選取出經常出現的模板。擷取出模板後,透過DBpedia Spotlight 工具辨識出新文章中的命名實體,再以模板擷取出兩命名實體間的關

係字詞。

[14][15]以自行定義的 HTML 標籤模板來擷取候選查詢面向字詞,像是

<ul><li>item</li>…</li>模板可擷取網頁中顯示的清單列表,因此定義不同標籤 結構來擷取面向字詞。[14][15]認為面向字詞是重要性高,且常出現的字詞,因 此將查詢字詞透過搜尋引擎進行查詢,從回傳結果中以標籤模板擷取面向字詞。

利用預先定義好的語言模板規則擷取面向字詞,會受限於規則涵蓋範圍 而影響可以找到的面向字詞數量,而且只能從文字句型規則來尋找。而新聞文 章大多是非結構化資料,不同報社可能使用不同詞彙和不同語句結構來表達資 訊,因此對於需以特定字詞結構擷取關鍵詞的語言模板,用來擷取報導內文中 的面向詞和描述詞的適用性低。

[10]以 Twitter 為資料來源,對 Tweet 進行相依性分析,透過相依性分析 結果擷取Tweet 中的主詞、動詞和受詞作為事實詞組。[10]使用 Stanford NLP

10

tools 分析 Tweet 內文,以 nsubj 關係擷取出 Tweet 中動詞的主詞部分,以 dobj 關係擷取出動詞的受詞部分,然而相依性分析只能得到單一字詞與單一字詞之 間的關係,若只擷取單一字詞可能無法完整表達主詞、動詞、受詞意思,因此 透過其他用來描述主詞或受詞的相依性有向線,擷取出用來描述主詞、動詞、

受詞的其他描述詞,補足事實詞組的資訊。

在擷取事實資訊中,有些方法使用外部知識庫,但中文知識庫相對於英文 知識庫資源較為缺少。在資訊傳遞快速的媒體中,每天有大量網路用語或新詞出 現,如果知識庫的更新速度太慢,會降低擷取文章中事實資訊的數量,因此本論 文方法不採用外部知識庫。

[3]以英文新聞為資料來源,並以句子為單位,從報導中擷取出重要事實,

透過擷取文章中字詞特徵、句子特徵並設計最佳化函式進行重要句分數計算。該 研究統計使用者在文章中標註的重點句,得知多數重點句子通常落在文章中前 10%位置的句子,因此認為句子位置是判斷重要句的重要特徵。另外,在財經報 導中出現數字的句子通常是重點句,因此句子中是否有數字為一個重要特徵。在 字詞特徵中,該研究認為動詞是重要因素,並將動詞分為對話性動詞和單純動作 性動詞,其中對話性動詞為像是「report」、「mention」、「accuse」等動詞,句子 中出現該動詞可能隱含重要事實,因此作為一重要特徵。擷取特徵後,透過最佳 化函式運算出每項特徵值最佳權重,再透過計算句子分數挑選出前幾名當作事實

11

句。

[16]基於新聞報導從報導內文中擷取出主題事實句。該研究認為新聞報導中 應包含「何人」、「何地」、「何事」、「何時」、「何故」、「如何」六大資訊,結合新 聞標題字詞、句子所包含六大特徵資訊、句子上下文特徵以最佳化函式運算特徵 權重並計算句子分數。該研究統計大多數新聞標題的修辭,得知大多數新聞標題 採用陳述式修辭,並認為標題是新聞報導精髓且陳述式句子較能夠表達事實資訊,

因此基於新聞標題從報導中擷取出主題事實句。句子特徵包含句子在報導中出現 位置、句子長度、句子中字詞與新聞標題字詞相同的字詞數量比例、與六大資訊 相關的命名實體數量特徵。[16]實驗結果顯示新聞標題字詞、句子在報導中位置 特徵在挑選主題事實句中為重要因素。

自動摘要研究中經常以句子為單位進行分析,透過擷取關鍵詞、計數句子中 不同面向詞數量等方法,摘要出各種面向結論。而本研究以字詞為單位進行面向 詞和描述詞擷取,在字詞級別上的分析,能夠擷取出更準確、精煉資訊,但從報 導中較難直接擷取出目標字詞,因此結合重要事實句擷取的相關研究結果,以漸 進式方法先擷取出重要事實句,再基於事實句擷取出目標字詞。

12

相關文件