第四章 以關鍵詞作為鑑別式語言模型之特徵
4.1 關鍵詞自動擷取方法
在電子設備迅速發展、資訊流通速度日益加快的時代,資訊的來源日趨多 樣化,且訊息量之龐雜已到了可以用「知識爆炸」來形容。
在這樣的情況下,處理各式訊息的工作若交由人工處理,將需耗費大量人 力與時間,且由於每個人的觀念或想法的差異,也未必能使資料得到具有一致性 的分析,甚至進一步處理資料成為有用的資訊。
因此,自動化處理各種資訊的方法應時而生,例如資訊檢索系統、摘要系 統,索引系統等等,可以對資料內容先行剖析,並依其主題或資料內容的相似度 進行分類。但在此之前,必須對資料內容進行一項前處理的動作,那就是斷詞 (Word Segmentation)。
斷詞的目的,是從資料中爬梳出承載訊息的最小單位,以供各項自動化系 統可以對資料內容作出分析,以決定後續的分類或處理。斷詞的正確性,將影響 其後各項自動化處理結果的正確性。以中文而言,其斷詞的難度較英文來得高,
這是由於英文的詞與詞之間以空白(Space)字元作為間隔,而中文則無。此外,中 文詞典(Lexicon)中詞彙之長度較短,詞意較不明顯。
關鍵詞擷取則是在斷詞的同時,擷取其中重要性可能較高的詞彙。目前關 鍵詞擷取方法主要有幾種:
(1) 詞庫比對:對照事先建立的詞典(Lexicon)擷取關鍵詞。
(2) 文法剖析:利用文法規則,對照事先建立的詞典擷取關鍵詞。
(3) 統計式分析:計算詞頻以作為判斷。
(4) 關鍵詞自動擷取:根據字的排列規則,選擇其中重複出現次數較多的排 列方式。
第1、2 種方法都需依賴事先建立的詞典,無法擷取出詞典中未定義的詞彙,
因此無法因應當前資料的內容擷取關鍵詞;第 3、4 種方法則不需仰賴詞典,因 此可以因應當前資料的內容擷取關鍵詞,即使資料中出現新生詞彙,也不受影響。
關鍵詞自動擷取方法可以不受詞典限制,依文本(Context)內容擷取關鍵詞,
較切合文本本身特性。在鑑別式語言模型訓練中,特徵對辨識結果的排序有決定 性的影響,若能找出最切合文本內容的特徵,應對排序的正確性有所助益。因此,
筆者認為利用文本本身詞彙使用模式的重複性所設計的關鍵詞自動擷取方法,其 所擷取出的關鍵詞,可作為鑑別式語言模型的特徵。
關 鍵 詞 自 動 擷 取 方 法 的 目 標 在 於 找 出 最 長 的 重 複 出 現 字 串(Maximum Repeated Pattern),其方法為[Tseng 1997]:
將一個中文字(Character)視為一個標記(Token),而 n 個連續的字所形成的詞 則視為 n 個連續標記(n-token)。其演算法如下:
z 步驟一:將輸入字串轉換為兩個連續標記(2-token)之串列
z 步驟二:合併 n 個連續標記(n-token)成為 n+1 個連續標記(n+1-token),
直到無法合併為止
z 步驟三:過濾不合規則的辭彙,其餘留存辭彙即為擷取結果
關鑑詞自動擷取過程如圖4-1 中之範例所示,以此方法擷取關鍵詞,可以自 動取得最長重複字串,除了不需依賴詞典,也可以避免中文詞典中詞彙長度較 短、詞意較不明顯之問題。
圖4-1 關鍵詞自動擷取範例
一開始先將輸入字串拆解成一個個以字為單位(Unit)的個體,接著將相鄰的 兩個個體合併,並記錄它們在輸入字串中的出現次數。
其次,過濾掉出現次數小於預設閥值(Threshold)之個體。這些個體的出現次 數小於閥值,且即使未來將其與相鄰個體合併,其出現次數也不會高於預設閥 值,例如「DB」的出現次數為 1,它的前一個相鄰個體「CD」的出現次數為 3,
在它們合併為「CDB」後,其出現次數僅僅為 1,小於預設閥值,故可捨棄。
在捨棄出現次數小於預設閥值的個體,並保留出現次數高於或等於預設閥 值的個體後,便繼續回到合併的步驟。合併與過濾的過程不斷重複遞迴,直至沒 有相鄰的個體可以合併為止。例如圖 4-1 中,就字串「ABCDBACDABCD」而 言,「CD」這個標記出現三次,其中第二個「CD」在形成二個連續標記(2-token) 後,雖出現次數高於預設閥值,但它已無法再與相鄰個體合併為三個連續標記 (3-token) ,因此,「CD」立即被視為一個擷取出的關鍵詞;與此同時,第一個「CD」
與第三個「CD」因為尚能繼續與相鄰個體合併,所以都與相鄰之「BC」合併為
「BCD」,進入三個連續標記(3-token)階段繼續受到檢視。
最後的擷取結果,得到「ABCD」與「CD」這兩個關鍵詞。使用這個方法 擷取關鍵詞的優點,在於關鍵詞是經由文本內容字串不斷遞迴所產生,不必依賴 外來詞典資訊,一方面可以取得訓練語料之語言習慣,一方面則是可以掌握到詞 典中不存在之新生詞彙或流行用語。