• 沒有找到結果。

第二章 文獻探討

2.2 關鍵詞擷取技術

立 政 治 大 學

Na tiona

l Ch engchi University

字進行詞性標籤的加註,但有時文章較為複雜也有詞性判斷錯誤的狀況。一般來 說,前述步驟在不發生錯誤的狀況下,詞性標註的準確率可達到95%以上。

總結來說,預先處理的步驟可參照上圖。圖 2.1 為綜合大部份資訊處理相關領域的預先處理 步驟,而圖中左半部份也就是上述四個步驟是進行建構語料庫最常見的預先處理步驟,其餘 步驟則依研究目的而分別有所不同。

2.2 關鍵詞擷取技術

2.2.1 關鍵詞在學術著作中的定義與特徵

本文曾在第一章時提到,關鍵詞擷取技術是屬於資訊擷取技術的一環,不同於資訊擷 取技術的是,關鍵詞擷取技術是將研究範圍縮小集中於對關鍵詞進行擷取的工作。這裡所指 的“關鍵詞”本身並不限定於單一字詞,可以由一個單字或是一個片語(數個單字的集合)所構 成,而”關鍵詞“一詞,則是依據關鍵詞本身所處的主題範圍有著不同的解釋。在關鍵詞擷取 的研究中,關鍵詞的意義是代表與主題領域相關度高,能夠以此一詞作為代表整篇文章或整 個領域的詞藻,讓他人能夠看到此關鍵詞便能快速瞭解整篇文章的研究領域或是中心主題,

故此詞藻可能就是該文章或領域的專門術語(Terminology)或是較一般性的共通代表辭彙。

同時關鍵詞也具備了一些特性,以在同一篇文章內為例。關鍵詞常有的特性有出現頻 率高,或是以同義詞(synonym)或上位字(hyponym)、部份詞(meronym)等形式出現[10],但都 代表同一個意義,或是代表與其它字彙同時出現的比率高[11]等,都是關鍵詞常有的特徵。

此外,也有研究指出關鍵詞的組成多數以名詞居多[12]。正因為關鍵詞本身具有這些特性,

由這些特徵出發進行關鍵詞擷取的研究也不在少數。而這些研究大致可分為以自然語言處理 方法為基礎和以統計分析方法為基礎兩種[13]。將於接下來的章節分別介紹。

2.2.2 基於自然語言處理分析為主的關鍵詞擷取技術

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

此類的關鍵詞擷取技術,是基於人類學習外來語言的方式,從單字的詞性、字根的變 化到片語的構成以至於語意的瞭解,對原始文字資料層層標註,再以電腦分析這些標註,取 出有重要代表性意義的詞彙。而本文則以關鍵詞擷取技術常用的標註說明如下:

I. Tokenization(Sentence、Word Segmentation) - 定義原始資料中資訊被處理的最小單 位。以英文來說,一般就是以空白分隔的單字視為一個 token,各種特殊標點符號也可被 定義為token。

II. Morphological and Lexical Processing(Part of Speech Tagging 、 Word Sense Disambiguation)

(I) Part of Speech Tagging:詞性標註。舉例來說”design”此字同時可以當作名詞(Noun) 以及動詞(Verb)來使用,而”root”這個字可能隨著不同的詞性分別代表不同的意義。

詞性標註則是依照前後文已確定的詞性來分別對字彙進行註譯,同時也弭除詞性岐異 的問題。

(II) Stemming & Lemmatization:詞幹還原與詞根還原。 Stemming 是將字彙還原成 詞幹(root)的形式,而此詞幹可能是完整的單字,也有可能是單字的一部份,而 Lemmatization 則是將大小寫差異、動詞時態、名詞單複數以及形容詞比較級等統一 還原成字彙的標準詞根形式[14]。舉例來說,以動詞過去式”waited”為例,Stemming 和 Lemmatization 的結果都同樣為”wait”,但用另外一個動詞過去式”produced”為例 時,Stemming 的結果為”produc”而 Lemmatization 的結果為”produce”。

(III)Word Sense Disambiguation:消除歧義。由於詞性標註是以單字為單位,光憑詞 性標註有時還是會有無法辨識的問題。而消除歧義則是以相鄰字彙意義與其詞性標籤 為 基 礎 , 對 某 些 有 歧 義 的 字 彙 判 定 其 意 涵 , 而 這 方 法 也 是 監 督 式 學 習 的 方 法 (Supervised Learning)。

原始文件經過標註之後,便可進行關鍵詞擷取的步驟。由於關鍵詞多半包含名詞,在 Hulth[15]的研究中,就分別使用了 NP-Chunk、n-gram 以及 PoS Tag Pattern 以名詞為中心的 三種方式,來進行初步辭彙取出的單位。NP(Noun Phrase)-Chunk 的概念在於,關鍵詞往往

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

是具描述性的名詞,這樣的詞是由名詞或是形容詞搭配名詞的組合組成,然而 NP-Chunk 與 NP 的差別在於,NP-Chunk 通常包含的單字量比 NP 少,因為單一 NP-Chunk 無法包含其他 NP-Chunks,而 NP 卻有可能在包含其他較小的 NP(在語法上一個名詞就可以當成 NP,

Chunk 則是由名詞組或動詞組等所購成)。

第二種方式 n-gram 方法中的 n,代表的是可變動的正整數,指的是以 n 個單字為一個 擷取單位。Hulth 以類似 Turney[16]和 Frank [17] 的研究方法,將所有的 unigram, bigram 以 及trigram 的詞都先擷取出來之後,將這些詞若是頭尾含有 stop word(一些特定的詞,出現頻 率相當高而無實質代表意義,因此搜尋引擎等檢索系統並不加以索引,在資訊擷取上也常常 被忽略)的詞加以捨棄,最後在對剩下的詞進行 stemming 的處理以提高精確度。最後提出的 PoS Tag Pattern 方法,則是定義各種詞性標籤順序的組合形態,將符合的形態從文中直接抽 取出來。Hulth 訂定了共 56 種詞性標籤型態,而最常出現的有 Adjective Noun、Noun Noun 及 Noun 等形態。而無論是使用哪一種方法,選出來的候選詞最後須經過 Machine Learning 的方式,將訓練資料不斷的自我學習才能得到最終的結果。

2.2.3 基於統計分析為主的關鍵詞擷取技術

相對於基於機器理解的方法,以統計分析為主的擷取技術著重於大量統計的資訊如字 彙頻率的基礎上。在 Matsuo&Ishizuka 的研究中[11],作者認為,相較於一般高詞頻的字彙 (如 make, kind 等)可能與許多各種字彙在文中公平地共同出現,可能為關鍵詞的高頻詞(如 digital computer, imitation 等)只會與較少特定的字彙共同出現,如此一來,圍關鍵詞的高頻 詞與一般的高頻詞在算共同出現比例時就會有所偏差。作者是採用卡方分佈( - Measure) 的統計方法來計算偏差值,而後在對這些可能是關鍵詞的候選詞再進行 Clustering 的分析,

以提高方法的可靠度並同時更加凸顯關鍵詞與其它高頻詞的差別。

除了詞頻之外,另一個常用來評估字彙在文章中的重要性的指標 TF-IDF 也常常被用來 做關鍵詞擷取的運算。TF 和 IDF 為 Term Frequency 以及 Inverse Document Frequency 的縮 寫。TF-IDF 的概念在於,一般來說,詞頻 TF 越高的字可能在該文件的重要性相對較高,但 對多份文件構成的資料集來說,在某份文件中詞頻相當高的詞在其他份文件內卻都沒有出 現,如此來說,這個詞在整個資料集的分佈頻率便相對降低,因此只用某詞彙的總詞頻來衡 量重要性是不夠的,也需要考慮該詞彙在資料集中的文件分佈狀況。IDF 這個指標是代表該

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

詞彙在資料集之中的逆向文件分佈頻率,兩者相乘便能代表一個詞語普遍重要性的衡量標 準。TF-IDF 公式如下[1]:

其中nj 表示單字j 在文件 i 的出現次數。 nall 表示文件 i 所有具意義的總詞頻。N 代表所 有文件的總數 dfj :代表單字 j 有出現過的文章總數。最後結果為上述兩者的乘積:

每個詞彙計算所得之TF-IDF 值則為權重,值越高代表該詞彙在該資料集範圍下的重要性越 大。

2.2.4 建立於關鍵詞之上的特徵分析模型

Dutta[18]提出了一個新的觀點,對於關鍵詞(Keyword)一詞有著不同的看法。作者認 為,關鍵詞時時刻刻存在於我們的日常生活之中,而關鍵詞本身也有許多不同的定義,在維 基詞典Wiktionary 中:

1) 關鍵詞可能是一串文字裡的任何詞彙。

2) 關鍵詞可以是任何用來參照或連結到其他文字或資訊的詞彙; 它也可以是用來 描述文章或書籍主題的詞彙;抑或是在資訊系統內用來代表資料目錄的名稱(在資 訊領域之中)。

3) 關鍵詞是代表一個指令或函數的保留字(在程式設計領域內)。

4) 任何在文章中出現次數比平常多的詞彙也可稱為是關鍵詞(語言學領域)。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

而作者最終認為,關鍵詞可以用來代表一篇文章主題的精華。在一般搜尋電子格式的資訊系 統時,也常用以關鍵詞為主包含關鍵詞比對或是依照主題分類或字母順序瀏覽的方式運作,

這也表示了關鍵詞是相當適合作為主題的描述詞。

確定了關鍵詞本身的特性之後,Dutta 設計了對凸顯這些特徵的一套指標模型,其中包 含八個關鍵詞特徵指標,每個指標分別代表一種趨勢,此趨勢可說明在當某關鍵詞的一個指 標值偏高時,所顯示出此關鍵詞的特徵。在此針對八個指標的詳細定義分別說明如下:

(1) Integrated Visibility Index : 以 v(i)表示,定義為 Fr/Nr。此數值越高代表此關鍵 詞出現頻繁,且可能為主題中心的、領域共通的或是次要的詞彙。

(2) Momentary Visibility Index : 以 m(i)表示,定義為 Fr/Ar。此數值越高代表關鍵 詞出現頻繁,但孤立集中。此關鍵詞可作為某一種研究的中心,但對大範圍領 域來說卻只能作為其一分支。

(3) Potency Index : 以 p(i)表示,定義為 ln(Nr*Fr)。此數值越高代表關鍵詞數量多 和分佈率平均,代表領域共通且具高相關度的關鍵詞。

(4) Frequency Density Index : 以 d(i)表示,定義為 Fr/J。值越高代表整個文件空間 涵蓋率高。

(5) Occupancy Density Index : 以 o(i)表示,定義為 Ar/J。值越高代表整個文件時間 涵蓋率高。

(6) Keyword Density Index : 以 k(i)表示,定義為 Nr/J。 值越高代表高頻率能量。

(7) Stability Index : 以 s(i)表示,定義為 (Ar/Amax)*100。實際的分佈狀況與最高可 能分佈狀況的比值,值越高代表分佈的高穩定性。

(8) Scattering Index : 以 t(i)表示,定義為 Ar/Nr。此數值越高代表關鍵詞在整個主 題空間領域是分散的。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

在研究主題S 之下,從年份 y 到(y+l)之間的文章總數為 J,J 隨著 l的變化有所不同。i 則是 由1 到變數 n 之間的正整數,而 n 則是不同年份 l 之間的分別關鍵詞個數,Fr 為詞彙出現頻 率,Ar 為文件分佈頻率,Nr 是 l 年分間的關鍵詞總數。前兩者隨著關鍵詞本身而變化,後 者則是根據年份相應值也不同。Amax 則是用來預測某年份內最高的文件分佈頻率,為年份 l 與Nr 的乘積。

相關文件