第三章 研究設計
第五節 TFIDF 法說明及於本研究中之運用
以下將對本研究欲納入補強現行文本分析的 TFIDF 技術作介紹,
TFIDF(term frequency - inverse document frequency)並不獨立於內容 分析法,而是透過電腦自動分析改善傳統人工分析,進一步加強分析 能力的技術,所以可說本文是透過 TFIDF 進行內容分析法的研究。是 一種常用於資料搜尋和與文字探勘 (test mining)的加權技術。在搜 索、文獻分類和其他相關領域(如圖書管理),已有長期的研究,且廣 泛應用。
TFIDF 方法中,TF,也就是詞頻(term frequency)統計方面是於 文本分析學界早有共識而不需進階技術的,而 IDF(inverse document frequency)的概念最早是由 Sparck Jones(1972)所提出。然而其未對 IDF 的演算法進行理論解釋,也沒有在此題目上作進一步深入研究。直 至以 Salton 為首的學者多次撰寫專書與專文探討 TFIDF 技術在資訊檢 索中的用途(Salton & Buckley, 1988; Salton, Fox, & Wu, 1983; Salton &
McGill, 1983),TFIDF 技術才得以發揚,其實 IDF 的概念即是在特定條 件下關鍵詞概率分佈的相對熵59。
TFIDF 的概念為:如果某個詞或短語在一篇文章中的詞頻(Term Frequency,TF)高,並且在其他文章中很少出現,則認為此詞或者短 語具有很好的類別區分能力,適合用來分類。詞頻指的是某一個給定 的詞語在該文件中出現的次數。IDF(Inverse Document Frequency,逆 向文件頻率)則代表包含該給定詞語的文檔頻率,若包含詞條的文檔 越少,IDF 越大,則說明詞條具有好的類別區分能力。
59 相對熵(Relative Entropy,亦稱 Kullback-Leibler Divergence)指衡量相同事件空間裡的兩個概率分 佈的差異情況;以文本中的文字探勘技術而言,文本的集合母體即為一事件空間,而各字詞出現頻 率與逆向文件頻率即為其概率分佈。
56
公式上而言,對於在某一特定文件 裡的詞語 來說,其詞頻 可 表示為:
其中 是 在文件 中的出現次數,而右式分母 則是在文件 中 包含的所有字詞(在此設為 k 個)出現次數之加總。
而某一特定詞語的 IDF,可以由總文件數目除以包含該詞語之文件 的數目,再將結果取對數而得。其公式為:
其中 D 為母體的文件總數, 則代表包含詞語 的文件數目如果 該詞語不在母體中,就會導致被除數為零,因此一般情況下使用 。
綜上兩式,可得一特定詞語於資料母體之 TFIDF 為:
此技術可過濾掉常見的詞語,而保留重要的詞語。
舉例來說,假設蒐集 1000 篇新聞作為文件母體,其中一篇新聞提 及中油調漲油價的問題,在此篇新聞中,「中油」一詞出現兩次,「油 價」出現五次,「的」出現五十次,以詞頻 TF 而言,「中油」的 TF 為 5,「油價」為 4,「的」為 50。「的」出現的次數最多,但是「的」這 個字在本篇文章中並不重要,於是必須以 IDF 修正之;IDF 方面,「中 油」這個詞在 1000 篇新聞中個別出現十次,「油價」個別出現一次(即 僅出現在一篇),「的」個別出現一千次(即每篇都出現),則 IDF 各別 為「中油」log(1000/10) = 2,「油價」log(1000/1) = 3,「的」log(1000/1000)
= 0。個別的 TFIDF 為「中油」5「中油」000,「油價」4「油價」000,
「的」50 的」 = 0,可推論三者中「油價」在本篇新聞中最具重要性,
「中油」次之,「的」最不重要。
然而 TFIDF 的演算在中英文本的計算困難度上是有所差異的。對 於英文文本而言,由於英文字詞是以空白為分隔,幾乎每個字本身即 帶有完整的意義,所以只要以空格為切詞點即可切出單篇文章的所有 字詞。但中文文本不但沒有空格作為切詞點,甚至字詞間的長度連續 性也不定,如「下雨天天留客天留我不留」,根據不同的切詞方式,便 會出現不同的意義,甚至是完全相反的。
由於中文的特殊性,且中文文化圈尚未有不經處理而能直接對一 般中文文本進行 TFIDF 分析的權威性電腦軟體,所以現行在一般研究 中進行文本字詞 TFIDF 的方法是較為複雜的。
以上為 TFIDF 演算法的說明,而針對文本運用 TFIDF 計算而得 TFIDF 最高的字詞通常即被作為被提取出來的主題詞(或稱關鍵詞), 針對 TFIDF 主題提取,在臺灣有陳姿妤(2007);黃純敏、楊存一、邱 立豐(2002);劉政璋、葉鎮源、柯皓仁、楊維邦(2005)進行相關研 究。在中國大陸則有唐一之(2009);廖浩、李志蜀、王秋野與張意(2007);
羅傑、陳力、夏德麟與王凱(2006)皆是以 TFIDF 與其衍生或相關技 術進行文本的主題提取與文本分類處理的技術探討。
以 TFIDF 提取主題詞的優點,若以前面所提到的內容分析法與紮 根理論之優點與限制說明之,在於 TFIDF 能保留內容分析法中研究資 料來源為資料記錄,且受外在影響小的優點(受外在影響亦是紮根理 論的限制);共通優點中方法嚴謹,重視邏輯的部分,由於其完全是以 資訊科學理論為基礎,所以不受影響;更重要的是 TFIDF 能克服內容 分析法與紮根理論皆有的研究者或編碼者的主觀性問題,且由於電腦 能夠快速進行文本分析,所以不需抽樣,可針對能夠蒐集到的所有文 本進行主題詞提取。
58
然而 TFIDF 並非能夠保留現行人工文本分析研究方法的所有優點 與克服所有缺點,且無法取代內容分析法與紮根理論,僅能作為輔助,
針對 TFIDF 方法本身的缺陷,多以加權計算能力仍可改進作為批判點 並提出新的演算法改進之(盧葦、彭雅,2007;羅傑等人,2006),而 更進一步則是如司紅娜、姚力文與李向軍(2010)提出的字詞所在位 置的前後文應包含進去同時考量權重,與同義詞互換問題。
然而 TFIDF 最明顯的缺點,該是無法推論文章本身的真正意涵。
若通篇文本皆是隱喻、譬喻,則 TFIDF 便無法判讀文本的主題詞,就 算硬是算出一個值比較高的字詞,可能也只是比較多被使用來比喻的 詞,而非文本所真正要講述的事物。
進行 TFIDF 的演算提取主題詞,在研究便有了對照的一個根據,
或能修正過度主觀的研究部分,亦或加強說明研究的結論。
而針對文本資料的分析,社會科學界現行的主流方法為內容分析 法與此方法衍生之紮根理論。內容分析法源於傳播學研究發展出的新 分析技術,此方法深入分析解構資料內容,從而剖析其意涵;紮根理 論則是強調理論假設需建立於資料上,以及重視研究者的社會參與。
而內容分析法的基本定義,學術上可追溯到最早對內容分析法進行的 系統性闡述,為 Berelson(1952,頁 18)在其著作中對內容分析法的 定義:「對明確的傳播內容進行客觀性、系統化與定量描述的一種研究 方法」60。針對此說明,可對內容分析法整理出以下幾項重點:(一)
明確性:推理上,進行內容分析的資料需與假設有明確關係。(二)客 觀性:研究中每一個步驟的進行都必須基於已訂定的明確的規則和秩 序;且研究資料來源為現有的記錄,不會受主觀影響變動。(三)系統 化:有系統的將資料進行分類編目與分析編碼,且內容或領目的採用
60 原文為「… a research technique for the objective, systematic, and quantitative description of the manifest content of communication …」
和捨棄,必須符合始終一致的法則。(四)定量描述:按規則對擬訂類 目和分析單位加以計量,統計符號文字出現的次數,以達到準確的要 求。經過質化的資料內容轉為量化數值的步驟後,推演敘述之。
內容分析法在技術應用上,主要有四點需特別注意的部分(許禎 元,2003):(一)類目建構:類目建構程序中需剔除與研究問題與假 設無關的類目,並需符合「互斥」、「窮盡」與「可靠」三原則。(二)
界定分析單位:決定觀察、紀錄之對象與觀察途徑,以便釐清研究界 域,規劃研究歷程。(三)信度與效度(四)編碼與登錄:將傳播內容 歸類,為研究內容具體化的步驟。
內容分析法有其嚴謹且適用性高之優點,且因為其為一非親身訪 談的研究法,不直接觀察或訪問人。所以研究時不會受到測量行動本 身的干擾,被觀察的內容不會因為被觀察而有所反應而變化。同樣的,
研究者也不會因此太多受到外部力量而造成研究結果受到影響。
由上,若為一謹慎而細膩的內容分析研究,應可對文本進行完整 的分析,但內容分析法仍有其美中不足與限制,在針對資料進行前設 推理與假設驗證過程中,可能由於資料內容的複雜或隱晦不明,而使 部分資料受到編碼者的主觀想法影響,而給予不適當的編碼。
前設推理假設尚可能造成對文本資料的不適用,筆者曾進行針對 2011 年初至 2012 年底的南海領海爭議國的外交文本中有宣示南海主權 行為的內容分析,在想像中應該資料相當豐富;但或由於衝突各國在 外交上意圖大事化小,在數篇外交文本資料僅有極少數資料能夠認為 與宣示南海主權行為有關,甚至有些國家在外交上對南海議題根本沒 有進行任何相關討論,而使研究價值顯得不足。
數量化與傳播過程遺漏也可能造成內容分析法僅分析人為建構的 文字符號,而非文字符號外的結構意涵。而使資料的結構本質與實質
60
現象的認識出現差異。
而紮根理論有著能彌補以上部分缺憾的研究方法,但亦有相同,
抑或不及內容分析法的部分。紮根理論係由 Glaser 與 Strauss(1967)
提出,雖稱理論,實為一研究方法,此研究方法強調將研究的根基紮 實建立在資料上。透過資料的收集與檢驗的連續過程,找尋資料中可 突顯所欲研究現象的特質,比較資料間不同的特質,若發現相同者,
則歸納為同一或相似概念(紮根理論的分析單位為概念而非字、詞、
句);若發現不同者,則探究造成差異的因素。
紮根理論相當重視研究結果是否能用來幫助了解現象及解決問題。
而與內容分析法相似的是從資料收集、假設驗證到理論建立,都嚴格
而與內容分析法相似的是從資料收集、假設驗證到理論建立,都嚴格