TFIDF 法說明及於本研究中之運用

第三章研究設計

第五節 TFIDF 法說明及於本研究中之運用

以下將對本研究欲納入補強現行文本分析的 TFIDF 技術作介紹，

TFIDF（term frequency - inverse document frequency）並不獨立於內容分析法，而是透過電腦自動分析改善傳統人工分析，進一步加強分析能力的技術，所以可說本文是透過 TFIDF 進行內容分析法的研究。是一種常用於資料搜尋和與文字探勘（test mining）的加權技術。在搜索、文獻分類和其他相關領域（如圖書管理），已有長期的研究，且廣泛應用。

TFIDF 方法中，TF，也就是詞頻（term frequency）統計方面是於文本分析學界早有共識而不需進階技術的，而 IDF（inverse document frequency）的概念最早是由 Sparck Jones（1972）所提出。然而其未對 IDF 的演算法進行理論解釋，也沒有在此題目上作進一步深入研究。直至以 Salton 為首的學者多次撰寫專書與專文探討 TFIDF 技術在資訊檢索中的用途(Salton & Buckley, 1988; Salton, Fox, & Wu, 1983; Salton &

McGill, 1983)，TFIDF 技術才得以發揚，其實 IDF 的概念即是在特定條件下關鍵詞概率分佈的相對熵⁵⁹。

TFIDF 的概念為：如果某個詞或短語在一篇文章中的詞頻（Term Frequency，TF）高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。詞頻指的是某一個給定的詞語在該文件中出現的次數。IDF（Inverse Document Frequency，逆向文件頻率）則代表包含該給定詞語的文檔頻率，若包含詞條的文檔越少，IDF 越大，則說明詞條具有好的類別區分能力。

59 相對熵（Relative Entropy，亦稱 Kullback-Leibler Divergence)指衡量相同事件空間裡的兩個概率分佈的差異情況；以文本中的文字探勘技術而言，文本的集合母體即為一事件空間，而各字詞出現頻率與逆向文件頻率即為其概率分佈。

公式上而言，對於在某一特定文件裡的詞語來說，其詞頻可表示為：

其中是在文件中的出現次數，而右式分母則是在文件中包含的所有字詞（在此設為 k 個）出現次數之加總。

而某一特定詞語的 IDF，可以由總文件數目除以包含該詞語之文件的數目，再將結果取對數而得。其公式為：

其中 D 為母體的文件總數，則代表包含詞語的文件數目如果該詞語不在母體中，就會導致被除數為零，因此一般情況下使用。

綜上兩式，可得一特定詞語於資料母體之 TFIDF 為：

此技術可過濾掉常見的詞語，而保留重要的詞語。

舉例來說，假設蒐集 1000 篇新聞作為文件母體，其中一篇新聞提及中油調漲油價的問題，在此篇新聞中，「中油」一詞出現兩次，「油價」出現五次，「的」出現五十次，以詞頻 TF 而言，「中油」的 TF 為 5，「油價」為 4，「的」為 50。「的」出現的次數最多，但是「的」這個字在本篇文章中並不重要，於是必須以 IDF 修正之；IDF 方面，「中油」這個詞在 1000 篇新聞中個別出現十次，「油價」個別出現一次（即僅出現在一篇），「的」個別出現一千次（即每篇都出現），則 IDF 各別為「中油」log(1000/10) = 2，「油價」log(1000/1) = 3，「的」log(1000/1000)

= 0。個別的 TFIDF 為「中油」5「中油」000，「油價」4「油價」000，

「的」50 的」 = 0，可推論三者中「油價」在本篇新聞中最具重要性，

「中油」次之，「的」最不重要。

然而 TFIDF 的演算在中英文本的計算困難度上是有所差異的。對於英文文本而言，由於英文字詞是以空白為分隔，幾乎每個字本身即帶有完整的意義，所以只要以空格為切詞點即可切出單篇文章的所有字詞。但中文文本不但沒有空格作為切詞點，甚至字詞間的長度連續性也不定，如「下雨天天留客天留我不留」，根據不同的切詞方式，便會出現不同的意義，甚至是完全相反的。

由於中文的特殊性，且中文文化圈尚未有不經處理而能直接對一般中文文本進行 TFIDF 分析的權威性電腦軟體，所以現行在一般研究中進行文本字詞 TFIDF 的方法是較為複雜的。

以上為 TFIDF 演算法的說明，而針對文本運用 TFIDF 計算而得 TFIDF 最高的字詞通常即被作為被提取出來的主題詞（或稱關鍵詞），針對 TFIDF 主題提取，在臺灣有陳姿妤（2007）；黃純敏、楊存一、邱立豐（2002）；劉政璋、葉鎮源、柯皓仁、楊維邦（2005）進行相關研究。在中國大陸則有唐一之（2009）；廖浩、李志蜀、王秋野與張意（2007）；

羅傑、陳力、夏德麟與王凱（2006）皆是以 TFIDF 與其衍生或相關技術進行文本的主題提取與文本分類處理的技術探討。

以 TFIDF 提取主題詞的優點，若以前面所提到的內容分析法與紮根理論之優點與限制說明之，在於 TFIDF 能保留內容分析法中研究資料來源為資料記錄，且受外在影響小的優點（受外在影響亦是紮根理論的限制）；共通優點中方法嚴謹，重視邏輯的部分，由於其完全是以資訊科學理論為基礎，所以不受影響；更重要的是 TFIDF 能克服內容分析法與紮根理論皆有的研究者或編碼者的主觀性問題，且由於電腦能夠快速進行文本分析，所以不需抽樣，可針對能夠蒐集到的所有文本進行主題詞提取。

然而 TFIDF 並非能夠保留現行人工文本分析研究方法的所有優點與克服所有缺點，且無法取代內容分析法與紮根理論，僅能作為輔助，

針對 TFIDF 方法本身的缺陷，多以加權計算能力仍可改進作為批判點並提出新的演算法改進之（盧葦、彭雅，2007；羅傑等人，2006），而更進一步則是如司紅娜、姚力文與李向軍（2010）提出的字詞所在位置的前後文應包含進去同時考量權重，與同義詞互換問題。

然而 TFIDF 最明顯的缺點，該是無法推論文章本身的真正意涵。

若通篇文本皆是隱喻、譬喻，則 TFIDF 便無法判讀文本的主題詞，就算硬是算出一個值比較高的字詞，可能也只是比較多被使用來比喻的詞，而非文本所真正要講述的事物。

進行 TFIDF 的演算提取主題詞，在研究便有了對照的一個根據，

或能修正過度主觀的研究部分，亦或加強說明研究的結論。

而針對文本資料的分析，社會科學界現行的主流方法為內容分析法與此方法衍生之紮根理論。內容分析法源於傳播學研究發展出的新分析技術，此方法深入分析解構資料內容，從而剖析其意涵；紮根理論則是強調理論假設需建立於資料上，以及重視研究者的社會參與。

而內容分析法的基本定義，學術上可追溯到最早對內容分析法進行的系統性闡述，為 Berelson（1952，頁 18）在其著作中對內容分析法的定義：「對明確的傳播內容進行客觀性、系統化與定量描述的一種研究方法」⁶⁰。針對此說明，可對內容分析法整理出以下幾項重點：（一）

明確性：推理上，進行內容分析的資料需與假設有明確關係。（二）客觀性：研究中每一個步驟的進行都必須基於已訂定的明確的規則和秩序；且研究資料來源為現有的記錄，不會受主觀影響變動。（三）系統化：有系統的將資料進行分類編目與分析編碼，且內容或領目的採用

60 原文為「… a research technique for the objective, systematic, and quantitative description of the manifest content of communication …」

和捨棄，必須符合始終一致的法則。（四）定量描述：按規則對擬訂類目和分析單位加以計量，統計符號文字出現的次數，以達到準確的要求。經過質化的資料內容轉為量化數值的步驟後，推演敘述之。

內容分析法在技術應用上，主要有四點需特別注意的部分（許禎元，2003）：（一）類目建構：類目建構程序中需剔除與研究問題與假設無關的類目，並需符合「互斥」、「窮盡」與「可靠」三原則。（二）

界定分析單位：決定觀察、紀錄之對象與觀察途徑，以便釐清研究界域，規劃研究歷程。（三）信度與效度（四）編碼與登錄：將傳播內容歸類，為研究內容具體化的步驟。

內容分析法有其嚴謹且適用性高之優點，且因為其為一非親身訪談的研究法，不直接觀察或訪問人。所以研究時不會受到測量行動本身的干擾，被觀察的內容不會因為被觀察而有所反應而變化。同樣的，

研究者也不會因此太多受到外部力量而造成研究結果受到影響。

由上，若為一謹慎而細膩的內容分析研究，應可對文本進行完整的分析，但內容分析法仍有其美中不足與限制，在針對資料進行前設推理與假設驗證過程中，可能由於資料內容的複雜或隱晦不明，而使部分資料受到編碼者的主觀想法影響，而給予不適當的編碼。

前設推理假設尚可能造成對文本資料的不適用，筆者曾進行針對 2011 年初至 2012 年底的南海領海爭議國的外交文本中有宣示南海主權行為的內容分析，在想像中應該資料相當豐富；但或由於衝突各國在外交上意圖大事化小，在數篇外交文本資料僅有極少數資料能夠認為與宣示南海主權行為有關，甚至有些國家在外交上對南海議題根本沒有進行任何相關討論，而使研究價值顯得不足。

數量化與傳播過程遺漏也可能造成內容分析法僅分析人為建構的文字符號，而非文字符號外的結構意涵。而使資料的結構本質與實質

現象的認識出現差異。

而紮根理論有著能彌補以上部分缺憾的研究方法，但亦有相同，

抑或不及內容分析法的部分。紮根理論係由 Glaser 與 Strauss（1967）

提出，雖稱理論，實為一研究方法，此研究方法強調將研究的根基紮實建立在資料上。透過資料的收集與檢驗的連續過程，找尋資料中可突顯所欲研究現象的特質，比較資料間不同的特質，若發現相同者，

則歸納為同一或相似概念（紮根理論的分析單位為概念而非字、詞、

句）；若發現不同者，則探究造成差異的因素。

紮根理論相當重視研究結果是否能用來幫助了解現象及解決問題。

而與內容分析法相似的是從資料收集、假設驗證到理論建立，都嚴格

在文檔中第八屆立法委員質詢行為與臉書經營關係之研究 (頁 67-74)

第三章 研究設計

第五節 TFIDF 法說明及於本研究中之運用

第三章研究設計