詞頻(TF)與逆向文件頻率(IDF)

第二章文獻探討

第一節詞頻(TF)與逆向文件頻率(IDF)

在自動索引研究與資訊檢索領域中，有許多計算詞彙權重的指標，以顯示詞彙的重要性與辨識資源內容，或是成為索引詞的價值，其中又以 TF(Term Frequency) 和 IDF(Inverse Document Frequency)最為人所熟知。而這兩種方法源自於 Zipf(1949) 提出的「齊夫定律(law of Zipf)」：觀察個別詞彙在文章內的出現頻率，發現個別詞彙的出現頻率和其排名存在著相乘等於常數的關係(as cited in Salton & McGill, 1983, p. 60)。除此之外，Luhn(1958)觀察使用者在書寫時運用詞彙的方式，發現某些詞彙經常重複出現在文章中的現象(as cited in Salton & McGill, 1983, p. 60)。皆是以詞頻作為測量詞彙重要性的基礎，進而衍生出測量詞彙重要性的相關指標。

經過不同領域學者的多次驗證，Kucera＆Francis(1967)的研究中，得出有關於詞彙使用的結論：文章內 20％的高頻率詞彙，負責 70％的詞彙使用率(as cited in Salton & McGill, 1983)。換言之，文章內詞彙的出現頻率是不均等的，而這種不均等的現象，指出詞彙之間的差異，有助於找出具有區別力(resolving power、

discrimination)的詞彙，又能精確表達資源內容主旨，以利檢索或瀏覽效率的提升 (Salton & McGill, 1983)。總結來說，TF 和 IDF 都是基於詞彙的出現頻率來計算詞彙權重的方法。

二、TF、IDF 與窮盡性、專指性的關係

從人工索引的角度來看，索引詞通常是由主題專家依據自身經驗與所受過的專業訓練，從主題標目表中選擇一組事先複合過的控制詞彙，表達作品中最常被談論的概念。在自動索引領域是以一般人在書寫時產生的經驗法則(重複重要概念，

和反覆使用相同詞彙的習慣)為依據(Salton & McGill, 1983)，計算詞彙在文件內或是文件之間的出現頻率作為決定索引詞的方法(Salton & Buckley, 1988)。

在選擇適當的索引詞之前，必須先考量到兩個索引描述特性：詞彙的窮盡性 (Exhaustivity)和詞彙的專指性(Specificity)。

詞彙的窮盡性(Exhaustivity)與索引詞的數量和索引詞涵蓋的層面範圍相關 (Sparck Jones, 1972；Salton & McGill, 1983；Soergel, 1994)。在人工索引的情況下，

學科專家藉由少量的索引詞表述作品內容，因此詞彙涵蓋的層面範圍較少，窮盡性較低。而在自動索引的情況下，將文件中所有出現過的詞彙視為索引詞，涵蓋的層面範圍也多，詞彙的窮盡性自然比在人工索引的情況下來的高(Sparck Jones, 1972；Salton & McGill, 1983)。

詞彙在單一文件中的出現頻率(詞頻 term frequency) 可作為決定索引詞的條件，

k 出現次數越少，則專指性越高(Sparck Jones, 1972；Salton & McGill, 1983；Salton

& Buckley, 1988)。

在使用者自由標記的環境下，標籤並非全都可以作為描述書籍內容的索引詞，

因此本研究利用 TF-IDF 演算法計算出每一個標籤的權重。TF 和詞彙的窮盡性相關，IDF 和詞彙的專指性有關聯。所以計算出來的標籤權重會考慮到詞彙的窮盡性

本研究計算個別標籤在單一書籍內被使用者標記的次數代表 TF 值。書籍總數除以個別標籤在書籍集合中的出現次數取對數後為 IDF 值。兩值相乘之結果即為個別標籤的權重，對應字體大小範圍，以字體大小顯示標籤權重的高低，探討標籤字體大小是否會影響使用者的標記行為以及選用的標籤品質。

第二節社會性標記與標籤

在文檔中以視覺化標籤雲輔助圖書標記之使用者研究 (頁 17-20)

第二章 文獻探討

第一節 詞頻(TF)與逆向文件頻率(IDF)

第二節 社會性標記與標籤

第二章文獻探討

第一節詞頻(TF)與逆向文件頻率(IDF)

第二節社會性標記與標籤