• 沒有找到結果。

詞頻(TF)與逆向文件頻率(IDF)

第二章 文獻探討

第一節 詞頻(TF)與逆向文件頻率(IDF)

在自動索引研究與資訊檢索領域中,有許多計算詞彙權重的指標,以顯示詞 彙的重要性與辨識資源內容,或是成為索引詞的價值,其中又以 TF(Term Frequency) 和 IDF(Inverse Document Frequency)最為人所熟知。而這兩種方法源自於 Zipf(1949) 提出的「齊夫定律(law of Zipf)」:觀察個別詞彙在文章內的出現頻率,發現個別詞 彙的出現頻率和其排名存在著相乘等於常數的關係(as cited in Salton & McGill, 1983, p. 60)。除此之外,Luhn(1958)觀察使用者在書寫時運用詞彙的方式,發現某 些詞彙經常重複出現在文章中的現象(as cited in Salton & McGill, 1983, p. 60)。皆是 以詞頻作為測量詞彙重要性的基礎,進而衍生出測量詞彙重要性的相關指標。

經過不同領域學者的多次驗證,Kucera&Francis(1967)的研究中,得出有關於 詞彙使用的結論:文章內 20%的高頻率詞彙,負責 70%的詞彙使用率(as cited in Salton & McGill, 1983)。換言之,文章內詞彙的出現頻率是不均等的,而這種不均 等的現象,指出詞彙之間的差異,有助於找出具有區別力(resolving power、

discrimination)的詞彙,又能精確表達資源內容主旨,以利檢索或瀏覽效率的提升 (Salton & McGill, 1983)。總結來說,TF 和 IDF 都是基於詞彙的出現頻率來計算詞 彙權重的方法。

二、TF、IDF 與窮盡性、專指性的關係

從人工索引的角度來看,索引詞通常是由主題專家依據自身經驗與所受過的 專業訓練,從主題標目表中選擇一組事先複合過的控制詞彙,表達作品中最常被 談論的概念。在自動索引領域是以一般人在書寫時產生的經驗法則(重複重要概念,

和反覆使用相同詞彙的習慣)為依據(Salton & McGill, 1983),計算詞彙在文件內或 是文件之間的出現頻率作為決定索引詞的方法(Salton & Buckley, 1988)。

在選擇適當的索引詞之前,必須先考量到兩個索引描述特性:詞彙的窮盡性 (Exhaustivity)和詞彙的專指性(Specificity)。

詞彙的窮盡性(Exhaustivity)與索引詞的數量和索引詞涵蓋的層面範圍相關 (Sparck Jones, 1972;Salton & McGill, 1983;Soergel, 1994)。在人工索引的情況下,

學科專家藉由少量的索引詞表述作品內容,因此詞彙涵蓋的層面範圍較少,窮盡 性較低。而在自動索引的情況下,將文件中所有出現過的詞彙視為索引詞,涵蓋 的層面範圍也多,詞彙的窮盡性自然比在人工索引的情況下來的高(Sparck Jones, 1972;Salton & McGill, 1983)。

詞彙在單一文件中的出現頻率(詞頻 term frequency) 可作為決定索引詞的條件,

k 出現次數越少,則專指性越高(Sparck Jones, 1972;Salton & McGill, 1983;Salton

& Buckley, 1988)。

在使用者自由標記的環境下,標籤並非全都可以作為描述書籍內容的索引詞,

因此本研究利用 TF-IDF 演算法計算出每一個標籤的權重。TF 和詞彙的窮盡性相 關,IDF 和詞彙的專指性有關聯。所以計算出來的標籤權重會考慮到詞彙的窮盡性

本研究計算個別標籤在單一書籍內被使用者標記的次數代表 TF 值。書籍總數 除以個別標籤在書籍集合中的出現次數取對數後為 IDF 值。兩值相乘之結果即為 個別標籤的權重,對應字體大小範圍,以字體大小顯示標籤權重的高低,探討標 籤字體大小是否會影響使用者的標記行為以及選用的標籤品質。

第二節 社會性標記與標籤