文件前置處理、文件特徵檔分析 - 企業部落格之自動化分類與推薦方法

3. 企業部落格之自動化分類與推薦方法

3.2. 文件前置處理、文件特徵檔分析

本研究透過空間向量概念來表示知識文件內容，經過文件前置處理的程序，將知

識文件統一轉換成由關鍵字和權重分數表示的文字特徵檔，進而運用此特徵檔於分類、推薦機制。圖3-4是文件前置處理、特徵檔分析流程，透過前置處理的步驟，刪除重複或不重要的文字，降低特徵檔中不必要資訊的出現，以減少在應用過程中的複雜度。

圖 3–4 文件前置處理模組 (一) 格式轉換

本研究使用部落格平台上之知識文件，這類知識文件皆為WEB HTML格式內容，故在使用知識內容之前，需要清除不必要之HTML Tag（<html></html>、<a></a>），且部落格文件內容隨技術演變，涵蓋內容越趨多元化，如圖檔、動畫、影片檔、外部嵌入元件（影片、Flash）等，無法涵蓋在本研究之空間向量表示範圍內，故須排除掉此類元素。將上述格式轉換處理後，可以萃取出知識文件之真正內容，以便進行後續分析處理。

(二) 斷詞

本研究針對中文內容之知識文件進行分類與推薦，以中文為例，詞為最小單位，

是最小有意義且可以自由使用的語言單位。本研究使用中研院之CKIP斷詞服務進行本文內容之斷詞，如圖3-5。CKIP為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文斷詞系統。有拾萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。分詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞，並解決分詞歧義問題，並提供該詞所對應中研院定義出一套”平衡語料庫詞類標記集”之詞類。

圖 3–5 實作斷詞功能系統

但CKIP限定僅能針對繁體中文之內容進行斷詞處理，故本研究僅針對企業部落格上繁體中文文件進行研究。此服務目前之斷詞正確率約為 95 %-96%[23]。

(三) 停用字過濾

在知識文件中，有些字詞經常性被的大量使用，但這些字詞無法代表文章的關鍵字，例如代名詞、be動詞或是冠詞。本步驟的目的即是移除此類字詞，根據研究學者提出的停用字列表，將文件中有出現在停用字列表的字詞移除。

(四) 複合名詞

中文名詞會有復合名詞情形發生，例如”金融”、”海嘯”，應為複合性名詞金融海嘯，此複合詞才具有文件內容代表性意義，故本研究會針對此類重要複合性名詞進行名詞合併動作。

(五) TF-IDF

TF-IDF主要是計算字詞在文件中的權重分數，TF是指字詞出現的頻率(Term Frequency)，一字詞在文章中出現愈多次，表示重要性愈高，IDF是指字詞的反文件頻率(Inverted Document Frequency)，表示字詞出現在其他文章的頻率，若某字詞在很多文件出現頻率都很高，即表示該字詞對於單篇文件的代表性並不高。

(六) 特徵詞選擇

根據TF-IDF計算各篇文件的字詞權重分數後，將字詞依權重降幕排序取Top N的方式挑選代表知識文件的特徵辭。如下表3-1所示：

表 3–1 文件特徵檔 Term Weight 太陽能 3.17545 市場 2.74075

能源 1.6394

多晶矽 1.23640

面板 0.97437

此表用來表示某文件之文件特徵檔，各文件由其特徵詞與特徵辭權重組成二維度的矩陣，以供後續分類、推薦分析。

3.3. 分類

本研究之分類模型使用監督式學習法，分類器透過已分類之訓練資料進行學習，

建構出各類別特徵檔，再將文件與各類別特徵檔以Cosine相似度計算法運算，求得該文件之歸屬類別。

3.3.1. 類別特徵檔分析

各類別特徵檔取得流程如圖3-6，計算類別內文件之特徵詞對類別的重要性，計算計算方式如公式3-1所述，計算完各特徵詞之權重之後，再依特徵詞權重降幕排序取 TOP N 做為該類別之特徵檔。

相似度計算範例如下：

在文檔中企業部落格文章之自動化分類與推薦 (頁 26-32)