• 沒有找到結果。

文件前置處理、文件特徵檔分析

3. 企業部落格之自動化分類與推薦方法

3.2. 文件前置處理、文件特徵檔分析

本研究透過空間向量概念來表示知識文件內容,經過文件前置處理的程序,將知

18

識文件統一轉換成由關鍵字和權重分數表示的文字特徵檔,進而運用此特徵檔於分 類、推薦機制。圖3-4是文件前置處理、特徵檔分析流程,透過前置處理的步驟,刪除 重複或不重要的文字,降低特徵檔中不必要資訊的出現,以減少在應用過程中的複雜 度。

圖 3–4 文件前置處理模組 (一) 格式轉換

本研究使用部落格平台上之知識文件,這類知識文件皆為WEB HTML格式內 容,故在使用知識內容之前,需要清除不必要之HTML Tag(<html></html>、<a></a>), 且部落格文件內容隨技術演變,涵蓋內容越趨多元化,如圖檔、動畫、影片檔、外部 嵌入元件(影片、Flash)等,無法涵蓋在本研究之空間向量表示範圍內,故須排除掉 此類元素。將上述格式轉換處理後,可以萃取出知識文件之真正內容,以便進行後續 分析處理。

(二) 斷詞

本研究針對中文內容之知識文件進行分類與推薦,以中文為例,詞為最小單位,

是最小有意義且可以自由使用的語言單位。本研究使用中研院之CKIP斷詞服務進行本 文內容之斷詞,如圖3-5。CKIP為一具有新詞辨識能力並附加詞類標記的選擇性功能 之中文斷詞系統。有拾萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等 資料。分詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞,並解 決分詞歧義問題,並提供該詞所對應中研院定義出一套”平衡語料庫詞類標記集”之詞 類。

圖 3–5 實作斷詞功能系統

但CKIP限定僅能針對繁體中文之內容進行斷詞處理,故本研究僅針對企業部落 格上繁體中文文件進行研究。此服務目前之斷詞正確率約為 95 %-96%[23]。

(三) 停用字過濾

20

在知識文件中,有些字詞經常性被的大量使用,但這些字詞無法代表文章的關鍵 字,例如代名詞、be動詞或是冠詞。本步驟的目的即是移除此類字詞,根據研究學者 提出的停用字列表,將文件中有出現在停用字列表的字詞移除。

(四) 複合名詞

中文名詞會有復合名詞情形發生,例如”金融”、”海嘯”,應為複合性名詞金融海 嘯,此複合詞才具有文件內容代表性意義,故本研究會針對此類重要複合性名詞進行 名詞合併動作。

(五) TF-IDF

TF-IDF主要是計算字詞在文 件中的權重分 數,TF是指字詞出現的頻率(Term Frequency),一字詞在文章中出現愈多次,表示重要性愈高,IDF是指字詞的反文件頻 率(Inverted Document Frequency),表示字詞出現在其他文章的頻率,若某字詞在很多 文件出現頻率都很高,即表示該字詞對於單篇文件的代表性並不高。

(六) 特徵詞選擇

根據TF-IDF計算各篇文件的字詞權重分數後,將字詞依權重降幕排序取Top N的 方式挑選代表知識文件的特徵辭。如下表3-1所示:

表 3–1 文件特徵檔 Term Weight 太陽能 3.17545 市場 2.74075

能源 1.6394

多晶矽 1.23640

面板 0.97437

此表用來表示某文件之文件特徵檔,各文件由其特徵詞與特徵辭權重組成二維度的矩 陣,以供後續分類、推薦分析。

3.3. 分類

本研究之分類模型使用監督式學習法,分類器透過已分類之訓練資料進行學習,

建構出各類別特徵檔,再將文件與各類別特徵檔以Cosine相似度計算法運算,求得該 文件之歸屬類別。

3.3.1. 類別特徵檔分析

各類別特徵檔取得流程如圖3-6,計算類別內文件之特徵詞對類別的重要性,計 算計算方式如公式3-1所述,計算完各特徵詞之權重之後,再依特徵詞權重降幕排序取 TOP N 做為該類別之特徵檔。

22

相似度計算範例如下:

相關文件