• 沒有找到結果。

二 文獻探討

2.2 概念偵測

概念偵測亦稱為主題偵測(topic identification),比較常用之作法為利用文件 間共同出現(co-occurrence)的資訊來進行偵測,Landauer 等人[4]提出使用 Latent Semantic Analysis 方法,藉由大量的語料庫找出字詞與文件間的關聯,找出權重 較高之字詞作為主題之概念。然而,使用此類方法則被限制於時間與數量,即需 要大量的語料庫進行訓練作業,且所偵測之概念只適合用於當下搜集的資料。

鑒於時間的限制,另一種基於大量資料的方法為使用文件分類[5]或分群[6]。

文件分類需要大量的人力與時間去作蒐集與訓練用且為文件進行分類,其次,當 分類器訓練完成後,若加入新的主題之文件時,必須再重新訓練;分群則無此問 題,它會自動的依據文件之間的相似性進行分群,並找出各個群組的中心點 (centroid),藉由不斷的調整每個文件與群心之最佳距離來優化其效能,故較自動 化且具可調整性。然而,Karypis 等人[7]則認為分群演算法之優劣關鍵在於參數 的選取是不正確的,或是挑選到的群組之特徵是不足夠的。由於一般分群結果之 校能有限,Scott 等人[8]提出使用自然語言處理(natural language processing)技術 來決定文字之語意,可以用以改善分群之校能。

然而,在情感分析領域中,Pang 等人[15]首先使用了機器學習的概念,利用 Naïve Bayes、Max Entropy、SVM 等分類器,在電影評論之中自動的分類情感。

Mullen 等人[35]提出針對詞彙與片語給予不同之權重值,再經由 SVM 分類正、

負向之極性。Davidiv 等人[34]則提出 50 個標籤和 15 個表情符號作為分類依據,

進行 kNN-like 分類,避免了大量勞力之手動標注。

目前以存在許多資料分群方法,如常用之 k-means、K-NN 等,以下就分別 針對這兩種方法及本研究所用之自我組織圖以相關文獻作介紹。

2.2.1 k-means

k-means 分群主要是以 k 為輸入參數,再隨機散佈 k 個點做為群集中心,而 每群內每點離群心皆是最近之距離,而後再重新計算群心,直到群集收斂且群心

9

不再變動為止,且使得群內之相向度高,而不同群之相似度低。然而,k-means 分群校能主要以群數和與群心之距離有很大的關聯。Arora[9]等人認為應該減少 其最接近的每一點到中心的最大距離,且每點距離群心之距離總和應該盡量縮減,

以利增加分群之校能。

k-means 分群的優勢在於簡單有效率能快速收斂且得到結果,時間複雜度相 對較低;但卻容易受極端值影響導致群心偏移、分群之效能優劣也取決於群聚是 否為球型分佈與初始群心之選擇。

2.2.2 K-NN

k-nearest neighbors,即第 K 位最為接近的鄰居,主要是以向量空間的方式來 表示各篇文件的特性,將測試資料與所有訓練資料逐一比對,並算出測試資料和 訓練資料之間的歐基里德距離,接著找出大於門檻值之 K 筆資料,最後再依據 這 K 筆訓練資料分派其所屬類別。根據 Yang 和 Liu[10]之實驗顯示再進行類別的 分類時,相較於其他分類器擁有較佳的效能。

K-NN 分類的優點在於訓練資料量少時,其分類校能較佳;反之,當訓練資 料量大或文件特徵向量之維度過高時,若無做適當的前置處理,如切割資料等,

則容易因為分類時須大量的相似度計算,導致分類效率不佳。

2.2.3 類神經網路分群

類神經網路是一種模仿神經系統運作方式的資訊處理模型,其結構由大量的 神經元以大量的神經鍵互相連接,藉由每個神經元來接受外界或其他神經元的輸 入,經由簡單的運算後,再輸出結果到外界或其他神經元。如同人類從經驗中學 習一般,網路則是藉由訓練資料來調整的變數,透過不同之參數設定,進行訓練 以產生較佳之分析與預測。若提供的訓練資料越多,其輸出精準率則越高。

本研究所採用的是由 Kohonen[11]於 1982 年提出的自我組織圖作為文件分 群之基礎演算法。自我組織圖(Self-Organizing Maps)是一種屬於類神經網路之非 監督式分群演算法,其概念來源為人類大腦網路或生物網路在處理資訊時, 處理 相同資訊的神經元會聚集在一起的特性。SOM 有一個很重要的優點為,將 N 維

10

(N-dimension)的資料映射(mapping)到 2 維(2-dimension)的空間上,並且維持資料 中的拓撲(topology),提供簡易的距離概念視覺化呈現文件之群聚地圖,以便進 行資料之分析與檢索。

雖然自我組織圖有視覺化的功能,但卻無法自動偵測出各群集之間的界線,

因此 Rauber[12]等人提出 LabelSOM 的方法讓使用者從特徵中了解群集之結構,

且自動標記出特徵的屬性。LabelSOM 是希望能夠在形成各種群集後根據不同的 特徵來描述該群集,而非在形成群集前先用特徵來制定類別。因此 LabelSOM 可 以找出具代表性的特徵屬性,將分群後的群集標記出主要的特徵屬性。藉由上述 方法,我們可以找出文件間的關聯與群組標籤。

11

相關文件