• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

9 果低,但後者包含的附加價值比前者高很多。

雖然至今有無數的語言特徵運用在作者驗證上,但並非每種都能有效達到目 的且不見得為預想的結果,研究者只能盡力讓自己的實驗更加接近事實。此外,利 用語言特徵觀察出的現象也不能明確作為某位作者的資訊,頂多作為提供解釋的 手段罷了,除非語言特徵一開始就是建立在專家整理的範圍內。另外,外在參數也 是可以考慮的條件。我們可以利用語言特徵找出文章背後的資訊,當然也可以用已 知的資料對語言特徵做前篩選,像是不符合文章描述時間或地點的屬性,這也能有 效提高預測準確率。

2.4 向量空間模型

雖然電腦能夠處理複雜分析,但需建立在固定輸入輸出上,像是作者文章之類,必 須先轉換成電腦能夠識別的語言格式才能做後續研究及比較。在文本間的抄襲比 較上是以簡單的字串比對比例作為作者間是否抄襲,更進階則是概念上的比對,但 這相對又花太多成本,所以折衷上會希望對每個文本找出其獨特的特徵進行比較,

既比單純字串比對準確又能節省比對時間。擷取文本特徵的方式很多,目前最通用 方式為對文本建立向量空間,既能有效將文本資訊擷取出來,又具備文本間相互辨 識的能力。

向量空間模型(Vector Space Model)能夠將文本轉換成向量表示形式,建立方式 是先藉由找出向量維度的詞組,再利用不同的演算法計算該詞組的權重。權重計算 方式有很多種,例如詞頻、TF-IDF、DF、n-grams,更深入還有主成分分析、期望 交叉熵等,這些方式都能有效建立文本的特徵向量,但需考慮是否皆適用於欲辨識 的文本集合上。以圖 2.1 為例,假設我們選擇人稱代名詞作為文本向量中的維度詞 組並計算其出現頻率,在文本 A 中「我」出現了 20 次,「我們」出現 0 次;

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10

圖 2.1:向量空間模型建立範例

在文本 B 中「我」出現 40 次,而「我們」出現 75 次。若這時有個文本 C,「我」

出現 35 次,「我們」出現 60 次,再比較歐基里德距離或是餘弦距離後得到文本 B 和文本 C 距離比文本 A 和文本 C 的距離近,所以我們判斷文本 B 和文本 C 可能 為同一作者所寫。

本研究採用最基礎的詞頻統計方式,根據出現次數取前 N 名詞彙組合作為文 本間彼此比較文本向量的詞組,若文本向量間向量夾角越小,也就是餘弦數值越低,

則文章越可能出自同一人之手。不過會出現個問題:因為高頻詞前段大多為毫無意 義或是通用的詞彙,這使得我們儘管在文本比較上得到顯著的比較結果,卻無法解 釋為何這些詞組對這位作者有所意義存在,且如果文本主題一致,向量的詞組也大 多為主題性相關的詞彙。像是同場運動比賽的不同評論若以高頻詞彙作為文本向 量詞組,儘管已先清除通用詞與功能詞,詞組大多可能還是跟運動相關的術語,這 使得區別的準確率降低。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

11

圖 2.2:高頻詞出現數量折線圖及解釋

另外,有些真正的資訊會隱藏在相對低頻的詞彙內,所以不能盲目的設立出現 頻率閥值以刪除後段詞組。圖 2.2 為中研院提供的平衡語料庫內辭彙由大到小出現 次數折線圖,整體呈現長尾效應,其定義上代表著前 20%的詞彙掌握著 80%的總 辭彙數量,而這現象大多在辭彙頻率排序或是產品銷售中出現。紅色區塊為大多數 文本都會採用的辭彙,數量使用較多且使用變化容易觀察,但也因為皆為通用辭彙 所以包含的解釋資訊較低,如:「的」、「是」、「在」。綠色與黃色區塊則是代表著剩 下約 80%的詞彙,後段黃色區塊具備文本情境特色,但因使用數量普遍較低使得 難以代表該類別文本整體表現,如:「傳記」、「封鎖」、「柳琴」等。中段綠色區塊 則兼具類別間分類效果及辭彙的情境解釋性,如:「可以」、「自己」、「他們」等,

本論文主要是基於選擇各語言特徵綠色區塊的詞組進行研究,觀察以具有情境性 的語言特徵作為文本向量詞組下,是否也能做到作者間或類別間辨識的能力,所以 文本向量的語言特徵選擇範圍是相當重要的。本研究提出的語言特徵都是以詞性 為主,所以會先經過詞性清理,判斷何種詞性較能包含使用者資訊後,再做為向量 空間的維度讓文本轉換使用。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12