• 沒有找到結果。

Support Vector Machines 自動分類技術應用於網路文件間之相關性量測

N/A
N/A
Protected

Academic year: 2021

Share "Support Vector Machines 自動分類技術應用於網路文件間之相關性量測"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

計畫編號:NSC93-2213-E-151-005

Support Vector Machines 自動分類技術

應用於網路文件間之相關性量測

李俊宏

1

楊正宏

1

徐豐智

2

陳廷忠

2

國立高雄應用科技大學 電子計算機中心

1

國立高雄應用科技大學 電機工程研究所

2

leechung@mail.ee.kuas.edu.tw

1

chyang@cc.kuas.edu.tw

1

{fonze0101, tinchung } @dml.ee.kuas.edu.tw

2

摘要

本研究提出一個以自動文件分類技術為基礎 的多重分類器架構,結合在文件分類領域中有顯著 效能的Support Vector Machines(SVMs)演算法進行

網 路 文 件 間 之 語 意 相 關 性 量 測 (Semantic Relatedness Measure)之運算平台建立,將網路文件 原始之詞彙特徵向量透過已經訓練好的 SVM 分類 器做決策後產生新的語意向量。實驗結果顯示透過 量測文件語意向量之間的距離(Distance)餘弦函數 (Cosθ)、Dice 及 Jaccard,可以得到文件間語意相關 性量化值。

關鍵詞:Support Vector Machines、文件自動分類、 文件探勘、機器學習。

Abstract

In this paper we present a novel measuring method using a multi-classifier platform to perform evaluation of semantic relatedness among texts. We employed several text classifiers based on various specific topics using support vector machines (SVMs) to construct a multi-classifier platform. Firstly, we employ our developed algorithm to deal with text pre-processing and training for classifier generation. Subsequently, the texts of unknown category go through the trained SVM classifiers to generate new vectors of decision features made by the classification results. Essentially, the resulting class vectors are used to represent semantic vectors of respective texts for comparison of relatedness with other texts. In addition, we evaluated the system performance with some traditional textual similarity evaluation techniques, including Distance, Inner, Cosine and Dice methods.

Keywords: Support Vector Machines、Text

Categorization、Text Mining、Machine Learning

1. 前言

隨著網際網路的興起及文件普遍電子化的趨 勢下,網際網路上的資料量每秒鐘以倍數的方式成 長,整個網際網路上充斥著成千上萬半結構化及未 結構化的文件,對於使用者而言,如何在面對如此 龐大而繁雜的資料集合中找到符合使用者需要的 資料是個極具挑戰性的問題,近年來也有許多國內 外學者投入進行相關的研究。 近年來由於資料探勘(Data Mining)及文件探 勘(Text Mining)技術的蓬勃發展,透過不同的探勘 技術如:分類(Classification)、分群(Clustering)等, 可以將龐大文件集合中文件間隱含的資訊有效的 挖掘出來,然而經由這些技術的挖掘固然可以呈現 文件間隱含的資訊,卻無法提供給使用者知道文件 間內容的相關程度,若藉由人工的方式來進行判定 文件間內容的相關程度,會因每個人主觀的判斷而 有所誤差,最理想的方式是能藉由一個量化的數值 來讓使用者瞭解文件間相關程度的強弱關係。此技 術可以應用於搜尋引擎、知識挖掘、文件探勘等相 關領域上,讓使用者面對網際網路上龐大的資料集 合時可以找到真正符合需要的資訊。 傳統的文件分類多半藉由判定文件間『相似 度』作為分類的依據,經由計算後將相似程度高的 文件集合於某一個『文件叢集』中,此種方法廣泛 用於文件檢索系統的理論模型設計;『相似度量測 (similarity measurement)』亦是資訊檢索過程中不可 或缺的一部分。『語意相關性(semantic relatedness)』 相較於『語意相似性』是更為廣泛的概念;語意相 似度只是代表語意相關度的一種應用,Resnik[9]試 著以一個例子說明相似度與相關度的差異性:以相 似度的觀點來看, “汽車與汽油”之間的關係似乎比 “汽車與腳踏車”來的低;但若以相關度的觀點來 說,前者又較後者來高;對大多數計算應用的系統 而言,相關度應用的場合遠高於相似度。 隨著搜尋引擎近年來的發展越來越多元化,越 來越多的搜尋引擎推陳出新,若可透過一個語意相 關性模型量測出兩網路文件間之語意相關性並透 過數值的方式呈現,此技術可以應用於搜尋引擎技 術上的提升,藉由文件間量化數值作為搜尋相關網 路文件的依據之ㄧ,以有效的減少搜尋引擎搜尋結 果中冗餘的網路文件。此技術未來發展亦可進一步 應用於網路上相關多媒體文件的語意相關性量測。

(2)

2.相關文獻探討

本研究的目標是透過 SVMs 多重類別分類技 術為基礎建立一個運算平台,經由每個分類器的決 策值產生新的語意向量,透過文件間語意向量可計 算出一個量化的數值來表示文件間語意相關程度 的強弱。下面的章節中將介紹數個量測語意相關程 度及相似程度的方法。

2.1 Latent Semantic Indexing(LSI)

Latent Semantic Indexing (LSI)是由 Deerwester 於 1990[4] 提 出 的 一 個 資 訊 檢 索 (Information Retrieval, IR)的模型,其與傳統向量空間模型(Vector Space Model)的差別如圖 2.1 所示。傳統向量空間模 型藉由關鍵字集合與文件集合所組成的二維矩陣 來 呈 現 ,LSI 透 過 奇 異 值 分 解 (Singular Value Decomposition, SVD)將傳統向量空間模型轉換成 LSI 向量空間模型(或稱語意空間)。在 LSI 向量空間 模型上文件及詞彙將在同一特徵空間上呈現,可透 過語意相似度量測演算法量測文件間,詞彙間,詞 彙與文件間之語意相似程度。當使用者透過詞彙查 詢(query),LSI 在語意空間上透過運算餘弦函數 (cosine) 將查詢詞彙與文件間運算後相似性最高的 文件檢索出來。 圖 2.1 傳統向量空間模型與 LSI 向量空間模型之比 較[5]

2.2 Latent Semantic Analysis(LSA)

Latent Semantic Analysis (LSA) 是由 Landauer 於 1997[7]所提出之語意相似度分析模型,以圖 2.2

為例。由文件及詞彙所組成行 12 列 9 的原始矩陣

{X}透過奇異值分解(Singular Value Decomposition, SVD)成三個矩陣,{W}為行 12 列 9 以列向量(Row Vector)對應詞彙在語意空間(semantic space)所呈現 方式,{S}為 9 個元素之對角矩陣代表語意空間, {PT}為行 9 列 9 以列向量對應文件在語意空間所呈 現方式。選定縮減維度的值為 2,將經由奇異值分 解之矩陣轉換並相乘產生新的語意空間模型。原始 矩陣由文件與詞彙所組成僅能看出詞彙在每篇文 件出現的頻率,經由LSA 模型透過 SVD 產生新的 語意空間模型,並可透過餘弦函數(cosine)來計算詞 彙間語意相似程度。 圖 2.2 LSA 奇異值分解示意圖 2.3 WordNet WordNet 是 一 個 詞 彙 參 考 資 料 庫 , 構 成 WordNet 主體並非是詞彙本身,而是詞彙所蘊含的 意義,所有詞彙組成同義字集合(Synonym Sets, Synsets) , 每 個 集 合 代 表 一 個 基 本 的 詞 彙 概 念 (Concept) , 其 中 由 美 國 普 林 斯 頓 大 學 所 發 展 的 「WordNet」系統[6]以初步具備概念的結構,而且 有多種意義的詞彙會同時出現在不同的同義字集 合中,同義字集合之間以不同的關係連結。以英文 名詞為例,在WordNet 中定義了四種關係[11]:

1. Synonym & Antonym 同義詞與反義詞 2. Hypernym & Hyponym 上位詞與下位詞 3. Holonym (relation is part of) 完全關係 4. Meronym (relation part of) 附屬關係

上述三種方法,量測文件或詞彙之間語意相關 程度;以WordNet 架構而言,比較文件或詞彙之間 所在之概念集合重疊度(Overlap)或計算之間的階層 數來表現兩文件或詞彙之間相關程度的強弱,但卻 無法用數值精準的表現文件或文字間相關程度。 LSI 與 LSA 透過奇異值分解將文件與詞彙間,及詞 彙與詞彙間隱含的語意呈現出來,並量測相似程 度。本研究希望能在不借助WordNet 特殊架構及不 同於LSI 與 LSA 語意相似度量測,直接進行兩文件 間語意相關程度量測,並用數值表現兩文件間語意 相關程度。

3. Support Vector Machines 相關技術

Support Vector Machines (SVMs)是由 Vapnik 及

其團隊於AT&T 貝爾實驗室中所發展出來,其起源 於 統 計 學 習 法 則 中 的 結 構 風 險 最 小 化(Structural Risk Minimization:SRM)[10],Vapnik[12]透過統計 的方式證明SVMs 在資料趨近無限大時,亦可以在 有限的次數中找到最佳解。SVMs 最初的設計是處 理二元分類的問題(Binary Classification),經由運算 兩 類 別 樣 本 空 間 的 最 佳 分 割 超 平 面(Optimal Separate Hyper plane)以確保最小錯誤分類率;處理 線性不可分割的分類問題上,SVMs 將在原始樣本

(3)

空間無法分割的樣本映射至高維度的特徵空間中 進行分割,或者是導入柔性邊界(Soft Margin)機 制,允許若干個樣本在訓練階段可以錯誤分類,將 原始樣本空間中無法線性分割二類訓練樣本的問 題轉化成可以線性分割。處理不可線性分割問題也 是SVMs 另一個優點。 3.1 線性可分割問題 首先我們必須先假設存在一組訓練樣本集合

S

如下: 1 1 2 2 3 3 {( , ), ( , ), ( , ), , ( ,l l)} S = x y x y x y ⋅ ⋅ ⋅ x y (3.1)

,

{ 1, 1} ,

1 ~

n i i

x

R

y

∈ + −

for i

=

m

其中

m

代表訓練集合

S

之樣本個數,

n

為訓練樣本 向量之維度,存在一超平面(Hyperplane)能將二類訓 練樣本完全分隔,該平面描述為: , ) (x w x b fH = ⋅ + (3.2) 因 此 我 們 可 根 據(3.3) 式 之 決 策 函 數 (Decision Function)將二類訓練樣本

x

i分隔, ⎩ ⎨ ⎧ − + = + ⋅ = , 1 , 1 ) ( ) (x signw x b fD i i if if , 1 , 1 − = + = i i y y (3.3) 此處

w

∈ℜ

n

b

∈ℜ

;如果存在

( , )

w b

使得所有 的樣本

x

i均滿足(3.4)不等式之情況下,我們可以將 此訓練樣本集合

S

稱作可被線性分割。 m i y if y if b x w x f i i i i D 1, 1, 1,2,3, , , 1 , 1 ) ( = L ⎩ ⎨ ⎧ − = − ≤ + = + ≥ + ⋅ = (3.4) SVM 分類器沿著超平面的垂直方向將二類別邊界 (Margin:

ρ

( , )

w b

)擴展至最大,使得分類錯誤可能 性降到最低,得到唯一最佳解,如圖 3.1 所示。 w w b x w w b x w b w y x y x 2 max min ) , ( } 1 : { } 1 : { = + ⋅ − + ⋅ = − = = ρ (3.5) 其中

w

代表超平面法向量(Normal Vector),

b

代表 超平面之偏移量(bias),將(3.5)式中最大邊界問題表 現如下式:

1

minimize

2

w w

subject to (

y w x b

i

⋅ + ≥

i

) 1,

i

=

1,2,3, ,

L

m

(3.6) 因 此 , 尋 找唯 一 最 佳 超平 面 是 典 型的 二 次 規 劃 (Quadratic Programming:QP)問題,可由 Lagrangian 乘式法求解,將(3.6)式問題轉化成: 1 1 1

1

maximize

2

m m m i i j i j i j i i j

y y x x

α

α α

= = =

∑∑

1

0

subject to

0 ,

1,2,3, ,

m i i i i

y

i

m

α

α

=

=

⎪ ≥

=

L

(3.7) 針對這類限制最佳化問題於求解與分析中,根據 Karush-Kuhn-Tucker (KKT)定理可以解決(2.7)式問 題,成功的求得一組解

( , , )

w b

α

m i b x w yi i i( ( ⋅ + )−1)=0 , =1,2,3,L, α (3.8) 為了滿足(2.4)不等式,在上式中

α

i必須是非零變 數,且相對應的樣本向量

x

i滿足(3.8)式既稱為支撐 向量(Support Vector:SV)。為了構成最佳超平面

(

w x b

⋅ +

)

,隨著(3.8)式可得下式

=

= m i i i i

y

x

w

1

α

,

(3.9) 而且偏移量

b

可以透過KKT 條件(3.8)式決定 i i w x y b= − ⋅ (3.10) 最後可將原本的最佳化超平面重新定義成下式: , ) ( 1 ∑ ⋅ + = = m i i i i H x yx x b f α (3.11) 而決策函數則改寫成 . ) ( )) ( ( ) ( 1 ∑ ⋅ + = = = l i i i i H D x sign f x sign yx x b f α (3.12) 圖 3.1 SVMs 分類問題之架構 3.2 線性不可分割問題 在現實生活的應用中並非所有的問題都可以 順利的透過線性分割來分類,對於無法進行線性分 割的問題SVMs 提供下列兩種方式進行分割: (1) 柔性邊界(Soft Margin) (2) 非線性核心函數(Non-Linear Kernel Function) 3.2.1 柔性邊界(Soft Margin) 如果樣本集合S在原始樣本空間上無法進行 線性分割,在不更改原始空間的SVMs 分類器之原 則下導入一鬆弛變數(Slack Variable:ξi≥0)於(3.4) 式中,其修改後不等式如下: m i y if y if b x w x f i i i i i i D 1,2,3, , , 1 , 1 , 1 , 1 ) ( = L ⎩ ⎨ ⎧ − = − − ≤ + = − + ≥ + ⋅ = ξ ξ (3.13) i ξ 表示編號 i 的訓練樣本之誤差(如圖 3.2),SVMs 利用一調和係數來控制被允許ξi的大小,經過修正

(4)

後的數學模型如下: 1 1 1 1 maximize m 2 m m T , i i j i j j i i i j y y x x α − α α = = = −

∑∑

1

subject to m i 0 and 0 i for all

i y C α α = = ≤ ≤

(3.14) 圖 3.2 鬆弛變數ξ導入 SVMs 之情況 3.2.2非線性核心函數(Non-Linear Kernel Function) 除了導入鬆弛變數(Slack Variable)將邊界變的 更有彈性外,SVM 分類器亦可以透過向量映射至特 徵空間(Feature Space),將原本無法在原始空間 (Original Space)進行線性分割情況之問題,利用映 射 到 更 高 維度 之 特 徵 空間 中 進 行 線性 可 分 割 問 題,SVMs 提供 Kernel FunctionK

( )

⋅ ,⋅ 可將繁瑣複 雜的特徵映射程序簡化,不用運算特徵空間中所映 射向量之個別維度,只須利用原始空間的向量代入 Kernel Function 運算出對映在特徵空間上向量之內 積運算。接著將訓練後所選擇的支撐向量(Support Vectors)來決定最佳二類分割超平面並對未分類之 資料進行決策與分類。 圖 3.3 原始空間映射至特徵空間之示意圖

4. 實驗架構

經由相關文獻的探討與研究後,擬定主要的研 究方向為透過多類別分類的方法將文件間語意相 關程度透過量化的數值來表現其強弱,如圖 4.1 所 示,在實驗架構上分為兩大階段來進行,第一階段 為分類器的設計及訓練,第二階段為語意相關性量 測模型的設計。 圖 4.1 本研究實驗流程圖 4.1 語料庫 中文文件分類研究上由於沒有像英文文件分 類上有標準的資料集合提供研究使用,本研究語料 庫利用自行收集的中文文件資料建立中文文件語 料庫,基於資料多樣性的考量,在蒐集文件資料時 透過不同的新聞網站來進行蒐集(如表1),為避免 所蒐集的新聞特定集中在某些特定的時間點上,故 本研究之語料庫仍持續增加中以增加實驗的強韌 性。 表 1 文件資料來源網站表 資料來源 網站名稱 網址 YAHOO http://www.yahoo.com.tw PC-home http://www.pchome.com.tw 中央日報 http://www.cdn.com.tw 台灣時報 http://www.taiwandaily.com.tw 聯合新聞網 http://www.udn.com 中時電子報 http://news.chinatimes.com 4.2 資料模型處理程序 首先將蒐集的新聞文件依照類別加以分類,透 過中研院開發出來的斷詞程式進行斷詞,接著利用 本研究自行開發的詞彙擷取程式配合實驗的特徵 選取策略將所需的文件特徵萃取出來,將萃取出來 之 文 件 特 徵組 成 特 徵 向量 並 作 為 文件 代 表 的 模 型,經由運算得到每一個特徵之權重值並紀錄於文 件模型中作為訓練集合及測試集合之文件向量模 型。 4.3 SVMs 分類器之訓練 在SVMs 訓練階段,將訓練資料與驗證資料送 入SVMs 分類器中,根據本實驗室先前的相關研究 [1,2,3]決定選用 Gaussian RBF 核心函數(Kernel

(5)

Function),並配合設定參數(包含調和係數 C、核心 函數之參數)與結束條件。利用 SVMs 最佳化演算 法,例如 Projection、連續最小最佳化(Sequential Minimal Optimization:SMO)等,藉由調整所有訓 練文件之權重值求得最佳決策函數,即最佳分割超 平面,在訓練完成後將所有訓練文件之權重值輸出 作為測試階段決策函數建立之參數。 4.4 語意向量轉換 本研究利用數個類別來模擬現實生活中的文 件類別作為語意向量之特徵,每篇文件均各別經由 不同類別SVMs 分類器決策出一數值(如圖 4.2)形成 一類別語意向量。 圖 4.2 文件語意向量架構 根據決策值的格式可分為兩種,第一種方式表 示每一個分類器在決策後經過正規化將輸出只由 「+1」與「-1」表現,文件語意向量只由+1 與-1 組 成,此種方式只能呈現出兩文件是否同時屬於數個 類別;第二種方式則直接將分類器之決策值透過 Symmetric Saturating Linear 函數正規化後,作為文 件 語 意 向 量 特 徵 之 加 權 值 , 如 圖 4.3 為 經 過 Symmetric Saturating Linear 函數正規化後可能之決 策值,文件決策值若為+1 時(位置 a),表示該文件 完全屬於SVMs 分類器之+1 類別;若決策值為介於 0 與+1 之間時(位置 b),表示該文件某種程度屬於 SVMs 分類器之+1 類別;文件決策值若為-1 時(位 置 c),表示該文件完全屬於 SVMs 分類器之-1 類 別,或是完全不屬於+1 類別;若決策值為介於 0 與 -1 之間時(位置 d),表示該文件某種程度屬於 SVMs 分類器之-1 類別,或是某種程度不屬於+1 類別。 圖 4.3 SVMs 分類決策可能值 4.5 語意相關性量測設計 本研究透過多類別分類的架構將原始文件詞 彙特徵轉變成文件間類別語意向量,藉由相關演算 法量測兩篇文件的類別語意向量,並透過量化的方 式呈現其語意相關程度。除了透過SVMs 分類器作 為本系統向量轉換的工作外,假設所有文件均可同 時屬於不同類別,而每一個SVMs 分類器所決策出 來的結果均代表文件在該類別主題概念中所之表 現程度。 圖 4.4 兩文件語意量測架構 根據數個已訓練完成的分類器對測試文件 i 與文件j 所決策判斷的結果做為此文件配對進行語 意相關量測時之文件語意向量代表,進一步利用相 關演算法量測兩篇文件語意向量間相關程度,最後 將運算所得之數值正規化,即為兩文件間語意相關 程度之量化值。

5. 結果與討論

若單純透過系統四種決策演算法決策出來的 數值來判斷文件間之語意相關程度似乎又顯得不 夠客觀,本實驗參考Resnik 提出之方法,透過人工 評量方式來做一個驗證。將文件間之相關程度分為 五 個 等 級 ,0%~20% 、 21%~40% 、 41%~60% 、 61%~80%與 81%~100%分別用數字 1~5 表示,將計 算數個人的評量結果取平均值做為人工評量之依 據。人工評量的結果也將與系統所計算四種量測方 式運算之結果進行比較。下列實驗結果中,文件的 編號以英文字母代表文件類別,數字代表該文件於 該類別的編號。表2 呈現測試文件中以政治為主題 的文件與其它主題的文件透過四種不同的量測方 式及人工評量的方式做一個比較。表3 呈現測試文 件中以影視為主題的文件與其它主題的文件透過 四種不同的量測方式及人工評量的方式做一個比 較。

(6)

表 2 測式文件之間的相關性量測值(一) 表 3 測式文件之間的相關性量測值(二) 經由實驗中發現,經由五個類別主題的 SVM 分類器轉換後的文件語意向量,其兩文件配對所運 算出四種量測值與人工評估出的文件配對相關性 量測值相似,最大誤差約為1 個等級左右。在實驗 中亦發現文件詞彙特徵向量轉換成文件類別語意 向量此過程在本系統的文件相關性分析中時間花 費最多。

6. 結論

本研究最大貢獻在於提出新穎的語意向量空 間(Semantics-based Vector Space)模型,有別於透過 辭彙特徵向量量測文件間相似性的研究方法,經由 SVMs 多重分類器系統之決策,將文件詞彙特徵向 量轉換成文件類別語意向量,透過計算兩向量之距 離或餘弦等,表現兩文件間相關(Relatedness)程度。 經由實驗中証實經過SVMs 轉換而得之文件類別語 意向量所測量出文件相關程度之四種量化值(包括 Distance、Cosine、Dice 與 Jaccard),均可明顯區分 文件之間的主題是否相同,初步證實本研究所提之 文件類別語意向量架構可行性。從數個語意量測的 實驗中,發現我們所提出以SVMs 分類器類別為特 徵的類別語意向量可應用傳統向量測量的方法進 行相關性的量化表現,其中又以透過餘弦量測方法 效果最佳,透過距離量測方法效果最差。

參考文獻

[1] 李俊宏、李伯毅、徐豐智,2004。Support Vector Machines 應用於網路文件自動分類,2004 台灣網 際網路研討會,pp.298-301,台東。 [2] 李俊宏、李伯毅、徐豐智,一個以 Support Vector Machines 為主之中文文件自動分類系統的建構 與 特徵選 取策 略之分 析,Journal of National Kaohsiung University of Applied Sciences,vol.2, pp.67~89, 2005.

[3] 李柏毅,Support Vector Machines 技術應用於中 文文件自動分類之探討,國立高雄應用科技大學 碩士論文,2004。

[4] Deerwester, S., Dumais, S., Furnas, G., Landauer, T.K., and Harshman, R., “Indexing by Latent Semantic Analysis.” Journal of the American Society of Information Science, Vol.41 (6):pp.391-407, 1990.

[5] Dumais, S. T., Landauer, T. K. and Littman, M. L., “Automatic cross-linguistic information retrieval using Latent Semantic Indexing.” In SIGIR'96-Workshop on Cross-Linguistic Information Retrieval, pp. 16-23, August 1996.

[6] Fellbaum, C., “WordNet: An Electronic Lexical Database”, MIT Press. 1998.

[7] Landauer, T. K., & Dumais, S. T., “A solution to Plato's problem: The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge.” Psychological Review, Vol.104, pp.211-240, 1997.

[8] Landauer, T. K., Foltz, P. W., and Laham, D., “Introduction to Latent Semantic Analysis.” Discourse Processes, Vol.25, pp. 259-284, 1998. [9] Resnik, P., “Semantic Similarity in Taxonomy: An

Information-Based Measure and its Application to Problems of Ambiguity in Natural Language”. Journal of Artificial Intelligence Research, Vol.11, pp.95-130, 1998.

[10] Shawe-Taylor, J., Bartlett, P.L., Williamson, R.C., and Anthony, M., “Structural Risk Minimization over data-dependent hierarchies.” IEEE Trans. Information Theory IEEE Transactions on Vol. 44, Issue 5, pp.:1926-1940, Sept. 1998.

[11] Suarez, A., Saiz-Noeda, M., and Palomar, M., “A Method of Restricted Knowledge Acquisition from WordNet.” IEEE Third International Conference on Knowledge-Based Intelligent Information Engineering Systems, pp.38-41 Adelaide, Australia, 1999.

[12] Vapnik, V., “Statistical Learning Theory.” Springer, N.Y., 1998.

數據

表 2  測式文件之間的相關性量測值(一)  表 3  測式文件之間的相關性量測值(二)   經由實驗中發現,經由五個類別主題的 SVM 分類器轉換後的文件語意向量,其兩文件配對所運 算出四種量測值與人工評估出的文件配對相關性 量測值相似,最大誤差約為 1 個等級左右。在實驗 中亦發現文件詞彙特徵向量轉換成文件類別語意 向量此過程在本系統的文件相關性分析中時間花 費最多。  6

參考文獻

相關文件

在上 一節中給出了有單位元的交換環 R 上的模的定義以及它的一些性質。 當環 R 為 體時, 模就是向量空間, 至於向量空間中的部分基本概念與定理, 有些可以移植到模上來。 例如 子

(wave vector)」,記做k,其大小就是波的相位 常數k,其方向就是波的傳播方向。它的三個座標

 1932 年提出李克特量表( Likert Scale ),是一種 心理測量量表,通常用於問卷設計,為目前最受調查 研究者廣泛使用的測量方法.

自從 Engle(1982)提出 ARCH 模型以來,已經超過 20 年,實證上也有相當多的文獻 探討關於 ARCH 族模型的應用,Chou(2002)將 GARCH

「光滑的」邊界 C。現考慮相鄰的 兩個多邊形的線積分,由於共用邊 的方向是相反的,所以相鄰兩個多

由於醫療業導入 ISO 9000 品保系統的「資歷」相當資淺,僅有 三年多的年資 11 ,因此,對於 ISO 9000 品保系統應用於醫療業之相關 研究實在少之又少,本研究嘗試以通過

表 2.1 停車場經營管理模型之之實證應用相關文獻整理 學者 內容 研究方法 結論

本研究考量 Wal-mart 於 2005 年方嘗試要求百大供應商需應用 RFID 技術 於商品上(最終消費商品且非全面應用此技術,另 Wal-mart