• 沒有找到結果。

使用貝氏潛在語意分析 於文件分類及資訊檢索

N/A
N/A
Protected

Academic year: 2022

Share "使用貝氏潛在語意分析 於文件分類及資訊檢索 "

Copied!
97
0
0

加載中.... (立即查看全文)

全文

(1)

國 立 成 功 大 學 資 訊 工 程 學 系

碩 士 論 文

使用貝氏潛在語意分析 於文件分類及資訊檢索

Bayesian Latent Semantic Analysis for

Text Categorization and Information Retrieval

研 究 生:吳佳昇

指導教授:簡仁宗

(2)
(3)
(4)
(5)

摘要

使用貝氏潛在語意分析於文件分類及資訊檢索

吳佳昇 簡仁宗**

國立成功大學資訊工程學系

隨著資料集的大量增長,引用統計式文件模型於資訊檢索上之研 究重要性與日俱增。機率式潛在語意分析(probabilistic latent semantic analysis, PLSA)模型為一種可有效率擷取語意及其統計量的文件模型 方法。而機率式潛在語意分析在實際應用時,對於新領域文件連續地 更新具有高敏感性。本論文中,提出了一個新穎的貝氏機率式潛在語 意分析的架構,本研究方法著重於利用遞增式學習演算法,解決新文 章加入時的模型更新(updating)問題的方法。本演算法藉由即時遞 增式萃取以及學習最新的潛在式語意資訊,以期望提升文件模型之效 能,並獲得符合線上資料改變後的新文件模型。在設定上,藉由一個 適當的 Dirichlet 機率密度函式作為 PLSA 模型參數的事前機率。而擁 有相同形式的事後機率分布使得模型得到一個可重複產生的事前/事 後機率機制,以求達到累積資料的遞增式學習。本方法提出近似貝氏

(quasi-Bayes, QB)機率式潛在語意分析模型以達到累進學習的目 的。參數求解過程是採用 Expectation-Maximization(EM)演算法推 導出來的。在這樣的線上 PLSA 檢索系統中,為求達到更強健的參數 估測同時也建構於超參數(hyperparameter)的更新。相較於原始的 最大相似度估測,本論文提出的 QB 方法,擁有動態增加文件建立索 引的能力,在本論文中也同時提出最大化事後機率(maximum a posteriori, MAP)的機率式潛在語意分析模型用於更正型的批次模型 訓練(corrective training)方法。在實驗驗證上,利用文件檢索以及 文件分類驗證貝氏機率式潛在語意分析之優越性。

*作者 **指導教授

(6)

Abstract

Bayesian Latent Semantic Analysis for Text Categorization and Information Retrieval

Chia-Sheng Wu* Jen-Tzung Chien**

Department of Computer Science and Information Engineering National Cheng Kung University

Due to the vast growth of data collections, the statistical text modeling is increasingly important for information retrieval. Probabilistic latent semantic analysis (PLSA) is a popular text modeling approach where the semantics and statistics can be effectively captured. However, PLSA is highly sensitive to task domain, which is continuously updated in real-world applications. In this paper, a novel Bayesian PLSA framework is presented. We focus on exploiting the incremental learning algorithm for solving the updating problem of new domain articles. This algorithm is developed to improve the text modeling by incrementally extracting the up-to-date latent semantic information to match the changing domains at run time. By adequately representing the priors of PLSA parameters using Dirichlet densities, the posterior densities belong to the same distribution so that a reproducible prior/posterior mechanism is established to fulfill incremental learning from constantly accumulated data. The expectation-maximization (EM) algorithm is applied to resolve the quasi-Bayes (QB) estimate of PLSA parameters. The on-line PLSA is constructed to accomplish parameter estimation as well as hyperparameter updating. Compared to standard PLSA using maximum likelihood estimate, the proposed QB approach is capable of performing dynamic document indexing. Also, we present the maximum a posteriori PLSA for corrective model training. Experiments on document classification and retrieval demonstrate the superiority of using Bayesian PLSA.

(7)

致謝

時間總是過的很快,由剛進入實驗室算起,還記得那天應該是 2003 年 7 月 15 日吧,到今日 2005 年 7 月 14 日我寫這份致謝的日子,

正巧度過了兩年。而這兩年來實驗室給了我相當好的環境進行研究,

指導教授簡老師的指導和孟松學長共同的交叉討論,志賢學長在程式 以及理論的討論,還有志彬學長對於理論的看法,這些都對我這兩年 來的學習有莫大的幫助。而實驗室川偉學長、狀華學長以及榕峻學 長、維彬學長等各位學長也給予不少的討論及意見。在這邊相當的感 謝學長們的協助。

在這兩年實驗室的生活中,點點滴滴都是我將來的一個回憶,還 記得那個為了第一次報告緊張的感覺,也記得實驗終於有效果的感 動,當然還有論文口試後,口試委員們討論後出來和我握手恭喜的那 一刻,似乎到現在都還歷歷在目。那些經歷都將會是我最大的收穫。

而我的家人,特別是我的母親,在我的求學階段不斷的給予我支 持及鼓勵,讓我在這些年來能無後顧之憂進行我的學業,在此我僅將 我的成就獻給我的母親。

佳昇 于 成功大學資訊工程學系 2005 年 7 月

(8)

章節目錄

摘要 ... v

Abstract ... vi

致謝 ... vii

章節目錄 ... viii

圖目錄... xi

表目錄... xii

第 一 章 序論 ... 1

1.1 動機及目的 ...1

1.2 論文主要方法描述 ...3

1.3 章節概要 ...4

第 二 章 相關工作文獻探討... 5

2.1 向量空間模型 ...5

2.1.1 特徵向量之建立 ...7

2.1.2 向量空間方法之特色 ...8

2.2 潛在語意分析 ...9

2.2.1 奇異值分解 ...10

2.2.2 文件與字詞相似度 ...13

2.3 潛在語意分析更新演算法 ...14

2.3.1 奇異值重新計算 ...15

2.3.2 疊入(folding-in) ...15

2.3.3 奇異值更新 ...17

(9)

2.3.4 移除演算法 ...20

2.4 其他統計式文件模型 ...21

第 三 章 機率式潛在語意分析模型... 23

3.1 機率式潛在語意分析 ...23

3.2 模型參數 ...24

3.3 以最大相似度為準則作參數估測 ...25

第 四 章 貝氏潛在語意分析於模型調適... 30

4.1 PLSA 調適 ...31

4.2 最大事後機率參數估測於更正式訓練 ...32

4.3 近似貝氏估測於遞增式學習 ...36

4.4 延伸至 N-Gram 模型 ...41

4.5 實作上的討論 ...42

第 五 章 實驗結果 ... 44

5.1 實驗環境 ...44

5.2 評估方法 ...45

5.3 實驗收斂條件 ...48

5.4 資訊檢索之應用 ...50

5.4.1 Medline、Cranfield 文件集 ...50

5.4.2 Medline 文集實驗結果 ...52

5.4.3 Cranfield 文集實驗結果 ...59

5.5 文件分類之應用 ...61

5.5.1 文件分類集合 Reuters-21578...61

(10)

5.5.2 Reuters-21578 文集實驗結果...64

5.6 實驗分析及討論 ...65

5.7 展示系統 ...69

第 六 章 結論及未來研究方向 ... 72

6.1 結論...72

6.2 未來研究方向 ...73

第 七 章 參考文獻 ... 74

附錄 Interspeech 2005 論文 ... 81

作者簡歷 ... 85

(11)

圖目錄

圖一 向量表示法...6

圖二 奇異值分解之架構示意圖 ...11

圖三 Folding-in 示意圖...17

圖四 LDA 模型式意圖 ...21

圖五 PLSA 模型示意圖...24

圖六 貝氏學習潛在式語意分析流程 ...39

圖七 召回率以及準確率示意圖 ...46

圖八 第 10 個迭代數時收斂狀況 ...49

圖九 Medline 文集 precision-recall curve ...53

圖十 Medline 文集 MAP PLSA 各操作步驟比較...54

圖十一 Medline 文集 QB PLSA 各操作步驟結果...55

圖十二 Medline 中不同操作步驟的 perplexity 比較...55

圖十三 調適時間比較圖 ...58

圖十四 Cranfield 文集 precision-recall curve ...59

圖十五 Cranfield 文集 MAP 各操作步驟比較 ...60

圖十六 Cranfield 文集 QB 各操作步驟比較...60

圖十七 文件分類之結果 ...64

圖十八 Reuters-21578 早期實驗結果(K=32)...66

圖十九 Reuters-21578 早期實驗結果(K=64)...67

圖二十 Reuters-21578 早期 QB 方法 K 值比較 ...68

圖二十一 測試系統介面圖 ...70

圖二十二 以全文搜尋的展示介面 ...71

(12)

表目錄

表一 遞增式學習 QB PLSA 演算法 ...40

表二 不同 K 值得 perplexity 對應表 ...49

表三 不同 K 值對應之 nAP 比較...50

表四 Cranfield 文集查詢句範例 ...51

表五 Medline 文集查詢句範例 ...51

表六 Cranfield 文集文章範例 ...51

表七 Medline 文集文章範例 ...52

表八 文集中相關資訊 ...52

表九 批次方法的 nAP 比較 ...53

表十 比較在不同召回率對應的精確率 ...57

表十一 不同排名值的篇數比較 ...57

表十二 Reuters-21578 文集文件標籤...61

表十三 Reuters-21578 資料使用情形...62

表十四 Reuters-21578 文件範例...63

表十五 Reuters-21578 早期實驗設定文件數量...66

(13)

第 一 章 序論

1.1 動機及目的

隨著網際網路的普及,利用搜尋引擎查詢資訊已成為日常中最重要 的活動之一。而資訊正以極驚人的速度成長擴增,也對應出資料集快速 增長和變動的問題。傳統資訊檢索的方法可分為兩個基本的大方向,一 為更貼近使用者的需求,另一為資料模型的考量。在符合使用者需求方 向上有個人化資訊檢索,以及特定領域的文件檢索兩個主要的課題。另 外在資料模型方面,也分為兩個部分,一個著重於檢索效能,亦即演算 法是否能提供較佳的檢索結果;另一方面則著重於模型計算效率,冀望 較少的計算時間或儲存空間。對於資訊檢索領域的研究者而言,系統的 效能以及效率的考量,乃是主要的研究課題。

傳統上布林運算(Boolean operation)是屬於較早的一種計算方式,

藉由關鍵字的符合,並透過集合理論(set theory)與布林代數(Boolean algebra)的同時運用,即可用一種直覺的方式進行檢索,進一步計算使用 者查詢句和待查詢文件之間的關聯度。雖然此種簡易作法,提供了不錯 的效率,但通常會因為使用者對於布林運算式的誤用,因而導致不預期 的檢索結果與正確率。

將文件或查詢句表現為向量表示法的向量空間模型也是運用於本文 搜尋的常見方式之一,該方法利用字詞的出現頻率(term frequency),以 及倒文件頻率(inverse document frequency)作為文件特徵的表現方式,

藉由計算查詢句和文件之間的餘弦角測量,向量空間模型便可做為文件

(14)

的索引以及檢索的用途。

另一種方式,則是透過將語料資料庫及自然語言的模型化,達到統 計式文件檢索的目標,最早由 Ponte and Croft 在 1998 年提出的資訊檢索 系統中,則透過在語言中鄰近字詞的相依性[32]達到此目的。該論文有兩 個主要貢獻,(1)提出基於語言模型的相似度量測方法,及語言模型估 測方法(2)結合字詞權重以及語言模型作為文件表現的方法。Croft 以此 為基礎,進一步利用 bi-gram 作為查詢句相似度檢索以取代 unigram 的做 法,以達到更一般化的效果[33]。

在基於語言模型的檢索系統探討上,2001 年 Zhai and Lafferty 提出一 個風險最小化的檢索系統,提供了一個較有系統的方式應用語言模型於 檢索系統。此論文所提出重要的觀點是必須為查詢句以及文件區分語言 模型[37]。此外,Zhai and Lafferty 於 2004 年提出語言模型的平滑化

(smoothing)[38]則可用來提升檢索系統的效能。

Hugo Zaragoza 等人提出另一個以 Bayesian 方法處理查詢句的相似度 [44],主要的變化在於它考量文件語言模型的不確定性,並以所有可能的 文件模型整合出查詢句相似度。

在 Hofmann 於 1999 年提出的機率式潛在語意分析[22]的方法中,則 將文件的意向和語意結構具體的以參數加以估測。在本論文的研究中,

則是希望藉由貝氏學習而可以動態的調整模型參數,使得調整後的文件 模型可以達到辨認新文件的能力。同時也具備調整文件模型適應性的能 力。

(15)

1.2 論文主要方法描述

本論文中,基於貝氏學習的機率式前再語意分析模型(Bayesian PLSA),期望發展出一個新穎的可線上學習架構,使得模型具有遞增式 學習的能力。對於解決日益擴大的資料庫,或者是變動頻繁的資料有著 相當不錯的適應能力。使得擁有變動特性的文件資料,可以藉由新加入 之文件集,使文件模型進一步學習而獲得新的特性。

本研究所提出之方法可以讓系統不需要對於舊有的全部文件資料加 以處理,僅需以新加入的資料重新計算新的模型參數即可。其基本概念 來自於 quasi-Bayes 估測參數的原則,此架構在語音辨識技術上已經證實 有相當好的效率[25][10]。對於語音辨識技術而言,這些調適的方法主要 用於隱藏式馬可夫模型(HMM)的參數調適,而在 PLSA 中並非使用 HMM 的架構,而是使用 Aspect Model 作為模型基礎。因此,調適過程 必須適當的變化為對應 Aspect Model 的參數調適。本研究的基本的流程 則是藉由目前的觀察樣本,計算以最大相似度(maximum likelihood)準 則訓練而成的基礎模型參數(baseline),再利用該基礎參數推估必要的 hyperparameter,藉由遞迴的累積 hyperparameter 資訊,便可以隨著樣本 的增加求得最符合目前觀察樣本的已調適資訊檢索結果。

本論文包含兩個主要範疇,分別為遞增式學習(incremental learning)

以及更正式訓練(corrective training)。以遞增式學習為主的架構,主要的 優點是不需要累積大量的資料作為訓練模型之用。動態地藉由一定量的 資料增加,對基礎模型加以調適參數,獲得一個符合新文件集特性的模 型參數。更正式訓練藉由模型參數批次訓練方式,更正訓練文集中機率

(16)

值,而更能符合加入新文件後文件集狀態。此方法和潛在語意分析(latent semantic analysis, LSA)中批次更新方式有雷同之處,本論文中將會比較 兩者之間想法上以及效能的差異。本研究利用貝式學習的機率式潛在語 意分析模型進行資訊檢索以及文件分類相關研究,所獲得成果對於改善 搜尋系統檢索較易具有箱當的應用價值。此外也可提供相關領域如資料 探勘、網路搜尋等領域進行深入探討。

1.3 章節概要

除了本章作為序論簡單的介紹動機以及簡要方法之外,第二章節以 探討目前文獻中各種相關的研究方法為重心,例如較常見的 LSA 模型及 其更新方式。第三章中將闡述關於原始 PLSA 的推導過程。而本論文主 要的方法,QB 遞增學習以及 MAP 更正式訓練的精神以及推導過程,則 在第四章節中詳述。第五章節則是本論文提出的方法和其他相關作法在 文件分類及資訊檢索上的實驗效能分析及結果討論。最後則是本論文的 結論以及未來可繼續進行的研究方向。

(17)

第 二 章 相關工作文獻探討

文件模型的建立已經擁有多年的歷史,而傳統的資訊檢索,早期透 過人員的手動編制,對每筆文件資料皆定義其索引項目(Index term),並 利用數個最符合文件內容的關鍵詞來代表其整體含意,而使用者只能透 過關鍵字的輸入來進行書目或文件的檢索,此做法雖然對使用者提供一 定程度的幫助,然而該如何取捨關鍵詞的使用,甚至使用者是否能夠精 確提出對應的關鍵詞,都對檢索結果造成影響。時至今日,文件模型的 建立主要洐生有三大類:布林模型(Boolean model)、向量空間模型(vector space model, VSM)及統計式機率模型(statistical probability model)。其 中,布林模型在先前的章節提過,它是利用集合理論和布林操作達到其 效果,目的是利用集合的交集以及聯集達到關鍵詞涵蓋效果,對於單純 關鍵詞存取的方式有所改進,但如先前所提,布林運算易遭到誤用,因 此更接近自然語言的查詢句乃是進一步改良的方向。

在本節,將會介紹常見的 VSM 架構,並對 LSA 文件模型作一個簡 單的導覽,接著,針對 LSA 模型的學習擴展機制加以說明;另外,會在 其中一個小節介紹相關的統計式文件模型。

2.1 向量空間模型

Salton 等人,首先於 1971 年提出向量空間模式的檢索系統[34][39],

它不僅僅是二元化的比對方法,此方法最主要的貢獻是提出了部分比對 以及相似度的觀念,藉由索引項目各自擁有不同的權重值,系統便可計

(18)

算文件與查詢句(query)之間的相似程度,進而輸出檢索排名結果。

在向量模型的實現上,首先必須將使用者的詢問句及資料庫中的文 件轉換成相同維度(dimension)的向量表示法,假設查詢句的向量表示 式為

q = [ w

1,q

, w

2,q

,..., w

t,q

]

T

t

是在系統中所定義索引項目的總個數,其中

j

w

i, 是大於零的值;同樣的,任一筆文件

d 也必須以同樣維度為 t 的向量

j 來表示,此向量

d

j

= [ w

1,j

, w

2,j

,..., w

t,j

]

T即可視為文件的特徵向量。

1 0 0 3 0 1 ………… 0 1 0

w

t

w w w w w

w

1 2 3 4 5 6

... ..

q

0 1 0 2 0 2 ………… 1 1 0 d

j

圖一 向量表示法

文件與詢問句使用同樣的向量空間維度來表示,可以將它們的相似 度用量化的方法來呈現,而此相似度的計算,在一個多維度的空間中,

最常見的方式即是以餘弦函數(cosine)來計算二向量的相似度,其值為 介於 0 到 1 之間,計算式如下所示:

=

=

=

×

= ×

×

= ⋅ t

i iq

t

i i j

t

i i j iq

j j

j

w w

w w

1 2 1 ,

2 ,

1 , ,

) , dist(

q d

q q d

d

(1)

d 與

j

q 分別為兩個向量的 norm,在餘弦函數的計算方式中,此

norm 提供在文件空間的正規化(normalization)作用;藉由上式的運算,

一個查詢句可分別對每篇文件計算其與查詢句向量的餘弦值,藉此便可 得出相似程度的量化值,當兩向量夾角為 0 時,其餘弦值為 1 最大值,

而當兩向量夾角為 90 度垂直時,其餘弦值為 0,亦即相關度為 0;最後,

(19)

再將所有文件以相似度加以排序,得到相似程度的排名。根據此特性,

即使某篇文件只有部分與查詢句相同,檢索系統仍有可能給予優先排 名,故可訂定適當之臨界值(threshold),僅擷取相關程度較佳的文章即 可。

2.1.1 特徵向量之建立

在向量模式中另一項重要的議題,即對於向量中的索引項目,該如 何決定其權重值?適當的權重值對於表現文件特徵有正面的幫助,同時 有助於提昇系統的檢索正確率。

原始文件集需要先建立成字詞-文件關係矩陣 A ,此矩陣大小為字典 字數

m 乘以文件量 n 。形成一個字詞-文件(term by document)的矩陣,

其中每一個位置放入某字在某篇文章中的權重值。舉例來說,在( j

i

, )的 位置放入 1,代表

w

i這個字在

d 這個文件中出現了一次。然而此方式對

j 於文件的呈現效果並有突顯文件本身或者是字詞本身的特性。

一種簡單而廣泛被採用的法則是

tf-idf(term frequency and inverse

document frequency ) [40] , 其 中 tf 視 為 單 一 文 件 內 部 的 分 佈 特 性

(intra-document characterization),它可以用來描述一篇文件對定義之索 引項目的包含程度,亦即在本文件中的出現頻率。

=

= t

k ik

j i

w j w

i tf

1 ,

) ,

,

( (2)

上式即

w 在第i 篇文件的 tf 值;而 idf 則視為全域資料的分佈特性

j

(inter-document characterization),它用來量測在所有文件中,不同索引

(20)

項目的重要程度,亦可將此值視為鑑別性的參考依據。

n

j

j N

idf ( ) = log

(3)

其中

N

為資料庫中的文件筆數,

n

j 則是包含索引項目

w

j的文件筆 數,由式子中可得知當

idf 值越小時代表該索引項在絕大部分的文件中都

有出現,因此本索引項的鑑別性就會很低;相反的,若 idf 值很大時,則 此索引項只出現少數幾篇文件中,則此項的鑑別性就顯得十分重要。將

tf 與 idf 作乘法運算,基本上是在向量模式中最常使用的權重計算法則

) ( )

,

,

tf ( i j idf j

w

i j

= ×

(4)

除了

tf-idf 的標準式之外,文獻上亦有許多探討權重值的給定法則

[40],例如 Buckley 建議對 Query 的權重計算如下式

) ( ))

, ( 5 . 0 5 . 0

,

( tf i j idf j

w

i j

= + × ×

(5)

經由此運算,查詢句對於每個索引項的值均不會為零,這樣可以產 生平滑化(Smoothing)的作用。

2.1.2 向量空間方法之特色

整體而言,向量空間模型的優點主要有下列三項:(1)藉由權重值 的給定,其特徵取用較佳,檢索效能大幅勝過了布林檢索正確率。(2)

它額外提供了部份比對的機制,可將分佈情形最相近的文件檢索出來。

(3)藉由相似度的運算排序,使用者可得到依相似程度排名的結果。

一般而言,使用者在大量的文件資料中,若想找到所需的資料,最 常使用的方法是關鍵字的比對。將使用者輸入的字詞與資料庫的字詞做

(21)

全文檢索(full text index),最後,把符合的資料排序呈現給使用者。然 而,其結果並不完全符合使用者期望。即使是如同本小節所述的向量空 間模型,在文章的的搜尋上,仍有許多的問題。例如,對於一篇相同的 文章,使用者的本身的差異。

不同的使用者在查詢時,使用者所使用的關鍵字可能仍有所不同,

或者所提出查詢的語句不盡相同,再加上一般的查詢依據字詞的符合計 算效果,會因為該文件中並未出現使用者提出的的關鍵字而導致較易遺 失該篇的文章,這樣的情形會造成查詢的不正確及不完整。而學者提出 LSA 模型作為解決的方法,將於下一小節描述。

2.2 潛在語意分析

一般而言,潛在語意分析(Latent Semantic Analysis, LSA)視為向量 空間模型的一種延伸,由 Deerwester 等人於 1990 年提出,其主要應用於 解決一字多義(polysemy)以及多字一義(synonymy)的問題[12],在傳 統本文探勘的議題上,LSA 也常用來作為因子分析以及特徵維度化簡的 一種作法。

由於 LSA 為向量空間模型的延伸方法,基本上權重值的給定方法和 先前的向量空間模型極為相似,都可以用不同的方法來取得文件和字詞 間的統計量,例如

tf-idf、entropy 等等。

LSA 基本的概念是以低維度的共同語意因子呈現原先文件和字詞之 間 的 關 連 。 而 一 般 的 做 法 則 是 利 用 奇 異 值 分 解 ( singular value decomposition, SVD)找出字詞對應文件的語意結構,對於字詞-文件關係

(22)

矩陣 A 利用奇異值分解將會分解成階度為

k

的三個子矩陣乘積。

在本小節中將依序介紹奇異值分解的特性與推論的性質,最後,探 討如何使用奇異值分解於 LSA 之中。

2.2.1 奇異值分解

在線性代數中,奇異值分解具有將高維度的矩陣資料,經過 SVD 的 操作之後,將維度大小降低為

r 之特性。其中 r 代表的是奇異值的數量,

即代表該矩陣的秩(rank)的大小。即使維度降低為 r ,但對於較稀疏的 資料而言,

r 的值仍可能過大。而在 LSA 的應用上,一般會進一步將奇

異值的維度

r 降低到約 100-300 左右的 k

值。

經過奇異值分解的運算後,若將資料和使用者的查詢句在這投影的 空間做比對,此方法稱為潛在式語意分析。此方法是將文章及字詞投影 到了一個空間,此空間可以表達字和字之間的關係,字和文章的關係以 及文章與文章之間的關係。因此,在查詢時,便可能不會因為使用者查 詢句中沒有出現某個特殊關鍵字而遺失了資訊。LSA 之所以可以克服單 純使用關鍵字的向量空間模型方法中,字詞具有多重意義或者是多字同 義所造成的影響,即是因為使用了概念式的檢索方法。

奇異值分解主要是解決一個 least squares 問題。作為矩陣維度的再估 測(re-estimate)。給定一個實數矩陣

A

n,不失一般性,可以假設

m

n

rank (A ) = r

,對

A

n操作 SVD 可以表示成

USV

T

A

= (6)

其 中

S = diag ( σ

1

... σ

n

)

σ

i

> 0 ∀ 1 ≤ i ≤ r σ

j

= 0 ∀ σ

j

r + 1

, 且

(23)

n T

T

U V V I

U = =

,正交矩陣

U

V

的前

r 個行向量,是 AA

T

A

T

A

的前

r

個 非 零 特 徵 值 ( non-zero eigenvalue ) 所 對 應 的 單 範 正 交 特 徵 向 量

(Orthonormal eigenvectors),

U

的行向量稱為左奇異向量(left singular value),

V

的行向量稱為右奇異向量(right singular value)。而 A 的非零 奇異值平方是

A

T

A

的特徵值。

藉由以下所提的兩個引理,可以說明 SVD 的架構中,各個矩陣的結 構如何描述。圖二為奇異值分解之架構示意圖。

A U S VT

x x

W

1

W

m

D

1

D

n

u

1

u

M

v

1

v

n

word vectors

words

documents document vectors

0 0

(

n

) (

m×r

)

(

r×r

) (

r×n

)

圖二 奇異值分解之架構示意圖

引理一

A

=

USV

T

σ

1

≥ σ

2

≥ K ≥ σ

r

≥ σ

r+1

= σ

r+2

= K = 0

、range

R ( ) A

、以 及 null space

N ( ) A

,則可以推論下列各式。

維 度 ( dimension ):

rank ( ) A = r

N ( ) A ≡ span { v

r+1

, K , v

n

}

}

,..., span{

)

(

1 r

R Au u

U

=[

u

1

u

2...

u

m]T

V

=[

v

1

v

2...

v

n]

(24)

二元分解(dyadic decomposition):

=

= r

i

T i i i 1

v u

A σ

F-norm:

A

2F =

σ

12 +...+

σ

r2以及 2-norm: 2 1

2 =

σ

A

引理二

p rank

r

= (A)≤ ,其中

p

=min

( m

,

n )

,若是定義前

k

個維度之矩陣

=

= k

i

T i i i

k

u v

1

σ

A

,則觀察到 2 2 21 2

)

( ...

min F k F k p

k

rank − = − =

σ

+ + +

σ

=

A B A A

B

若 想 找 到 一 個 和 A 最 接 近 的 矩 陣 B , 且

rank

(B)=

k

, 可 以 依 據

L

2

-norm 的最小化來計算。在此處的 A 是由 A 的最大的依序

k

k

個奇異值所 構成的。換句話說,在此引理中,代表的和 A 最相近的維度 k 之矩陣 B 可 以利用和 A 最相近的 k 維度矩陣

A 來求得。實際上,對於任意 unitarily

k

invariant norm 而言,矩陣 A 是最近似於原始矩陣 A 的矩陣,因 此

k

2 1 ) 2

min( +

= − = − k = k

k

rank

A B A A σ

B 。上述的結果也代表維度由 A 的維度 r 化簡

A 的維度 k

k

從上面兩個引理的說明,在

A 矩陣中,列向量投影到以右奇異矩陣 V

k 之行向量為基底的空間,在這個空間中可以將字詞(word 或稱為 term)

用一個新的向量空間來呈現,也就是說在這個空間中投影的向量就是 US 的列向量。亦即, S

u 為

i

w 在 r 維空間的位置,其中

j 1≤

i

m

同理,在

A 矩陣中,行向量投影到左奇異矩陣 U 之行向量為基底的

k

空間,類似上段所述,在此空間中可以將文件(document)以一個新的 向量空間來呈現。換言之,在這個空間中投影的向量也就是

SV 的行向

T

(25)

量,進一步來看,

Sv 為

Tj

d 在

i

r

維空間的位置,其中1≤

j

n

2.2.2 文件與字詞相似度

根據上述的說明,SVD 最基本的概念是近似矩陣

A 保留了原始矩陣

k

A 的結構。而在潛在式語意分析空間中若兩個詞相近,代表可能這兩個

詞經常出現在同類的文章裡,但並不代表這個詞必出現在這些的文章 裡。同理,矩陣裡兩個文章相近,代表可能這兩篇文章裡擁有相同的語 意,但並不代表這兩篇文章擁有相同的詞。

矩陣 A 是一個 term by document 的關聯矩陣,其中包含了 term 與 document 間的資訊,可以將

AA 中

T

a 代表詞

ij

w 和詞

i

w 之間的資訊,而相

j 同的也可以將

A

T

A

a 代表文件

ij

d 和文件

i

d 之間的資訊。近一步將 A 擴

j 展,利用 SVD 的方式將

AA 分解得到下列式子

T

T

T

US U

AA

= 2 (7)

由於 S 為對角矩陣,表示

AA 的

T ( j

i

, )項可以用 US 矩陣中第i 列(即

S

u

i )及第

j 列(即 S u

j )取其內積表示。兩個詞之間的距離,可以用這 兩個向量的夾角 cosine 值表示。

( w w ) ( ) i j m

j i

T j i j

i j

i

, = cos , =   ∀ 1 ≤ , ≤

dist(

2

S u S u

u S S u

u S

u

(8)

如果dist(

w

i,

w

j)=1,代表這兩個詞

w 及

i

w 同時出現在相同的語句

j 中,但這種狀況幾乎不可能出現,除非兩字屬於完全可互換的字,且無 其它用法。如果dist(

w

i,

w

j)≤1,則越接近,其值越大。也代表這兩個詞

w

i

w 越有可能同時出現在相似的語句。

j

(26)

和前段相似,以 SVD 的運算將

A

T

A

展開得到下列式子

T

T

US U

AA

= 2 (9)

同理,表示

A

T

A

的第( j

i

, )項可以用 VS 矩陣中第i 列(即 S

v

i )及第

j

列(即

v

j

S

)取其內積表示。同樣的,也可以計算兩篇文件

d 和

i

d 之間的

j 距離。以下式表示

n j i d

d

j i

T j i j

i j

i, ) =cos( , )=    ∀1≤ , ≤

dist(

2

S v S v

v S S v

v S

v

(10)

如果dist(

d

i,

d

j)=1,代表這兩篇文件

d 及

i

d 在語意結構上完全相

j 同。同理,如果dist(

d

i,

d

j)越接近 1,則代表這兩個文件

d 及

i

d 語意越接

j 近。

在字詞為基礎的模型中,如何選擇一組有效的字典將會影響整體的 效能。而如何選取一個合適的字典,並非一個直觀的結果。因此,在 LSA 中採用奇異值分解的方法,字典僅要選擇一個適當的大小,所謂的『適 當』指的是字詞的包含量。在不損失太多資訊的情況下,藉由字詞和文 件之間的關聯性,建立出潛在式語意結構,而其結果也顯示用奇異值分 解的空間中的確保留了語意相近的成分。

2.3 潛在語意分析更新演算法

當 LSA 的模型建構之後,隨著時間的演進,系統獲得新的增加資訊,

例如增加新文件,或者字典字數有所變更,其文件模型必須作適當地調 整,以適應新的文件所帶來的異動,才能具有較佳的適應能力。一般而 言,以 LSA 為基礎的更新方法有三種,分別為奇異值分解重新計算(SVD

(27)

recomputing)、疊入(folding-in)以及奇異值分解更新(SVD updating)。

接下來,將在此小節中介紹三種方式的差異,並簡單的描述相關方法。

2.3.1 奇異值重新計算

本方法是利用現有的文件資訊,再加入新增的文件資訊,結合後建 立新字詞-文件關聯矩陣,並再次對此矩陣執行一次 SVD 操作,此種做法 基本上不能稱為更新演算法,因為它所耗費的時間以及所需的儲存成本 都和資料成比例增加。然而,此作法的目的是為了加入新資訊後重建語 意關聯,雖然是一種解決方法,實作上較少以這方法去實現更新架構,

因為重新計算等同重建模型。然而,唯有重新建立潛在式語意結構,才 會擁有最完整的語意資訊。值得注意的一點是,SVD 的計算複雜度所需 要的計算量幾乎為

O ( mnr

2

)

1[41],其中 m 代表文件數量,換言之,當文件 量增加,重新計算所需要的時間亦會隨著增加。

2.3.2 疊入(folding-in)

當新的資料加入到系統時,若原先的資料索引檔過於龐大,系統並 不適合如前一小節所提,將矩陣以奇異值重新計算來重新獲得文件模 型。有鑑於此,folding-in 目的就是在舊有的模型上加入以新資料所投影 的矩陣,達到更新的目的。

1 此演算法已經經過改良,原始演算法計算量更大。

(28)

學者提出以線性轉換的方法,利用先前的轉換矩陣對於新資料矩陣 做一個簡單的投影操作,進而求得一個近似的結果。然後將其附加到原 有矩陣之中。其方法如下所述,d 及 w 代表新進需要運算的文章及字詞,

v 及 u 代表文件及字詞摺疊後的表示式,於是可將新加入的文件 d 看成下

T j

j

USv

d

= (11)

由上式經左右同乘對應矩陣的反轉(inverse)後可得到式(12),其代 表意義是將一篇文章轉換到語意空間中的向量表示法。

1

=

d US

v

j jT (12)

同理,若是將加入的新字詞視為

w

i =

u

i

SV

T,經過代數運算之後,可 以得到將一個字詞轉換到語意空間的結果,如式(13)所示:

1

= VS

w

u

i i (13)

結合式(12)、(13),便可以得到摺疊後的結果。圖三表示 folding-in 的架構式意圖,藉由新字詞和新文件,利用 SVD 中的轉換矩陣投射到同 一個空間中,再加以結合新舊文件模型。

(29)

A U S VT

x x

w1

wm

d1 dn

u1

um

v1 vn

word vectors

words

documents document vectors

0 0

w

d

(m+w)(n+d) (m+wk

k

k× k×(n+d)

圖三 Folding-in 示意圖

2.3.3 奇異值更新

前兩節所述的方法是屬於較直覺的方式,在此節中所謂的更新,指 的是利用現有的架構,再重新作一次奇異值分解的運算,但是更新方法 中的奇異值分解方式與先前所提的奇異值分解重新計算並不相同,花費 的時間會比較少,但是效果更能接近重新計算的結果。

SVD 更新運算主要有三個步驟:更新字詞、更新文件以及更新權重。

在下列運算式中,關於符號使用,先給予定義。B、C 代表新增資料後的 矩陣; T 、 D 代表新增的字詞及文章; I 是單位矩陣; U 、S 、 V 代表做

A 奇異值分解後的矩陣,若有下標,代表是由對應矩陣所分解得到的;Y

代表更新何篇文章及字詞, Z 代表更新文章時使用何種權重,計算的方 法將在下面小節中依序解釋。

(30)

更新字詞

首先,考慮包含新字的矩陣C ,定義如

[ ]

T

C

= A ,對其作 SVD 運算,

亦即此分解

C

=

U

c

S

c

V

cT,考慮原始矩陣分解

A

=

USV

,可以得到 C 對應 分解後的形式,如下式:

⎥⎦⎤

⎢⎣⎡

⎥ =

⎢ ⎤

TV CV S

U

t T

I

0

0 (14)

[ ]

TV

H

= S ,取其 SVD 分解,可得到

H

=

U

H

S

H

V

HT,對式(14)左右同 乘對應 inverse 則可以得到下式

T T H H H

I

t

U S V V

C U

⎢ ⎤

= ⎡ 0

0 (15)

由式(15)結果可以將C 的 SVD 結果看成下列三個表示式

H K C

H C

H t K

C

I

V V V

S S

U U U

=

=

⎥ ⎦

⎢ ⎤

= ⎡ 0

0

(16)

更新文件

考慮包含新文件的矩陣 B,定義如

B = [ A D ]

,對 B 操作 SVD 運算,

可得到

B = U

B

S

B

V

BT ,考慮原始矩陣分解

A = USV

,可以得到 B 對應的 SVD 形式

( S U D )

B V

U

T

d T

I ⎟⎟ =

⎜⎜ ⎞

⎛ 0

0

(17)

(31)

F = [ S | U

T

D ]

,對 F 操作 SVD 分解,

F = U

F

S

F

V

FT,經過左右同乘 對應 inverse 則可以將上式推展為

⎥ ⎦

⎢ ⎤

= ⎡

d T T F F

F

0 I

0 V V

S UU

B

(18)

得到上式後,便可以將 B 之分解,理解為下列三個表示式,分別代 表 SVD 運算中,三個矩陣的代換形式。

F d B

F B

F B

I V V V

S S

UU U

⎥ ⎦

⎢ ⎤

= ⎡

=

=

0

0

(19)

更新權重

首先,考慮新增文件的矩陣

B = A + Y

j

Z

Tj,對其矩陣操作,左乘矩陣

U 以及右乘

T

V

,可得到下式

) ( S U Y Z V BV

U

T

= +

T j Tj (20)

Q = ( S + U

T

Y

j

Z

Tj

V )

,取其 SVD 分解,得到

Q = U

Q

S

Q

V

QT,則經過 代換運算,左右同乘對應 inverse 可以推導出下式

T T Q Q

Q

S V V

UU

B =

(21)

以下列式子表現其 SVD 分解後三矩陣之對應關係

Q B

Q B

Q B

VV V

S S

UU U

=

=

=

(22)

在潛在式語意分析中,用下列的式子來表示,其中

~

1

q

d

代表已經轉換

(32)

過資訊,轉換的方式可以上述的三種方法。

=

i ν

w i q

q q q

q

w d

d d w

w

~ )

, Pr(

~ ) , ) Pr(

| ~ Pr(

1 1

1 (23)

~ ||

||

||

) ||

,~ cos(

~ ) ,

Pr( 1/2

1 2

/ 1

1 2

/ 1 1 2 / 1

1

S S

S S S

= =

q q

T q q q

q q

q

u v

v v u

u d

w

(24)

2.3.4 移除演算法

相對於 LSA 的更新,Downdating 意指文件或者是字詞需要移除時,

LSA 需要對應的演算機制提供這個需求。一般而言,如同更新的概念,

一樣對應出 folding-out,SVD 重新計算,以及移除演算法三個主要的方 式。其中,folding-out 如同 folding-in 純粹在潛在空間移除該文件或該字 詞對應的向量。而 downdating 演算法則同樣利用線性代數的矩陣操作,

提供了移除文件或字詞後的效果,其結果接近 SVD 重新計算的結果。而 演算法和 updating 演算法的步驟雷同,同樣包含移除字詞,移除文件,

以及最後更新權重值的三個主要步驟。

總結而言,LSA 成功的擴展向量空間模型,在資訊檢索研究上也是 相當重要的研究議題之一。雖然 LSA 成功的應用於資訊檢索、分群演算 法等研究上,但 LSA 在其方法上,仍舊和傳統的 VSM 相似,對於利用 統計方式呈現及統計式建模仍有不足。根據此原因可以發現,字詞-文件 關聯矩陣中,導入各式統計式統計量的文件表示法是具有一定意義的做 法。

另外,在 Ding 於 1999 提出的論文中,利用一種以相似性為基礎的 機率表示法[15],透過最大化相似度估測法則建構 LSA,基本上就是希望

(33)

由更多機率的角度來解釋 LSA 模型。

2.4 其他統計式文件模型

Latent Dirichlet Allocation(LDA)技術[6],主要是解決 PLSA 中僅 處理訓練文集中出現的文件參數。LDA 與先前提到之 PLSA 模型中最大 的不同點,在於將每一篇文件的機率都視為潛在主題中隨機字詞機率的 混合模型,藉此取得該篇文件出現的機率值。將其模型表現如式(25)

=

= M

j

P z

j

w

j

P w

j

z

j

P d

z P

1

) , (

) (

) (

) , ,

,

(

θ α β θ α β

(25)

θ

是描述主題的隨機變數,

θ

~

Dirichlet

(

α

),而一篇文件則是由不 同的主題所混合的。所以文件是以

P

(

θ

)表現文件中主題的分佈情形。在 文件的表示方式兩者有所差異,PLSA 的文件參數是由訓練集中有出現的 文件訓練得到,而 LDA 對於文件的描述方式可以對於沒有出現在訓練集 的文件給予一個機率形式的表現方式。針對 PLSA 模型而言,LDA 所需 要的參數量較少,假設可以取得真實的主題分佈的表現方式,便可將文 件的事前機率表現的較好。

z w

N M

θ

β

α

圖四 LDA 模型式意圖

(34)

但要如何處理字詞的混合,此論點還是有討論的空間。Canny 於 2004 年提出 Gamma-Poisson factor model,論文中提出了不同的想法[9],在 GAP 的模型中,主要利用 Factor Analysis 的概念,希望找出一篇文章Y 可由主 題所構成的基底(basis) X 中,由一個字詞矩陣Λ 轉換,所以文件Y 可 以表現為 FA 基本形式

Y

= Λ

X

。表示式中,

X 中第 j 行代表文件 j 中主題

狀態,[9]利用 Gamma 機率分佈來描述主題散佈情形, Gamma 機率分佈 的通式如下

) (

) ) exp(

(

) 1 (

a b

b x x x

P

a

a

Γ

= − (26)

使用 Gamma 的好處在於可以利用 shape 參數 a 以及 scale 參數b 作為 文件中主題特徵的微調。而Λ 中實際上保留了 term 對於主題的資訊,Λ 每 一列代表對於特定主題的字詞機率。

在[9]之中並有針對文件集的討論,以及如何對文件集取得一個合適 的模型參數建立方式,換言之,對於一個文件資料集合,實際上還是需 要各自因應需要最佳化。相信在此議題上應該會有一個較為一般性的模 型生成規則,對於語言以及文件上的應用更有進一步發揮的空間。

此外,Girolamin and Kaban 發表於 2003 年的論文中[20],探討了 LDA 和 PLSA 的關聯,主要是說明了 LDA 在 uniform Dirichlet 事前機率的狀 況下,採用 MAP 估測的等價情形。因此,不失一般性,本論文中將著重 於 PLSA 的探討,同時將本論文提出的架構建立在 PLSA 的基礎上。

(35)

第 三 章 機率式潛在語意分析模型

3.1 機率式潛在語意分析

Hofmann 於 1999 年 SIGIR 論文中提出了 PLSA,其方法是以 Aspect Model 作為主要架構[22],解決 LSA 呈現文件和字詞時並非以統計觀點 出發的問題,不同於 LSA 投射文件或字詞的向量到潛在語意空間的做 法,PLSA 則萃取出關聯於該文件的 Aspect(此處可以理解為意向或者也 可稱為主題)。在此,可進一步試著將 Aspect model 理解為一種潛在語意 的混合數(Mixtures)。除此之外,另一個相似的概念是主題式基礎

(topic-based)的語言模型,但是兩者還是有其應對的不同。就如此方法 的命名,機率式潛在語意分析,可以理解為 Deerwester 等人所提出的潛 在式語意分析(LSA)[12]的機率呈現方式。

PLSA 是採用最大相似度準則所估計的統計模型參數,就目前而言,

PLSA 模型已經被應用在多個領域,包括文件分類、文件分段[8],語音辨 識技術[45][46]及網頁探勘[24]等應用。

PLSA 模型中,運用 Aspect model 作為模型的主要架構,在 Aspect Model 中,使用機率密度函式作為已觀察到的文件和字詞之間潛在語意關 聯性的呈現方式。利用最大相似度估測法則,並結合了 EM 演算法推估 出隱含的模型參數。在這一節中,將會詳細地介紹 PLSA 模型參數推導。

(36)

3.2 模型參數

PLSA 中運用 Aspect model 並以潛在變數

z

k

Z

={

z

1,

K

,

z

K},呈現出 共同出現(co-occurrence)資料的關聯性。此處的潛在變數

z 可以被理解

k 為主題或者是一種意向。若將本文資料集稱之為Y ,則Y 實際上是由字詞 -文件對(

d

i,

w

j)所組成,若其中擁有

N 篇文件,則可將文件集表現為

} , ,

{

1 N

i

d d

d ∈ K

, 包 括

M 個 字 典 數 , 則 以 w

j∈{

w

1,K,

w

M} 表 示 , Hofmann[23],將一個共同出現對(

d

i,

w

j)的聯合機率由下列兩種機率形式 表現,一種是對稱式另一種則是非對稱式。其機率對應關係可由式(27) 呈現,並可以觀察圖五了解其關係

) (

) (

) (

) (

) (

) ( )

, (

1 1

i k K

k j k

i

k i K

k k j k

j i

d z P z w P d P

z d P z w P z P w

d P

=

=

=

=

(27)

z w

N M

d z w

N M

d

(a) 非對稱 (b) 對稱

圖五 PLSA 模型示意圖

此處必須假設文件和字詞對於潛在式語意的混合數之間為條件式獨 立(independent conditioned)。則產生的 PLSA 模型參數,字詞和文件可 分別在

K 個潛在主題上用 M 及 N 個混合數的多項式分佈(Multinomial)

來呈現,可用

=1 ( | )=1

M

j

P w

j

z

k

=1 ( | )=1

K

k

P z

k

d

i 表示。參數集以集合

(37)

)}

( ), (

{

P w

j

z

k

P z

k

d

i

θ

= 表 示 。 如 此 一 來 , 所 需 要 的 參 數 量 共 有

KN

KM

+ 個。此外,藉由計算在文件

d 中

i

w 出現的個數

j

n

(

d

i,

w

j),便可 以計算和資料集

Y

={(

d

i,

w

j)}對數-相似度函數,如式(28)所示

∑∑

= =

= N

i M

j

n d

i

w

j

P d

i

w

j

Y P

1 1

) , ( log ) , ( )

(

log

θ

(28)

藉由將式(27)的形式稍微做些變化,可將參數表示為矩陣形式,此表 示法,可以在使用奇異值分解的潛在式語意分析模型參數和機率式潛在 語 意 分 析 的 模 型 參 數 之 間 取 得 矩 陣 形 式 的 對 應 關 係 , 分 別 為

k i k

i

z

d

P

( )}, ˆ ={

U V

ˆ ={

P

(

w

j

z

k)}j,k以及

S

ˆ =diag{

P

(

z

k)}k,藉由此關係,

便可將 PLSA 中各個相似度函數表示成

P

={

P

(

d

i,

w

j)}i,j =

U

ˆ

S

ˆ

V

ˆT的形式。

這也說明了在相關研究中提到的兩者之間的關聯性。再者,間接地說明,

SVD 中的奇異值和潛在變數

z 之間的不同處。LSA 採用最重要成份的概

k 念,在 PLSA 則是較有分群的想法。

3.3 以最大相似度為準則作參數估測

在原始的 PLSA 模型參數估測中,主要是利用 ML 估測作為找出最 佳參數的方法,透過 log likelihood 最大化的原則達到此目的

) (

log max

ML arg

θ

θ

= θ

P Y

(29)

然而,參數中代表潛在語意的變數

z ,其值實際上並無法由直接觀

k 測取得,推導參數的過程中利用 EM 演算法來解決 missing data 的問題。

從相似度函數假設出發,根據 EM 演算法的程序,藉由該相似度函數的 期望值迭代的推導出模型參數估測

(38)

] , ˆ) , ( log [ ˆ )

(

θ θ E P Y Z θ Y θ

Q

= Z (30)

在式(30)中,以參數集

θ

={

P

(

w

j

z

k),

P

(

z

k

d

i)}={

θ

1,

θ

2}代表現階段 的參數集,藉由對該期望值函數

Q

(

θ

ˆ

θ

)求最大化,便可計算更新後的參 數集 ˆ {ˆ( ), ˆ( )} {ˆ, ˆ}

2 1

θ θ

θ

=

P w

j

z

k

P z

k

d

i = ,表示如下:

ˆ ) ( max ˆ arg

ˆ

θ θ θ

θ

Q

= (31)

由文獻[14]中證明,在 EM 演算法的迭代過程中,log likelihood 會隨 迭代次數遞增。代表

Q

(

θ

ˆ

θ

)≥

Q

(

θ

ˆ

θ

)和

P

(

Y θ

ˆ)≥

P

(

Y θ

)都會成立。

一般而言,經過適當的迭代次數後,會得到一個區域最佳化的最大相似 度估測的參數集。以下,在論文中將區分兩個小節分別推導 E-step 以及 M-step 兩個步驟詳細過程。

E-step

在 E-step 中,主要目的是求目標函數的期望值,而 PLSA 中隱含有 潛在變數

z ,故將基於潛在變數

k

z 對其對數相似度函數

k log

P ( Y θ )

求取 期望值,如式(32)

參考文獻

相關文件

in Proceedings of the 20th International Conference on Very Large Data

The International Conference on Innovation and Management 2012 (IAM 2012) is an annual conference on Innovation and management since 1999, organized and sponsored by the

Lange, “An Object-Oriented Design Method for Hypermedia Information Systems”, Proceedings of the Twenty-seventh annual Hawaii International Conference on System Sciences, 1994,

Proceedings of the Fifth International Conference on Genetic Algorithms, Morgan kaufmann Publishers, San Mateo, California, pp.110~117, 1996. Horn, J., “Finite Markov Chain Analysis

Shih and W.-C.Wang “A 3D Model Retrieval Approach based on The Principal Plane Descriptor” , Proceedings of The 10 Second International Conference on Innovative

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,

Li, The application of Bayesian optimization and classifier systems in nurse scheduling, in: Proceedings of the 8th International Conference on Parallel Problem Solving

Card, ”Bird song identification using artificial neural networks and statistical analysis”, in Proceedings of Canadian Conference on Electrical and Computer