• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
88
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

增強型潛在語意分析基礎之文件自動摘要 Automatic Document Summarization Based on

the Enhanced Latent Semantic Analysis

系 所 別:資訊工程學系碩士班 學生姓名:M09602007 丁泓丞 指導教授:周智勳 博士

中 華 民 國 九十九 年 八 月

(2)

i

摘要

本論文針對文件自動摘要進行研究,文中結合潛在語意分析(Latent Semantic Analysis)與文章詞彙相似度及文章句子相似度的概念,建構出關聯性矩陣,用來加強 與擷取文件中的概念結構,以得到語意層面的分析,進而篩選最適合之句子,作為文 件摘要的依據。

實驗針對 13 大類(生活、地方、社會、政治、科技、旅遊、財經、健康、國際、

教育、運動、戲劇、藝文)共 1300 篇網路新聞進行測詴。在效果評估方面,提出兩個 評估指標,以達到較客觀的摘要評估結果。實驗結果顯示,我們所提之方法能在較低 相似度與重複性下,獲得較具代表性的摘要句。

關鍵字:中文文件摘要,潛在語意分析,奇異值分解,中文斷詞

(3)

ii

ABSTRACT

The purpose of this research combined with Latent Semantic Analysis (Latent Semantic Analysis) and articles in similarity and sentences with the concept of similarity to construct the correlation matrix used to enhance and capture the concept of file structure to get the semantic level analysis, and then selected the most suitable of the sentence, as the basis for document summary.

The experiment was evaluated by using 13 categories of a data corpus (life, local, social, political, science, technology, tourism, finance, health, international, education, sports, drama, art) numbers of documents were 1300 from Yahoo! Web News. We propose the two points of evaluation in document summarization. The final experimental result proved that our proposed method can get lower similarity with the lower repetitive summary sentences, which more representation of the summary sentences.

Keywords : Chinese Text Summarization、Latent Semantic Analysis、Singular Value

Decomposition

(4)

iii

致謝

首先,我要向周智勳老師致最深的謝意,感謝老師這三年來辛苦的教導,啟發我 對研究的興趣,並監督我學習研究的學問,帶領我進入自然語言的研究中。除了課業 與研究的寶貴指點,也引導我正確的生活以及做人處事的態度。也感謝石昭玲老師、

連振昌老師、韓欽銓老師以及李遠坤老師於口詴期間給予的指導與建議,讓我得以完 成此論文。

對於研究所人機實驗室的雅慧、垂傑、惠裕、培根、宜達、永慶、金榮以及良哲 學長學姐們很感激大家對我情感上的支持及學業上的協助與照顧。我也要謝謝可愛的 柏鈞、一中、宣豪、誌堅、貫郁、地瓜、安婷以及小乖學弟學妹們,謝謝你們陪我走 過這一、兩年的歲月,也謝謝大學以及高中時代認識的同學小毛、小美以及佳靜的支 持與幫助,讓我得以完成學業。

最後我要感謝我最親愛的家人,感謝他們對我求學過程不斷的支持與鼓勵,讓我 有勇氣面對學業以及生活上種種的挑戰,願以這篇論文與你們分享。

丁泓丞 謹誌於 中華大學資訊工程研究所 中華民國九十九年八月

(5)

iv

目錄

摘要 ... i

ABSTRACT ... ii

致謝 ... iii

目錄 ... iv

表目錄 ... vi

圖目錄 ... vii

1.

緒論 ... 1

1.1. 背景與動機 ... 1

1.2. 研究方法與目的 ... 3

1.3. 論文架構 ... 3

2.

文獻探討 ... 4

2.1. 文件自動摘要的歷程發展 ... 4

2.2. 自動摘要方法 ... 5

2.2.1. 以語意分析為基礎之自動摘要 ... 6

2.2.2. 以文字特徵統計分析為基礎之自動摘要 ... 8

3.

潛在語意分析基礎之文件自動摘要 ... 14

3.1. 前處理 ... 14

3.1.1. 移除空白與標點符號 ... 15

3.1.2. 中文斷詞 ... 16

3.2. 關鍵詞擷取 ... 18

3.3. 建立詞彙對應語句的關係矩陣 ... 20

3.3.1. 詞彙對應語句之權重計算 ... 21

3.3.2. 潛在語意分析 (Latent Semantic Analysis) ... 24

3.3.2.1. 奇異值分解(Singular Value Decomposition) ... 24

4.

增強型潛在語意分析 (ENHANCED LATENT SEMANTIC ANALYSIS) ... 27

4.1. 關係矩陣 ... 28

4.1.1. 關聯度計算 ... 28

4.2. 模糊理論 (FUZZY LOGIC) ... 33

4.3. 增強型潛在語意分析基礎之自動摘要 ... 36

4.3.1. 增強型潛在語意分析之自動摘要生成 ... 38

(6)

v

5.

實驗分析 ... 44

5.1. ELSA 與 LSA 架構之差異 ... 44

5.2. 實驗資料說明 ... 45

5.3. 實驗目的與設計 ... 46

5.4. 效能評估方法 ... 46

5.5. 實驗參數設定 ... 47

5.6. 實驗結果 ... 48

6.

結論與研究方向 ... 54

6.1. 結論 ... 54

6.2. 未來展望 ... 55

參考文獻 ... 56

附錄一 ... 62

附錄二 ... 64

附錄三 ... 65

附錄四 ... 66

附錄五 ... 76

(7)

vi

表目錄

表 3-1 關鍵詞對應語句之權重向量矩陣 ... 24

表 4-1 常見關聯度計算方法(資料來源[38])... 28

表 4-2 關鍵詞對應語句之權重矩陣 ... 29

表 4-3 關鍵詞間關聯度矩陣 ... 32

表 4-4 語句間關聯度矩陣 ... 33

表 4-5 計算交互乘積矩陣AA ... 40 T 表 4-6 特徵值矩陣 ... 41

表 4-7V 矩陣特徵向量 ... 41

表 4-8 奇異值矩陣 ... 41

表 4-9U 矩陣特徵向量 ... 42

表 4-10 增強型潛在語意分析之摘要候選句 ... 42

表 4-11 增強型潛在語意分析之摘要候選句 ... 42

表 4-12 範例之摘要 ... 43

表 4-13 範例之原始文章 ... 43

表 5-1 實驗文件集特性說明 ... 45

表 5-2 奇異值挑選之設定 ... 47

表 5-3 類別關鍵詞庫詞數設定 ... 48

表 5-4 類別關鍵詞庫詞數為各 5 個時,文件分類正確率 ... 51

表 5-5 類別關鍵詞庫詞數為各 35 個時,文件分類正確率 ... 51

表 5-6 類別關鍵詞數為各 60 個時,文件分類正確率 ... 51

表 5-7 各種類別關鍵詞數情況之文件分類正確率 ... 51

表 5-8650 篇文件摘要句平均相似度 ... 53

表 5-91300 篇文件摘要句相似度總和 ... 53

(8)

vii

圖目錄

圖 1-1 文件摘要系統架構圖[2] ... 2

圖 2-1 自動摘要相關研究 ... 5

圖 2-2 潛在語意分析產生摘要步驟 ... 6

圖 2-3 詞彙鏈結產生摘要步驟 ... 7

圖 2-4CHANG[4]所提方法之摘要產生步驟 ... 11

圖 3-1 潛在語意分析為基礎之自動文件摘要架構 ... 14

圖 3-2 前處理之移除標點步驟流程圖 ... 15

圖 3-3 詞彙出現詞頻與其重要性之關係 ... 19

圖 3-4 詞彙對應語句的關係向量示意圖 ... 20

圖 3-5 關鍵詞在文章語句中出現情況 ... 23

圖 3-6 奇異值分解示意圖 ... 25

圖 3-7 奇異值矩陣重建示意圖 ... 26

圖 4-1 本研究系統架構圖 ... 27

圖 4-2 本論文奇異值分解流程示意圖 ... 38

圖 4-3 增強型潛在語意分析之合成關係矩陣示意圖 ... 40

圖 5-1ELSA 系統流程圖 ... 44

圖 5-2LSA 系統流程圖 ... 44

圖 5-3 類別關鍵詞數為各 5 個時,文件分類正確率比較圖。 ... 49

圖 5-4 類別關鍵詞數為各 35 個時,文件分類正確率比較圖。 ... 50

圖 5-5 類別關鍵詞數為各 60 個時,文件分類正確率比較圖。 ... 50

圖 5-6 各種類別關鍵詞數情況之文件分類正確率比較圖。 ... 50

圖 5-7650 篇文件摘要句平均相似度比較圖 ... 52

圖 5-81300 篇文件摘要句平均相似度比較圖 ... 52

(9)

1

1. 緒論

1.1. 背景與動機

近年來,隨著電腦科技與資訊技術的快速發展,使得在網路上流通的資訊呈指數 成長,使用者必頇花費更多的時間,以人力的方式篩選出有用或是有意義的資訊。由 於使用者普遍缺乏足夠的時間一一分析與吸收大量的資訊,於是如何在短時間有效的 整理資訊,成為一個很重要的議題。而其中一個可行的解決之道就是利用自動摘要功 能,將所收集到的資訊精簡化,但卻不失其原意。

文件自動摘要是文件探勘(Text Mining)中重要的項目之一,其目的在於從指定的 文件中萃取出原文必要且重要的部分。摘要的主要目的,不但能從簡短的文章摘要中 讓使用者瞭解原文的主要意涵,又能減少使用者閱讀文件的時間[31]。自動摘要是電 腦語言學領域的一個研究重點,其研究和應用受到了電腦學、語言學及認知心理學等 相關學科的廣泛關注。自動摘要是以電腦為工具,自動從原始文件中獲取重要資訊的 過程。它是電腦語言學和情報學共同關注的課題,亦被認為是電腦實現自然語言理解 的重要標誌之一。而依據是否借助語料庫來看,自動摘要可分為基於語料庫的摘要和 普通摘要。前者需要有語料庫,並借助機器學習演算法;後者則無需語料庫,也不需 要學習過程。

我們依據資訊物件的承載方式不同分為文件自動摘要和多媒體內容自動摘要。前 者的資訊物件是文字內容;後者的物件包括音訊或多媒體影像,它是新的研究分支,

超出了本文的討論範圍,本文只討論文件自動摘要。若是依據文章的數量,我們可將 其分為單文件摘要和多文件摘要,前者提取代表文章的主要內容;後者則是把多篇探 討相關主題的文章融合在一起,提取相關此主題的內容,並過濾重複資訊。

(10)

2

文件自動摘要目前的作法大致上可以分為兩種:第一種使用統計分法來計算關鍵 詞的權重,並依此找出文章中重要的句子:第二種則依靠語言學(Linguistics)的領域知 識,主要是透過詞性判斷、文法、同義詞詞庫與辭典等找出詞彙之間的關係,進而找 出文章中重要的句子以及句子間的關聯性。而這兩種方法之間的差異在於,以第一種 方式建立摘要,在速度上會比第二種方法快上許多,而以第二種方式建立摘要,雖然 在前置作業與處理要花上比較多的時間,不過最後得到的摘要效果比較好。

文件摘要過程可分為四個階段[21],如圖 1-1 所示:1.分析原始文件(Analyze the input text),2.選取重要特徵(Select salient features),3.將分析的結果轉換為系統內部的 摘要表示法(Transform the input text into a summary representation),4.評估內部摘要表 示法的重要性,並挑選候選的表示法來合成摘要的輸出格式(Synthesis an appropriate output form)。

圖 1-1 文件摘要系統架構圖[2]

評估自動摘要的效果所要考慮的因素有摘要的可讀性、摘要的內容流暢程度、原 始文章的壓縮比(Compression Ratio)、流暢性等,這些因素直接影響自動摘要結果的 好壞[2]。

(11)

3

1.2. 研究方法與目的

本論文的目的在於提出三種結合潛在語意分析(Latent Semantic Analysis)的方法,來提 升最後文件摘要的代表性。此三種方法:第一種以矩陣乘法(Matrix Multiplication)的 方式將三個矩陣:詞彙間相似度矩陣、句子間相似度矩陣及詞彙對應句子的矩陣做結 合,再將結合之矩陣做奇異值分解,進而挑選出較重要的摘要句;第二種與第三種皆 以模糊推論(Fuzzy Max-Product、Fuzzy Max-Min)的方式將上述三個矩陣做結合,再 將結合之結果矩陣做奇異值分解,進而挑選出較重要的摘要句。最後再針對這三種方 法提出三個評估指標以驗證其可行性。

本研究主要目標將針對大五碼(BIG5)編碼之繁體中文網頁加以處理,且不包 含圖形與其他語言,針對關鍵詞篩選統計但不包含同義字的探討。資料來源為 Yahoo 網路新聞,其分類共有 13 大類。另外,中文文字不像西方文字有明顯的空白可以將 句子中的各個詞彙區分開,故需先輔以中文斷詞的處理,而中文斷詞為一專門學科,

本研究採用現有斷詞規則對於未知詞的處理不在本研究範圍內。

1.3. 論文架構

本論文主要分五個章節:第一章章節為研究背景、動機與目的;第二章為本論文內容 所涉及之相關理論基礎加以說明;第三章語意分析方法;第四章則描述我們所提之增 強型潛在語意分析方法;第五章說明實驗設計與參數設定;第六章說明實驗結果分析 討論,以驗證說明本論文所提方法的可行性;最後,第七章說明本研究之成果與未來 發展方向。

(12)

4

2. 文獻探討

此章節將說明與本研究相關之文獻。首先,先介紹文件摘要的技術發展歷程與文件摘 要的方法,由相關文獻可以整理出,目前文件摘要的方法主要可以分為「語意分析」

或稱「語言學」與「文字特徵統計分析」或稱「統計」兩大方法。最後,將敘述本研 究為什麼要結合此兩種方法的原因。

2.1. 文件自動摘要的歷程發展

自動摘要研究始於 1958 年,由美國 IBM 公司的 Luhn[20]開創了自動摘要研究的 先河。接著,美國馬里蘭州大學的 Edmundson [9]、美國俄亥俄州立大學的 Rush[28]、

英國 Lancaster 大學的 Paice[27]等研究選取字詞的不同特徵作為提取摘要的關鍵。這 一階段學者只是圍繞文章字詞層面進行特徵擷取,只是簡單地依賴粗糙的統計資料和 不同性質的特徵之簡單線性疊加。

之後,學者開始考慮文章的句法特徵和語義特徵,建立起以人工智慧特別是計算 語言學為基礎的方法。美國耶魯大學的 Schank、義大利 Udine 大學的 Fum、美國 GE 研究開發中心的 Rau[3]等分別應用腳本分析(script analysis)、一階邏輯(First-order logic)推理和框架等表示文章的結構和意義,從而分析和推理得到文章的摘要。

至此,自動摘要研究分為兩大陣營:基於「統計」的自動摘要和基於「意義」的 理解摘要。除此之外,學者也詴圖尋求其他的解決方法,特別是隨著機器學習、認知 心理學、語言學等領域不斷湧現出新的成果,自動摘要研究也進入了一個多元化的新 時代。美國 Syracuse 大學的 Liddy[19]提出擬人的方法,日本 Toshiba 公司的 Ono[26]

等依據修辭結構研究自動摘要。蘇聯的 skoroxod'ko[1]依據語句關聯網生成摘要,美 國的 Kupiec[17]提出基於語料庫的方法來計算每個語句的權值,以色列 Ben Gruion

(13)

5

大學的 Barzilay[2]依據詞彙鏈產生摘要。日本北海道大學 Maeda[12]等人,依據句子 間相互依賴關係產生摘要。美國多倫多大學的 Marcu[22]採用修辭結構樹的方法產生 摘要。

2.2. 自動摘要方法

自動摘要的作法,大致上可分為「語意分析」(Text Understanding Analysis)與「文 字特徵統計分析」(Text Feature Analysis)兩大類,「語意分析」(Text Understanding Analysis),是藉由語言的文法特性萃取出文章的主題以及藉著額外的資訊或是資源,

如辭典、同義詞庫、詞性標記、語法樹等來達成摘要句的產生[45];「文字特徵統計 分析」(Text Feature Analysis),則計算字詞的頻率,依照字詞的重要程度決定原文句 的重要性進而形成摘要。兩者間的差異在於「文字特徵統計分析」其作法較不依額外 在的知識或資源。兩類方法之相關研究敘述如圖2-1所示:

圖 2-1 自動摘要相關研究

(14)

6

2.2.1. 以語意分析為基礎之自動摘要

本方法藉由自然語言處理技術,由文法特性或字詞的意思萃取出文章中重要的句子。

作法上主要是在前處理完之後找出關鍵詞並給予辭彙詞性;接著藉由額外的字典或是 同義詞辭典等來連結每個詞彙間的關係與意義;最後,依照這些詞彙的重要性與關係,

進而擷取出重要的句子。Gong [11]提出以潛在語意分析(Latent Semantic Analysis)的方 法產生摘要,而Steinberger[33]、Yeh [35]則是以Gong[11]所提之方法加以擴充延伸研 究,將潛在語意分析(Latent Semantic Analysis)套用在相關地圖(Text Relationship Map),

最後並以Global Bushy Path[29]來產生摘要。潛在語意分析法不但能提升潛在語意的 引含意義,更能提升重要語句的識別,其系統架構如圖2-2所示,並說明如下:

圖 2-2 潛在語意分析產生摘要步驟

(1) 前置處理(Preprocessing):此階段包含去除停用字,例如:a、about、all、and、

as等,字根還原等處理。

(2) 潛在語 意分析 (Latent Semantic Analysis) : 以 奇異值分解 (Singular Value Decomposition)與維度縮減化(Dimension Reduction)為其邏輯推導核心。其基

Document

Preprocessing

Latent Semantic Analysis

Sentence Extraction

Summary

(15)

7

本概念是以較低維度(維度縮減)的共同語意因子(Semantic Factors)呈現原文 章字詞與原文章語句間的關連。

(3) 摘要句擷取(Sentence Extraction):由前述步驟所找出句子間的關連性與重要 性,進而擷取符合主題的摘要句。

(4) 摘要(Summary):前述步驟擷取的摘要句依照位於原始文章中的先後順序排 列。

有別於潛在語意分析法[36]則是以詞彙鏈結與結構特徵的方法產生摘要,其系統架構 如圖2-3所示,並說明如下:

圖 2-3 詞彙鏈結產生摘要步驟

(1) 前置處理(Preprocessing):此階段包含去除停用字,字根還原等處理。

(2) 候選詞(Candidate Terms):將詞彙與事先建立好的詞庫做比對,如果詞彙有存 在於詞庫中,則將其列為候選詞。

Document

Preprocessing

Lexical Chains and Structural Features

Sentence Extraction

Summary Candidate Terms

HowNet (知網) 詞庫

(16)

8

(3) 詞彙鏈結(Lexical Chains)與結構特徵(Structural Features):

I. 詞彙鏈結:利用HowNet(知網)[13]內的詞彙之間和詞彙的屬性之間的各 種關係,建立候選詞間的關聯性鏈結。詞彙關係形成事件詞彙鏈的關聯 性計算。透過詞彙鏈結重要度計算,可客觀地判斷詞彙鏈結的重要性,

並從中選擇出較重要的詞彙鏈結來擷取出教具代表性的摘要句。

II. 結構特徵:利用文章結構特性給予各語句不同權重值。比如:通常第一 段與最後一段都是帶出主題或是總結主題的語句,所以落在這兩段的語 句有較高的重要性。

(4) 摘要句擷取(Sentence Extraction):將上步驟兩個方法所計算出的值結合,我 們可以得到每個語句的重要性,最後依分數高低排列,選擇前高分的句子段 落為摘要句。

(5) 摘要(Summary):前述步驟擷取的摘要句依照位於原始文章中的先後順序排 列。

2.2.2. 以文字特徵統計分析為基礎之自動摘要

文字特徵統計分析方法,主要是以統計的方法統計詞頻,並利用關鍵詞出現的位 置與次數,來計算語句的重要程度。一般而言句子內涵蓋越多的關鍵詞就越重要,進 而擷取為摘要句。而文字特徵統計的優點在於,不用事先建立詞彙辭典以及文句語法 等,就可以單只透過統計方法進行分析。因為沒有使用自然語言處理,所以語句間的 連續性與可讀性較弱為其缺點。

文字統計分析法裡有幾種常見方法是用來決定詞彙的重要程度[15][43][35],如下所 示:

(1) TF-IDF(Term frequency Inverse Document frequency)

(17)

9

TF 為「詞頻」表示一字詞在某篇文件中出現次數;IDF 為「反詞頻」反應 該字詞在整個文件集中的分佈情況。所以,當 IDF 值越高時表示該字詞出現 在較少的文件中;相反的,當 IDF 值越低時表示該字詞出現在較多文件中。

因此,根據上述兩個要素,一般最常見的關鍵詞選取方法就是採用 TF-IDF 的方法,即為詞頻與文件頻率的倒數(反文件頻率)的乘積來計算,其結果 表示某一關鍵詞在某一文件中的重要程度。我們以符號表示如下:

𝑤𝑖𝑘 = 𝑡𝑓𝑖𝑘 ∙ 𝑖𝑑𝑓𝑖 (2.1)

其中𝑤𝑖𝑘代表關鍵詞𝑘𝑖在文件𝑑𝑘的權重,𝑡𝑓𝑖𝑘代表關鍵詞𝑘𝑖在文件𝑑𝑘中出現的 次數,而𝑖𝑑𝑓𝑖代表關鍵詞𝑘𝑖在所有文件集合中,出現的篇數之倒數即為反文 件頻率,其定義如下所示:

𝑖𝑑𝑓𝑖 = log𝑁𝑛 (2.2)

𝑁代表文件集合的文件總數, 代表文件集合中含有關鍵詞𝑘𝑖的文件數。

(2) 熵(Entropy)

計算詞彙在文件中的資訊量。某詞彙在所有文件中出現的次數越均勻,其熵 值越高;反之,若在文件中出現的次數越不均勻,則熵值越低。熵值的定義 如下:

𝐻𝑖 = − ∑M𝑗=1𝑃(𝐶𝑗|𝐾𝑖)log(𝐶𝑗|𝐾𝑖) (2.3) 其中條件機率𝑃(𝐶𝑗|𝐾𝑖)表示,若某文件出現詞彙𝑘𝑖,則此文件歸屬類別𝐶𝑗的 機率; 表示文件集內類別個數。

(3) 相互資訊(Mutual Information)

計算兩詞彙一起出現的機率,當某詞彙因另一詞彙出現而增加其出現頻率時,

表示此兩詞彙同時出現的資訊有參考價值。

(4) 𝜒2統計量(Chi-Square)

(18)

10

計算詞彙與文件類別的相依程度。當詞彙出現次數越是隨著某類別文件的出 現而明顯增加,且越不隨著其他類別文件出現,則χ2統計值越高;反之,當 詞彙出現次數越隨其他類別出現而增加,則χ2統計值越低。

(5) 標題字(Title Words)

假如在本文中的字彙有出現在標題上,則增加該字詞的權重。

(6) 提示片語(Cue-Phares)

提示片語如:”conclusion”、”result”、”summary”等,通常表示有總結整篇或 某段的內容,故可加重後續詞彙之權重值。

(7) 大寫字(Capital Words)

出現大寫字加重其權重,只適用於英文。McDonald[15]認為在句子中的專有 名詞也是相當重要的,但是目前專有名詞抽取的技術未成熟,一般只將大寫 字視為專有名詞。

文字統計分析方法裡有幾種常見方法是用來決定句子重要程度[23][34][6],如下 所示:

(1) 句子出現位置(Position)

出現在段落的首句或最末句,增加其權重。

(2) 句子長度(Length)

從全文中排除短句,即只保留字數高於預設門檻值的句子,然後再從中選取 摘要句。

(3) 句子所在段落其位於文章中的位置(Paragraph)

文章的撰寫上幾乎都是遵循起(第一段-主題說明)、承(第二段-事情發展)轉(第 三段-詳盡說明)合(第四段-總結),且落在第一段(起)與最後一段(合)的語句,

通都是帶出主題或是總結主題的語句,故落在這兩段的語句重要性較高。

經由統計方法計算之後,有些研究會以分群法來辨別類似的主題,以避免在摘

(19)

11

要中重複相同主題,也有一些研究利用分群法來計算主題的重要性。

圖 2-4 Chang[4]所提方法之摘要產生步驟

有關以文字特徵統計分析法於自動摘要的研究上[4],依據 Katz[16]的 K-mixture 機率模式來計算字詞的權重。Katz[16]所提之機率模式為簡化的二項是機率分佈,也 可視為多個無窮的阿布松(Poisson)分佈的混和,其[4]系統架構如圖 2-4 所示。

(1) 前置處理(Preprocessing):此階段包含去除停用字,字根還原等處理。

(2) Term weight Determination (決定詞彙權重):權重決定的方法是依據 Katz的 K-mixture機率模式來計算字 詞的權重。

(3) Term Relationship Exploration (探索詞彙間關係):

a. 計算詞彙間的距離:將一句話裡的名詞與動詞依序作標記,而其距離就 是他們所標記數字的相減。

例:在一個句子中將裡面包含的名詞以及動詞依序做標記如下:

Document

Preprocessing

Term Weight Determination

Term Relationship Exploration

. Calafate El

of twon the

from ) miles (48

kilometers 78

south far

in the located

, glacier the

facing platform

a on huddled tourists

days For

12 11

10 9

8 7

6

5 4

3 2

1,

Summary

(20)

12

詞彙間距離的計算定義如下:

(2.4) ABS 是指兩字之間的距離絕對值,C 代表的是每一個詞彙的序號。

如下例所示:

D(days , huddled) = ABS(C(days) – C(huddled))

= ABS(C(1) – C(3)) = 2,故得知兩詞彙間距離為 2。

b. 計算名詞的連結強度:要計算名詞的連結強度(CS),就要先計算名詞與 名詞及名詞與動詞間的關連型態 SNN 及 SNV,其分別定義為:

其中 P 為該字詞(名詞或是動詞)發生的機率,N 為名詞i i ,V 動詞 j 。 j

c. 計算句子重要性:將文句中所有名詞的連結強度算出,再加以平均。

文句 s 之重要性計算公式如下所示:

其中 m 代表文句 s 所包含的名詞數。

(4) Summary generation(摘要產生):文句依重要性排序,再選擇前 k 個句子來產 生摘要。參數 k 的設定一般是依據使用者要產生相對於原文多少保留比例的 摘要來決定。

Chang[4]透過統計方法之機率模式(K-mixture)計算關鍵詞權重以及應用詞彙間鏈

(2.7) ) ( )

( )

(

(2.6) ) , ) (

(

(2.5) ) , ) (

(

i i

i

j i j

V N i

j i j

N N i

N SNV N

SNN N

CS

V N D

P N P

SNV

N N D

P N P

SNN

j i

j i

 

 

C(Y)) ABS(C(X)

Y)

D(X,  

(2.8)

/ ) ( )

(

1

m

i

i

m

N CS s

Score

(21)

13

結強度(Connective Strength, CS)分析詞彙間相互關係之KCS方法,明顯提昇文件摘要 應用在文件分類中的準確度。[10][38]同樣也是應用統計模型的方法,主要運用在計 算詞彙的共存性(Co-occurrence)以找出文章裡的主題詞彙。再將所有詞彙分群以區分 主題,並建立詞彙彼此間的相互關係鏈結,最後再依前述方法計算每個句子的重要性,

進而萃取出文章摘要。

由上述得知,文件摘要方法目前可分為「語意分析」方法或稱為「語言學」方法 與「文字特徵統計分析」方法或稱為「統計」方法兩大類。「統計」方法主要是用來 決定詞彙重要性;而「語言學」則是透過詞性判斷、文法、同義詞詞庫與辭典等給予 詞彙詞性與意義,並以此找出彼此間的相互關係。其中,「統計」方法的優點為可以 較快的速度建置摘要;但是在語句的連續性與可讀性相對的就較差。而以「語言學」

方式建立摘要,雖然在前置作業與處理要花上比較多的時間,不過最後得到的摘要效 果比較好,且語句的連續性與可讀性也比較好。綜合此兩種方法的優點,本研究的目 的即提出一個結合統計、語言學與模糊推論的方法,來提升文件摘要的可讀性、連續 性與整體品質。

(22)

14

3. 潛在語意分析基礎之文件自動摘要

本章節將介紹以潛在語意分析為基礎之自動文件摘要方法,在架構上分為四階段,

如圖 3-1 所示。第一階段為前處理(Preprocessing):主要的任務是先自網頁新聞文件中 選取有用的特徵 (關鍵詞 )來代表 文件,第二階段為 詞彙權重 設定(Terms weight determination):利用 TFSF(Term Frequency Sentence Frequency)權重計算方法,決定每 個關鍵詞彙的權重,第三階段為潛在語意分析(Latent semantic analysis , LSA),最後 第四階段為摘要產生(Summary Generation):將摘要句依據在原始文件中出現的先後 順序依序排列。以下就各部分做進一步說明。

圖 3-1潛在語意分析為基礎之自動文件摘要架構

3.1. 前處理

對中文文件自動摘要而言,除了蒐集中文文件之外,還必頇從中文文件中擷取出 構成中文文件的各個元素,也就是以詞彙作為特徵詞,但因為中文沒有空白斷開詞彙,

(23)

15

故需要借助移除多餘的空白、標點符號以及斷詞的工作來處理,流程如圖 3-2 所示:

圖 3-2 前處理之移除標點步驟流程圖

3.1.1. 移除空白與標點符號

(1) 移除標點符號:

此步驟移除「,」、「。」、「、」、「;」、「:」、「!」、「「」」、「『』」、「()」、「_」

以及「?」等標點符號,即可將文章段落切割成較小單位的句子,以利後續 的處理。

(2) 移除空白:

此步驟移除文章文句中不必要的空白地方。

以底下例子為例:

經過去標點以及移除空白處理完為:

文件 移除空白與

標點符號 N-Gram 斷詞 19 萬詞庫

小薰與製作人男友小明分手,小薰 12 日錄九大但是又何奈時神情落寞,她說淚 已哭乾,但堅信絕無第三者介入,未來她會好好打拚事業,7 月與小咪代言北 海道觀光。

與小明頗有私交的小康對兩人分手之事存疑,認為應只是吵架,「男生想散布單 身訊息這件事,女生當然會生氣。」

(24)

16

並可得知此篇文章文句數為 10。

3.1.2. 中文斷詞

因為中文不像英文使用空白斷開詞彙,所以頇藉斷詞的工作來處理,目前最常見 的自動斷詞方法大約有三種[5](非人工斷詞),即長詞優先法、法則式法及機率式方法。

除此之外,還有另一種是 N-元詞(N-Gram)取詞方式[46]本論文採此方法斷詞與選 詞。

一、 長詞優先法

最簡單也最廣泛使用的辭典比對式的斷詞方法,其斷詞的方法由句子的一端開始,

詴著比對出在辭典中最長的詞,當作斷詞結果,接著去除此詞後,剩下的部分繼續做 長詞優先法斷詞,直到句子的另一端結束為止。

二、 法則式斷詞

凡是語言,大多會遵循某種文法規則,所以只要建立完備的文法規則,便可依照 規則將每個詞取出來,其缺點是中文語法規則繁多,且常常會有特例的情況出現,且 同時要從眾多的文法規則中找出適當規則來符合當前的句子往往是件不易的事情。

小薰與製作人男友小明分手

小薰 12 日錄九大《但是又何奈》時神情落寞 她說淚已哭乾

但堅信絕無第三者介入 未來她會好好打拚事業 7 月與小咪代言北海道觀光

與小明有私交的小康對兩人分手之事存疑 認為應只是吵架

男生想散布單身訊息這件事 女生當然會生氣

(25)

17

三、 統計斷詞

統計斷詞法是利用大量的語料庫(Corpus)資料來統計每個字所出現的頻率,由 於中文的詞是由一個以上的字所組成,一般而言有意義的詞彙出現的頻率通常會比沒 有意義的字組來的高,所以我們由語料庫中統計詞彙發生的頻率,出現頻率較高的字 組視為有意義的詞彙,並將其作為之後文章斷詞的依據。統計斷詞法的優點是不需事 先準備詞庫,遇到詞庫中所沒有的新詞,也能將其斷出且較不受語文國別與句型的限 制。缺點是容易將一些出現頻率高但沒有意義的字組當做有效詞,或是忽略出現頻率 小但具重要意義的詞彙,因此整體而言正確率較低。

四、 N-元詞(N-Gram)選詞方式

N-元詞選詞之所以叫選詞而不是斷詞是因為前述三種方法都需要藉由人工辭典 當作斷詞的基礎,其斷詞的結果當然也比較接近人工斷詞的水準,而 N-元詞的方法 則不然,其不需要辭典,全部只需依靠語言的統計分析決定。N-元詞為文件中任意連 續 n 個字的字串,雖然大部分的 N-元詞沒有意義,但 N-元詞仍能抓住文件的用詞,

可以有效的代表該文件,使用方法若以每兩個字為一個單位切開,稱 2-元詞,每三個 字為一組,稱 3-元詞,其餘類推。舉例來說:

句子”小薰與製作人男友小明分手”其 2 至 4 元詞分別為:

2-元詞:小薰|薰與|與製|製作|作人|人男|男友|友小|小明|明分|分手

3-元詞:小薰與|薰與製|與製作|製作人|作人男|人男友|男友小|友小明|小明分|明手 4-元詞:小薰與制|薰與製作|與製作人|製作人男|作人男友|人男友小|男友小明|友

小明分|小明分手

此本篇論文將前述三種方法與 N-元詞方法結合,即將一段字串使用 N-元詞斷完 詞後,不採統計方式選詞,而是與事先建置好的,包含 19 萬詞的詞庫,進行比對,

(26)

18

僅留下存在於詞庫裡的詞彙,這樣的好處在於過濾後的詞彙都為有意義的詞彙。

3.2. 關鍵詞擷取

關鍵詞為有意義且具代表性的片語或詞彙,也是表示一篇文件特性最直接的方法。

然而關鍵詞的認定牽涉到個人的主觀判斷,且相同的詞彙在不同的主題下,也有不同 的認定,在此情況下,要比較各種關鍵詞擷取方法的成效,並不容易。目前關鍵詞擷 取方法[24]大略分為三種:詞庫比對法、文件剖析法及統計分析法。

A. 詞庫比對法:

藉由事先建立的詞庫來比對輸入文件,將文件中出現在詞庫中的詞彙擷取出來。

此方法的製作很簡單,只需將文件中的每個詞與詞庫比對,判斷詞彙是否出現在詞庫 中即可。雖然擷取出的結果都是詞庫中的正確詞彙,但卻不能保證所有關鍵詞都能被 擷取出來。其缺點還包括:需要耗費人力、時間維護詞庫以容納各個領域的專業用語 與新生詞彙,無法應付未曾預料的人名、地名、機構名等專有名稱,且當詞庫越大相 對的比對速度越慢。

B. 文法剖析法:

以自然語言處理技術的文法剖析方式,剖析出文件中的名詞片語,再搭配一些準 則,過濾掉不適合的詞彙。其獲得的詞彙幾乎都是有意義的名詞片語,但大部份的剖 析程式,需要藉事先已建立的詞典或語料庫,因此缺點也和詞庫比對法一樣[52]。

C. 統計分析法:

透過對文件的分析,累積足夠的統計值後,再將統計值符合某些條件的片語擷

(27)

19

取出來。最簡單的統計值是統計詞彙發生的頻率,即詞頻,將詞頻落在某一範圍的詞 彙取出,如圖 3-3 所示。區域 I:此區域中的詞彙在文件中出現機率低,其重要性低。

區域 II:此區域中的詞彙在文件中出現機率高,但其重要性也很高,這些詞就是所要 萃取出的關鍵詞,可以用這些關鍵詞來代表文件。區域 III:此區域中的詞彙在文件 中出現機率極高,但不重要,如 Stop Words。本方法由於沒有用到詞庫或語料庫,會 有擷取錯誤的情況發生,得到無意義或不合法的詞彙。此外,統計量不足的關鍵詞亦 無法被選到,會造成一些較具代表性的詞彙沒被選到。而其優點為較不受語文國別與 句型的限制,且可以擷取出未被詞庫或語料庫所網羅的專業用語、新生詞彙及專有名 稱等。

圖 3-3 詞彙出現詞頻與其重要性之關係

本篇論文將上述方法之詞庫比對法與前一節所述之 N-元詞方法結合,即將一段 字串使用 N-元詞斷完詞後,不採統計方式選詞,而是與事先建置好的,19 萬詞[53]

庫進行比對,僅留下存在於詞庫裡的詞彙。這樣的好處在於過濾的速度較快且過濾後 的詞彙都為有意義的詞彙。

(28)

20

3.3. 建立詞彙對應語句的關係矩陣

由於文件是由許多詞彙所構成的,其中包含有鑑別度的關鍵詞彙,且可視為空間 中的一個向量,而向量的維度則由每篇文件所有的關鍵詞彙之數量而定。以圖 3-4 為

例,S 為語句 1;1 S 為語句 2,而表格內之值表示該詞彙出現在語句中的次數,即每2

個詞彙對應每個語句的關係,所以我們可以獲得向量 1 與向量 2 (vector1、vector2)兩 個特徵向量。

圖 3-4 詞彙對應語句的關係向量示意圖

所有的詞彙對應語句的關係向量,可以組成一個詞彙對應語句的權重關係矩陣 A,如 下所示:

 

 

ij i

j

i

j

w w

w w

K K

S S

A

1

1 11

1 1

(3.1) . 小薰與製作人男友小明分手

製作 作人 男友 分手 神情 落寞

1 1 1 1 0 0

vector1: (1,1,1,1,0,0)

.小薰 12 日錄九大《但是又何奈》時神情落寞

製作 作人 男友 分手 神情 落寞

0 0 0 0 1 1

vector2: (0,0,0,0,1,1)

(29)

21

其中K 表示文件中第i i 個關鍵詞,S 表示文件中第 j 句語句,j w 表示第 i 個關鍵ij 詞在 j 句語句的權重值。

3.3.1. 詞彙對應語句之權重計算

由3.2節所擷取出的關鍵詞,我們可利用計算詞彙位於文件中的重要性來達成,

即詞彙位於文章中的權重。以下將先介紹幾種常用關鍵詞權重計算方法[45]:

(1) Boolean Weight(BW):將文件中出現的詞其彙頻率之權重值設為1;未出現 則設為0。

𝑤𝑖𝑗 = { 1, 𝑖𝑓 𝑓𝑖𝑗 > 0

0 , 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 (3.2)

𝑤

𝑖𝑗

關鍵詞𝑘𝑖在文件𝑑𝑗

的權重值,

𝑡𝑓𝑖j:關鍵詞𝑘𝑖在文件𝑑𝑗中出現的次數。

(2) Term Frequency Weight(TF):詞出現在文件中的頻率。

𝑊𝑖𝑗 = 𝑓𝑖𝑗 (3.3) 𝑤𝑖𝑗:關鍵詞𝑘𝑖在文件𝑑𝑗中的權重值,

𝑓𝑖𝑗:關鍵詞𝑘𝑖在文件𝑑𝑗中出現的次數。

(3) Term Frequency Count Weight (TFC):詞彙出現頻率,並考慮文件長度的不 同。

𝑤𝑖𝑗 = 𝑓𝑖𝑗∙𝑙𝑜𝑔(

𝑁 𝑛)

√∑𝑀𝑖=1*𝑓𝑖𝑗∙𝑙𝑜𝑔(𝑁𝑛)+

(3.4)

𝑤𝑖𝑗:關鍵詞𝑘𝑖在文件𝑑𝑗中的權重值,

𝑓𝑖𝑗:關鍵詞𝑘𝑖在文件𝑑𝑗中出現的次數, :文件𝑑𝑗中關鍵詞總數,

𝑁:文件總數, :文件集合中含有關鍵詞𝑘𝑖的文件數。

(30)

22

除了上述三種方法之外另外還有2.2.2節中所介紹的TF-IDF以及熵(Entropy)方法。上述 方法中BW法只考慮某關鍵詞是否出現在某篇文件中,其缺點為無法反應某一關鍵詞 在某篇文件中的重要性;而其餘方法只考慮某一關鍵詞分佈在整個文件集中的分佈程 度與集中度,而計算出某一關鍵詞在整的文件集中的重要性。由於本篇論文所提之方 法為即時(Real Time) 與單篇文章的自動摘要之方法,所以需在不考慮整個文件集的 情況下,卻又能準確的計算出某一關鍵詞位於某篇文件中的重要性。這樣的好處在於 只考慮單一文件時,在整體計算速度上會比考慮整個文件集快。故我們提出一個用來 決定關鍵詞權重的方法,如下所示:

TFSF(Term frequency sentence frequency):

TF 稱「詞頻」如前所述表示一字詞在某篇文件中出現頻率次數;SF 稱「句頻」

表示某篇文章中包含某一字詞的句子數。所以,當 SF 值越高時表示該字詞出現在較 多的句子中;相反的,當 SF 值越低時表示該字詞出現在較少句子中。本研究在關鍵 詞擷取處以「詞庫比對」的方式(19 萬詞庫)過濾出有意義的詞彙,每個有意義的詞彙 即「關鍵詞彙」,為了賦予每個關鍵詞權重,我們考慮其在文章中出現的次數與其出 現在該文中句子數。

𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 ∙ s𝑓𝑖 (3.5)

其中

𝑤

𝑖𝑗代表關鍵詞𝐾𝑖在文句𝑆𝑗的權重,𝑡𝑓𝑖𝑗代表關鍵詞𝐾𝑖在語句𝑆𝑗中出現的次數,而𝑠𝑓𝑖 代表關鍵詞𝐾𝑖在文章所有句子中,共出現在幾句句子中,即為文句頻率其定義如下。

𝑠𝑓𝑖 =𝑁 𝑛 (3.6)

N 代表文章中句子總數, 代表文章中含有關鍵詞𝐾𝑖的句子數。

以圖 3-5 為例,則關鍵詞

K5

”分手”在語句

S1

”馮媛甄與製作人男友孫樂欣分手”

中之權重計算步驟如下:

(31)

23

圖 3-5 關鍵詞在文章語句中出現情況

(1) 計算「詞頻」- 𝑡𝑓𝑖𝑗

由於關鍵詞K 在文章語句5 S 中只出現過一次,如圖 3-5 虛線框所示,所以1 𝑡𝑓51=1。

(2) 計算「句頻」- 𝑠𝑓𝑖

關鍵詞K5”分手”在文章的所有文句中,出現在S 與1 S 兩句語句中,如圖 3-57

斜體字型所示,而本篇文章共有 10 個句子

S

1~S10所以 𝑠𝑓5 = 10 2。 (3) 計算 TFSF - 𝑤𝑖𝑗

𝑤51= 𝑡𝑓51∙ s𝑓5 𝑤51= 1 ∙ 2

10= 0.2

最後得知關鍵詞K5”分手”在語句S ”馮媛甄與製作人男友孫樂欣分手”中之權重值為1 0.2。依照此方式我們可以建立一個關鍵詞對應語句的權重向量矩陣,如表3-1所示:

. 小薰與製作人男友小明分手

. 小薰 12 日錄九大但是又何奈時神情落寞 . 她說淚已哭乾

. 但堅信絕無第三者介入 . 未來她會好好打拚事業 . 7 月與小咪代言北海道觀光

. 與小明頗有私交的小康對兩人分手之事存疑 . 認為應只是吵架

. 男生想散布單身訊息這件事 . 女生當然會生氣

. 觀光 . 製作 . 作人 . 男友 . 分手

.

(32)

24

表 3-1 關鍵詞對應語句之權重向量矩陣

S

1

S

2

S

3

S

n

K

1 1 0 0 ⋯ 

K

2 0 0 0.2 ⋯ 

K

3 0.1 0 0.3 ⋯ 

   

K

m ⋯ ⋯ ⋯ ⋯ ⋱

3.3.2. 潛在語意分析 (Latent Semantic Analysis)

潛在語意分析(Latent Semantic Analysis,LSA)由Deerwester等人於1990年時所提出 [7],Landauer等人認為潛在語意分析LSA不僅可用在文件知識表示,還可用來理解文 件知識的推導與認知模型[18]。潛在語意分析LSA主要應用在一字多義或多字一義的 問題上,也常用在特徵維度縮減以及因子分析上。潛在語意分析LSA主要是以奇異值 分解(Singular Value Decomposition,SVD)與維度縮減化(Dimension Reduction)為其邏輯 推導核心。潛在語意分析LSA的基本概念是以較低維度(維度縮減)的共同語意因子 (Semantic Factors)呈現原文章之字詞與語句間的關連。其作法是利用奇異值分解SVD 找出文章字詞對應語句的語意結構,對於字詞-語句關係矩陣利用奇異值分解成三個 子矩陣乘積。

3.3.2.1. 奇異值分解(Singular Value Decomposition)

奇異值分解具有將高維度的矩陣資料降低為r維度之特性。此方法是將文章字詞 及語句投影到一個空間,此空間可以表達字詞與字詞間的關係,字詞與語句的關係以 及語句與語句間的關係。此分解法與計算Eigenvalue和Eigenvector具有相同特性,我 們假設A為一個m n的矩陣,rank(A)= r,矩陣A的SVD具有以下型式:

關鍵詞 語句

(33)

25

T n n n m m m n

m U V

A

(3.7)

其中U 與

V

T皆為正交矩陣,

 

 

O

r

r為n n的diag(δ1δn),O為(m-n) 個0

的矩陣,其中

δ

i

 0

,當i = 1, 2, …, r,而

δ

i

 0

,當

ir

時,稱為奇異值 (Singular Values)。

如圖3-13所示:

U 的行向量(column)為uj

V

T的列向量(row)為vjA

U

VT 可以表示為 r 個 rank-one 矩陣之和:

T r r r T

T u δ v u δv

δv u

A

1 1 1

2 2 2

(3.8)

由 此 可 知

A

U 的 前 r 個 行 向 量 (column)(ui,i

1r ) ,

V

T 的 前 r 個 列 向 量

(row)(vTj,j

1r),以及

的左上r

n區塊(

r)決定,由此三個矩陣重組有重大的 意義。重組方式如圖 3-7 所示。其中

'則只需儲存

主對角的 r 個非零元素,當 r 遠 小於 m 和 n 時,利用 SVD 可以大幅減少儲存量。

圖 3-6 奇異值分解示意圖

(34)

26

LSA實際運作原理並說明:

其實際運作的過程,首先將文件集中的文件經前述的處理之後,建置詞彙對應語 句的權重矩陣 A,矩陣 A 中的每個元素即是某關鍵詞在某語句中的重要性。接著,將 矩陣 A 經過 SVD 分解轉換成新的矩陣乘積 A’,即A

U

VT,其中 U 表示語意空間,

S 表示關鍵詞在此語意空間的表示法,而

V

T表示語句在此空間的表示法。LSA 利用

維度維度縮減化,可以更精確的描述語意空間的維度,即挑選適當的前 r 個奇異值重 建矩陣A'

U'

'V'T,能更加明確地探討詞彙間、語句間以及詞彙對應語句的關聯性。

LSA 的作法不僅僅如上述所提方式,另一種方法則是在挑選完適當的奇異值後 不重建,而是以所挑選出之奇異值對應的語句當為摘要句。本篇所採用之 LSA 方法 係參考[11]採第二種方法。

圖 3-7 奇異值矩陣重建示意圖

(35)

27

4. 增強型潛在語意分析 (Enhanced Latent Semantic Analysis)

我們提出三種結合文章詞彙關聯度及文章句子關聯度概念的潛在語意分析方法,

第 一 種 為 矩 陣 乘 法 增 強 型 潛 在 語 意 分 析 (Matrix Multiplication Latent Semantic Analysis , MMLSA),第二種為模糊推論之最大乘積合成增強型潛在語意分析(Fuzzy Max-Product Latent Semantic Analysis , FMPLSA),第三種為模糊推論之最大最小合成 增強型潛在語意分析(Fuzzy Max-Min Latent Semantic Analysis , FMMLSA)。主要希望 藉由結合潛在語意分析(Latent Semantic Analysis)與文章詞彙關聯度及文章句子關聯 度的概念,建構出關聯性矩陣,來加強與擷取文件中的概念結構,以得到語意層面的 分析,進而篩選最適合之句子,作為文件摘要的依據。

本章中,由於前處理(Preprocessing)以及字詞權重計算(Terms weight determination) 方法與前一章節相同,所以在此章節我們從關係矩陣(Terms and sentences relationship exploration)的建立開始介紹說明。首先介紹關係矩陣與模糊理論(Fuzzy Logic)及其原 理,最後說明本論文所提之增強型潛在語意分析為基礎的語句摘要技術架構。本研究 系統架構如圖 4-1。

圖 4-1 本研究系統架構圖

(36)

28

4.1. 關係矩陣

前一節所得之關鍵詞對應語句的權重關係矩陣,我們可以對其分別計算,關鍵詞 與關鍵詞間的關聯度以及語句與語句間的關聯度,可建立出兩個關係矩陣,分別為詞 彙間關聯度矩陣以及語句間關聯度矩陣。

4.1.1. 關聯度計算

詞彙間以及句子間關聯度計算在自然語言處理的領域中佔有重要的地位,機器翻 譯、文件摘要系統中,語句關聯度計算是一個關鍵問題。表 4-1 所列為幾種常見的關 聯度計算方法[38]。

表 4-1 常見關聯度計算方法(資料來源[38])

方法名稱 公式

Inner product

t

i i i

y x

1

Dices coefficient

t

i i t

i i

t

i i i

y x

y x

1 2 1

2 1

2

Cosine coefficient

t

i i t

i i t

i i i

y x

y x

1 2 1

2 1

Jaccard coefficient

t

i i i t

i i t

i i

t

i i i

y x y

x

y x

1 1

2 1

2 1

表中方法若計算關鍵詞間關聯度,則x、y為文章的隨意兩個向量,

x、

i

y

i為隨意兩向 量的第

i

個元素(某關鍵詞位於某兩語句中的權重值),t 為語句總數;若計算語句間關

(37)

29

聯度則x、 為隨意兩個語句向量的第i yi i 個元素(某關鍵詞位於某兩語句中的權重值),

此時

t

為關鍵詞總數。

本 論 文 參 考 [42][44] 採 用 Jaccard coefficient 計 算 各 句 子 間 的 關 聯 度 。 Jaccard coefficient視句子的重要性,於該句子與其他句子連結的多寡而定。而句子間的連結 關係,在於彼此間是否有出現相同的關鍵詞彙,當句子中使用相同的關鍵詞愈多,表 示所討論的主題應該越相近,其關聯性也越高。以3.3.1節之圖3-5文章為例,表4-2為 3.3.1節範例之關鍵詞對應語句的權重矩陣:

表4-2關鍵詞對應語句之權重矩陣

S

1

S

2

S

3

S

4

S

5

S

6

S

7

S

8

S

9

S

10

K

1 0.1 0 0 0 0 0 0 0 0 0

K2 0.1 0 0 0 0 0 0 0 0 0

K

3 0.1 0 0 0 0 0 0 0 0 0

K

4 0.1 0 0 0 0 0 0 0 0 0

K

5 0.2 0 0 0 0 0 0.2 0 0 0

K

6 0 0.1 0 0 0 0 0 0 0 0

K

7 0 0.1 0 0 0 0 0 0 0 0

K

8 0 0.1 0 0 0 0 0 0 0 0

K

9 0 0 0 0.1 0 0 0 0 0 0

K

10 0 0 0 0.1 0 0 0 0 0 0

K

11 0 0 0 0.1 0 0 0 0 0 0

K

12 0 0 0 0 0.1 0 0 0 0 0

K

13 0 0 0 0 0.1 0 0 0 0 0

K

14 0 0 0 0 0.1 0 0 0 0 0

K

15 0 0 0 0 0.1 0 0 0 0 0

K

16 0 0 0 0 0 0.1 0 0 0 0

K

17 0 0 0 0 0 0.1 0 0 0 0

K

18 0 0 0 0 0 0.1 0 0 0 0

K

19 0 0 0 0 0 0.1 0 0 0 0

K

20 0 0 0 0 0 0.1 0 0 0 0

K

21 0 0 0 0 0 0 0.1 0 0 0

K

22 0 0 0 0 0 0 0.1 0 0 0 關鍵詞 語句

(38)

30

K

23 0 0 0 0 0 0 0.1 0 0 0

K

24 0 0 0 0 0 0 0.1 0 0 0

K

25 0 0 0 0 0 0 0 0.1 0 0

K

26 0 0 0 0 0 0 0 0.1 0 0

K

27 0 0 0 0 0 0 0 0.1 0 0

K

28 0 0 0 0 0 0 0 0 0.1 0

K

29 0 0 0 0 0 0 0 0 0.1 0

K

30 0 0 0 0 0 0 0 0 0.1 0

K

31 0 0 0 0 0 0 0 0 0.1 0

K

32 0 0 0 0 0 0 0 0 0.1 0

K

33 0 0 0 0 0 0 0 0 0 0.1

K

34 0 0 0 0 0 0 0 0 0 0.1

K

35 0 0 0 0 0 0 0 0 0 0.1

K

36 0.1 0 0 0 0 0 0 0 0 0

K

37 0 0 0 0.1 0 0 0 0 0 0

K

38 0 0 0 0 0 0.1 0 0 0 0

K

39 0 0 0 0 0 0 0 0 0.1 0

在此我們以圖3-5文章語句 與 為例,介紹表4-1各關聯度計算方法。

方法1. Inner -product法。

04 . 0 1 . 0 0 0 0 0

0 2 . 0 2 . 0 0 1 . 0 0 1 . 0 0 1 . 0 0 0

) , (

39

1 1

7 1 1

  

i i i t

i i

i

y x y

x S

S Sim

方法2. Dices coefficient法。

 

 

39

1

39

1 2 2

39

1

1 1

2 2

1 7

1 2

2 2

) , (

i i

i i

i i i t

i

t

i i i

t

i i i

y x

y x y

x y x S

S Sim

08 . 0 ) 1 . 0 0 0 0 0

0 2 . 0 2 . 0 0 1 . 0 0 1 . 0 0 1 . 0 0 0 ( 2

39

1

 

i i i

y

其中

x

其中 為文章的隨意兩個語句, 為隨意兩個語句向量的第 個元素, 為

關鍵詞總數。

參考文獻

相關文件

Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and

By using the case study and cross analysis of the results, The Purpose of this research is find out the Business implementing Supply Chain Management system project, Our study

In accordance with the analysis of relevant experimental results carried in this research, it proves that the writing mechanism and its functions may improve the learning

This study proposed the Minimum Risk Neural Network (MRNN), which is based on back-propagation network (BPN) and combined with the concept of maximization of classification margin

Under the multiple competitive dynamics of the market, market commonality and resource similarity, This research analyze the competition and the dynamics of

The purpose of this research is to explore the important and satisfaction analysis of experiential marketing in traditional bakery industry by using Importance-Performance and

This study collected consumer expectations and perception of medical tourism industry, with Neural Network Analysis and Mahalanobis Distance Analysis found the key to the

The purpose of this research is to develop an approach that uses the triangular distribution with the Fractile Method to estimate the optimistic and pessimistic duration of