4. 增強型潛在語意分析 (ENHANCED LATENT SEMANTIC ANALYSIS)
4.3. 增強型潛在語意分析基礎之自動摘要
4.3.1. 增強型潛在語意分析之自動摘要生成
利用前述之Jaccard coefficient相似度計算以及TFSF詞彙權重計算方法,我們可以 分別計算出關鍵詞間以及語句間的關聯度矩陣,以及關鍵詞對應語句關係的權重矩陣。
在此我們提出一個方法,藉由矩陣乘法以及模糊關係推論將此三個關係矩陣合成出一 個新的關鍵詞對應語句關係矩陣,再將此新的關係矩陣以潛在語意分析為基礎節錄出 適當摘要句。步驟如圖4-2所示:
a. 詞彙權重計算(使用TFSF計算關鍵詞位於語句中的權重值)。
b. 關聯度計算(使用Jaccard coefficient分別計算詞彙間以及語句間關聯度)。
合成關係矩陣
計算交互乘積矩陣𝐴𝐴T
從𝐴𝐴T求出𝑈、Σ、𝑉
排序奇異值矩陣Σ,篩選適當的前𝑟個奇異值𝛿
前𝑟個奇異值𝛿所對應的句子𝑠 合成運算
關聯度計算 詞彙權重計算
前處理
文章摘要候選句
圖 4-2 本論文奇異值分解流程示意圖
39
c. 合成運算(將詞彙對應語句權重矩陣、詞彙關係矩陣及語句關係矩陣合成)。
d. 合成關係矩陣(經由前一步驟得到的新關係矩陣)。
e. 計算交互乘積矩陣。
f. 從AA 矩陣求出T
U 、 、 V
。g. 排序奇異值矩陣
,挑選適當的前r個奇異值
。 h. 前r個
奇異值
所對應的句子 S 。i. 文章摘要候選句。
最後,根據每個文章摘要候選句在原始文章出現之先後順序依序排列,則此精簡 語句所構成之簡短文章即文章摘要。其中本研究與 LSA 為基礎的摘要方法差別在於 我們所提之方法加入計算關鍵詞間以及語句間的關聯度矩陣,以及關鍵詞對應語句關 係的權重矩陣,並藉由矩陣乘法以及模糊關係推論將此三個關係矩陣合成出一個新的 關鍵詞對應語句關係矩陣,如上圖 4-2 虛線框所示。
範例:增強型潛在語意分析範例說明(以表4-2、表4-3以及表4-4為例)
步驟1:使用第三章所介紹之權重計算方法計算關鍵詞位於語句中的權重值,並建立 詞彙對應語句的權重關係矩陣如表4-2。
步驟2:計算關鍵詞間以及語句間關聯度,並建立關鍵詞間關聯度矩陣與語句間關聯 度矩陣如表4-3與表4-4。
步驟3:將步驟1以及步驟2之3個矩陣以合成運算建立新的關係矩陣(此以模糊最大-最 小合成為例),如圖4-3。
步驟4:對步驟合成運算後之關鍵詞對應語句權重矩陣A,計算交互乘積矩陣AA 得T 到一個方陣(表4-5),對此方陣求特徵值(表4-6)與特徵向量(表4-7)。
步驟5:將步驟4的特徵值矩陣(表4-6)開平方根,即為奇異值矩陣(表4-8)。特徵向量矩 陣(表4-7)即為V矩陣。
步驟6:由公式 i
i
i
Av
u 1
得到U矩陣(表4-9)。U、
、V三個矩陣得到答案後,再來40
取前k個奇異值。(本論文以壓縮率來取奇異值,此例壓縮率為40%) 步驟7:將前40%個奇異值所對應的句子節錄出來,如表4-10虛線框所示。
步驟8:篩選出之候選句根據其在原始文章出現之先後順序依序排列,如表4-11所示 最後,此精簡語句所構成之簡短文章即文章摘要(表 4-12)。並另舉一篇內容較長之文 章為例,請參考附錄四。
※表 4-13 為此範例之原始文章;附錄四為較長文章之範例其摘要句壓縮率分別為 20%、
30%、40%、50%、60%、70%以及 80%。
表 4-5 計算交互乘積矩陣AAT
0.08 0.08 0.08 0.08 0 0 0 ⋯ 0 0.08 0.08 0.08 0.08 0 0 0 ⋯ 0 0.08 0.08 0.08 0.08 0 0 0 ⋯ 0 0.08 0.08 0.08 0.08 0 0 0 ⋯ 0 0 0 0 0 0.01 0.01 0.01 ⋯ 0 0 0 0 0 0.01 0.01 0.01 ⋯ 0 0 0 0 0 0.01 0.01 0.01 ⋯ 0
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮
0 0 0 0 0 0 0 ⋯ 0.01
關鍵詞間關聯度矩陣 關鍵詞對應語句權重矩陣
語句間關聯度矩陣
圖 4-3 增強型潛在語意分析之合成關係矩陣示意圖 合成運算後之關鍵詞對應語句權重矩陣
41
表 4-6 特徵值矩陣
0.72 0 0 0 0 0 0 0 0 0
0 0.07 0 0 0 0 0 0 0 0 0 0 0.06 0 0 0 0 0 0 0 0 0 0 0.04 0 0 0 0 0 0
0 0 0 0 0.4 0 0 0 0 0
0 0 0 0 0 0.03 0 0 0 0 0 0 0 0 0 0 0.03 0 0 0 0 0 0 0 0 0 0 0.03 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
表 4-7 V 矩陣特徵向量
0.707107 0 0 0 0 0 0 0 -0.70711 0
0 0 0 0 0 1 0 0 0 0
0 0 0 0 0 0 0 0 0 -1
0 0 0 1 0 0 0 0 0 0
0 0 0 0 1 0 0 0 0 0
0 1 0 0 0 0 0 0 0 0
0.707107 0 0 0 0 0 0 0 0.707107 0
0 0 0 0 0 0 0 1 0 0
0 0 1 0 0 0 0 0 0 0
0 0 0 0 0 0 1 0 0 0
表4-8奇異值矩陣
0.8485 0 0 0 0 0 0 0 0 0
0 0.2646 0 0 0 0 0 0 0 0 0 0 0.2449 0 0 0 0 0 0 0
0 0 0 0.2 0 0 0 0 0 0
0 0 0 0 0.2 0 0 0 0 0
0 0 0 0 0 0.1732 0 0 0 0 0 0 0 0 0 0 0.1732 0 0 0 0 0 0 0 0 0 0 0.1732 0 0 0 0 0 0 0 0 0 0 5.55111e-17 0
0 0 0 0 0 0 0 0 0 0
42
表 4-9 U 矩陣特徵向量
0.333333 0 0 0 0 1.85E-17 0 ⋯ 0.942809 0.333333 0 0 0 0.000 -9.25E-18 0 ⋯ -0.11785 0.333333 0 0 0 0.000 4.63E-17 0 ⋯ -0.11785 0.333333 0 0 0 0.000 -9.25E-18 0 ⋯ -0.11785 5.10E-33 0.000 0.000 0.000 0 0.57735 0 ⋯ 7.79E-17 3.40E-33 0 0 0 0 0.57735 0 ⋯ 5.19E-17 5.10E-33 0 0 0 0 0.57735 0 ⋯ 7.79E-17
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮
0 0 0.4082 0 0 0 0 ⋯ 0.8333
表 4-10 增強型潛在語意分析之摘要候選句
表 4-11 增強型潛在語意分析之摘要候選句 奇異值
0.8485 0.2646 0.2449 0.2 0.2 0.1732 0.1732 0.1732 5.55111e-17 0
摘要句 . 小薰與製作人男友小明分手
. 7 月與小咪代言北海道觀光 . 但堅信絕無第三者介入 . 未來她會好好打拚事業
摘要句候選句 . 小薰與製作人男友小明分手 . 7 月與小咪代言北海道觀光 . 但堅信絕無第三者介入 . 未來她會好好打拚事業 . 男生想散布單身訊息這件事 . 認為應只是吵架
.女生當然會生氣 . 她說淚已哭乾
.小薰 12 日錄九大《但是又何奈》時神情落寞 . 與小明頗有私交的小康對兩人分手之事存疑
43
表 4-12 範例之摘要 小薰與製作人男友小明分手
但堅信絕無第三者介入她說淚已哭乾 未來她會好好打拚事業
7 月與小咪代言北海道觀光
小薰與製作人男友小明分手,小薰 12 日錄九大《但是又何奈》時神 情落寞,她說淚已哭乾,但堅信絕無第三者介入,未來她會好好打 拚事業,7 月與小咪代言北海道觀光。
與小明頗有私交的小康對兩人分手之事存疑,認為應只是吵架,「男 生想散布單身訊息這件事,女生當然會生氣。」
表 4-13 範例之原始文章
44
SVD
前𝑟個奇異值𝛿所對應的句子𝑠 詞彙權重計算
前處理
文章摘要候選句 文件