以LDA為基之英文課程文字稿摘要法

全文

(1)國立屏東大學資訊管理學系碩士班碩士論文. 指導教授：蕭文峰博士. 以 LDA 為基之英文課程文字稿摘要法 Summarizing English Course Transcripts based on LDA. 研究生：邱怡菁撰. 中華民國一○四年五月.

(2)

(3) 誌謝從踏入研究所以來我遇到了許多值得感謝的人，正因為遇到這些人，我的研究之路才能順遂，儘管遇到許多迷惑和猶疑的事，但也仍然一路走了過來，我真的打從心底感謝這些幫助我的人。首先最感謝的人是我的指導教授-蕭文峰老師，入學便開始跟著老師學習，不論是課業或研究，老師都非常認真並仔細的教導我，不僅課程，在為人處事方面也一同的指導我，讓我不僅是學業方面，其他方面也受惠許多，由衷的感謝您對我的教誨另外還有謝宗翰老師、張德民老師，在共同會議上的悉心指導，使得我的研究能更前進一步。張德民老師也擔任了我的口試委員，與陳耀宗老師遠道而來的為我進行口試，讓我的研究論文能更加的完成，我相當感謝這三位老師。當然系上的其他老師也在課程上盡心盡力，讓我各方面的課程都有所學習有所成長，令我惠益良多。感謝 100 碩班的同學，特別是宗儒、尚澤、小癸，與你們相識、有你們的陪伴是我無比珍貴的寶物，正因為你們的相伴才會讓研究所的求學生涯更加閃耀光輝。與你們互相幫助互相學習，我也由衷的感謝。感謝各位學長姐，特別是絲敏學姐與可任學長，有你們的幫助與指導，我才能讓我的研究論文有個順利的開始。感謝各位學弟，特別是仲傑、黃喬、政龍，因為有你們的幫助，我的論文有個順利的結束。 I.

(4) 最後感謝我的家人，在這求學生涯一直不停的支持我，不論我遇到什麼都會一再的激勵並幫助我走下去。由衷感謝所有幫助我的人，特別再一次感謝蕭老師，我會記得您的指導與教誨，相信在我日後的人生道路也一定有所幫助。. 邱怡菁僅致於國立屏東大學資訊管理學系碩士班. II.

(5) 以 LDA 為基之英文文字稿摘要研究生：邱怡菁. 指導教授：蕭文峰. 摘要由於大規模開放式線上課程(Massive Open Online Course, MOOC)的蓬勃發展，學習者可以註冊與修習國外著名大學的課程。為了協助學習，這些課程都提供課程影音及文字稿供學習者下載學習，本論文認為文字稿的摘要可以協助學習者快速查找所需課程並掌握課程的內容。因此本論文提議使用潛在狄利克雷分配(Latent Dirichlet Allocation)對文字稿內容來進行分析，獲取其中的主題以便整理出文字稿的摘要。由於摘要是由句子組成的，而一個句子的基本組成是主詞、動詞、及受詞(或補語) 等三元組(triplet)，因此本論文論文提議由比對句子的三元組與 LDA 的主題來獲取摘要句。亦即，如果 LDA 的主題涵蓋了某一句子的三元組，即代表此句子愈可能是談論此一主題的重要句子應該被選為摘要句。本論文將比較所提方法與以傳統 LDA 進行摘要法，及 pLSA 進行摘要之優劣。. 關鍵字：文件摘要、LDA、主動受詞三元組、文字稿. III.

(6) Abstract Owing to the burgeoning of Massive Open Online Courses (MOOC), learners can enroll and learn courses from world-wide prestigious universities. To facilitate learning, these courses also provide learners to view and download videos and corresponding transcripts. In this study we believe the transcripts can help learners filter out the courses that they need and can help grasp the key points of the courses. Therefore, we propose to use Latent Dirichlet Allocation to analyze the transcripts to extract the topics that they contain and then obtain their summary. Since a summary consists of sentences, and a sentence consists of a triplet of subject, verb, and object (complement), therefore, we proposed to compare LDA’s topic words against sentence’s triplet to obtain summary sentences. That is, the more the triplet of a sentence covers LDA’s topic words, the more likely that this sentence is related to this topic and should be selected as a summary sentence. We compared the performances of the proposed method (triplet LDA), traditional LDA, and pLSA in extracting summary sentences. Keywords: Document Summary, LDA, SVO triplet, transcript. IV.

(7) 目錄錄 1. 緒緒論 .................................................................................................................. 1 1.1. 研究背背景與動機機 ....................................................................................... 1 1.22. 研究目目的 ................................................................................................... 3 2. 文文獻探討 ................ . ......................................................................................... 4 2.1. 文字稿稿的特性 ........................................................................................... 4 2.22. 文件摘摘要方法 ........................................................................................... 5 2.33. 機率性性潛藏語意意分析(proobabilisticc Latent Seemantic annalysis, pL LSA) 8 2.44. 潛在狄狄利克雷分分配(Latennt Dirichleet Allocatiion, LDA)) ....................... 9 2.55. 三元組組(Triplet) ....................................................................................... 15 3. 研研究方法 ................ . ....................................................................................... 17 3.1. 預處理理 ..................................................................................................... 18 3.22. 處理 .......................................................................................................... 23 3.33. 摘要輸輸出與比對對 ..................................................................................... 25 4. 實實驗與討論論 ................................................................................................... 27 4.1. 實驗資資料集 ............................................................................................. 27 4.22. LDA 工具介紹.. 工 ....................................................................................... 28 V.

(8) 4.33. 字詞數數及主題數數的決定 ......................................................................... 30 4.44. 實驗說說明 ................................................................................................. 34 4.55. LDA 摘要摘 ................................................................................................. 35 5. 結結論與未來來研究 ........................................................................................... 64 6. 參參考文獻 ................ . ....................................................................................... 65 7. 附附錄 ................................................................................................................ 69. VI.

(9) 表目錄表 1. coursera 課程文字稿資料 .................................................................... 27 表 2 University of Waikato 課程文字稿資料 ............................................... 28 表 3. GibbLDA 和 Matlab Topic Modeling Toolbox 比較表 ....................... 28 表 4. 輸出檔的內容 ...................................................................................... 29 表 5 mLDA 輸入檔內容 ............................................................................... 30 表 6 Writing in the Sciences 的比較數據 ..................................................... 38 表 7 Automata 比較數據 ............................................................................... 47 表 8 Web Application Architectures 比較數據 ............................................ 54 表 9 全課程全摘要比對數據精確率(Precision)表 ..................................... 60 表 10 全課程全摘要比對數據召回(Recall)表 ............................................. 61 表 11 全課程全摘要比對數據 F1 表 ............................................................ 62 表 12 提示詞 F1-Measure 表 ...................................................................... 69 表 13 關係詞 F1-Measure 表 ...................................................................... 70 . VII.

(10) 圖目錄圖 1 LDA 的生成模型 .................................................................................... 10 圖 2. 系統流程圖 .......................................................................................... 17 圖 3 圖片剖析樹 ........................................................................................... 21 圖 4. jLDA 結果統計表 ................................................................................ 31 圖 5. mLDA 結果統計表 .............................................................................. 31 圖 6. 主題數比較 .......................................................................................... 33 圖 7. 文件數比較 .......................................................................................... 34 . VIII.

(11) 1. 緒緒論 1.1. 研究背景景與動機. 隨著網路路快速的發發展，學學習者上課課不再侷限限教室內，著名大學學如美國的的麻省理工工學院(MIT) 或史丹丹佛大學學(Stanford d)提供了「大規模開開放式，讓學習者線上上課程(Maassive Opeen Online Course, MOOC)」 M 者可以透過過網路來學學習或取得得這些學校校的某些些課程的課課程資訊和和上課影音音。無須是是該學校的的學生，只只須註冊便便可獲取這這些資訊，對學習者者來說無疑疑是一大福福利；且為為了降低語語言的隔閡閡，MIT 或 Stanfo ord 的許多多課程都有有提供對應應的文字稿稿提供學習習者下載閱閱讀。文文字稿對學學習者在聽聽取課程上上有相當大大的幫助，但對於掌掌握課程重重點的幫幫助卻不大大。隨著開開放式課程程的發展，課程的增增加使得文文字稿相對對增加，使用者需需要一套文文字稿整理理機制，以以便於整理理這些課程程資料；若若能提供供文字稿之之摘要內容容，並對應應影音內容容，對於學學習者掌握握和整理課課程重點點將會有相相當大的助助益。學習習者透過了了解文字稿稿的核心內內容再聽取取演講者者的講解，使得更容容易吸收課課程內容，達到有效效學習目的的。要以現行行的文件摘摘要技術術來針對文文字稿輸出出摘要仍有有改善的空空間。將輸輸入文件依依特性進行行分類，一般所指指的「文件件(documeent)」，泛指指議論性文文章如新聞聞或論文等等，具有固固定的結構構(例如有有分段式的的章節)；而而文字 1.

(12) 稿是敘述性文章不如文件有具結構性。本論文所收集的文字稿是由上課影音檔內容呈現，當中包含較多的口語表現和重覆語句，在敘述上不如文件擁有表格及圖片上的指引，在文字內容中會出現人為錯誤，再加上演講者與聽講者的互動也一併收錄的可能性。若參考自動文件摘要技術，以現有的技術來看，其輸入文件是新聞文件，無法對應的文字稿特性來獲取摘要。本論文希望改善現有的文件摘要技術以符合文字稿特性，而獲取具有意義的摘要內容。現有的文件摘要的技術大致可分為三類： (1)監督式方法(2)圖形模式 (3)主題模式。監督式方法將摘要擷取視為二元分類的問題，以判斷句子屬不屬於摘要，缺點是需耗費人力來標註資料且可能帶有雜訊，不適於文字稿；而圖形模式，將文章的句子與句子之間表達為圖形，但以文字稿特性來說，較多重覆語句在圖形表現上會顯得不利；最後的主題模式，目的在於找出輸入文件的主題，並基於所獲取的主題來選擇具資訊的句子，而文字稿包含了數個主題，可利用主題模式找出主題藉此獲取出摘要所需的句子。過去應用主題模式協助建立摘要的研究包括：機率性潛藏語意分析 (probabilistic Latent Semantic analysis, pLSA) (Hennig, 2009)、潛在狄利克雷分配(Latent Dirichlet. Allocation, LDA) (Arora et al 2008; 張明慧 et al 2011)。pLSA 與 LDA 很類似，都是產生式模式(generative model) ，允許 2.

(13) 由潛潛藏變項來來解釋觀察察值(曾士士昌 2011))，但 Bleii et.al (20003) 指出出 pLSA 模型型並不完整整：pLSA 在文件層層級上沒有有提供概率率模型，這這導致模型型參數變數數會隨著文文件量的增增加而成長長，會有「overfittiing」問題題。而 LDA A 模型較為為完整，L LDA 將每每一篇文件件視為多個個主題的混混合。在 LDA 中會會假設其主主題分配是是一個 Diirichlet 事事前分配。。這類工具具用於多文文件主題的的擷取有一一定的幫助助。本論文將將探討 pL LSA 和 LD DA 兩者在在摘要法在在文字稿，兩者不同同特性所獲獲取的摘要要之差異。另外也探探討本論論文所提 LDA L 摘要要法和現有有 LDA 所獲獲取的摘要要之差異。. 1.2. 研究目的的. 綜合上述述，本論文文具體目的的如下列列所述： (1). 提出應應用於文字字稿的 LD DA 摘要法法。. (22). 探討所所提之 LD DA 摘要法法與 pLSA A 摘要法及及其他 LD DA 摘要法法在文字稿摘摘要上的優優劣。. 3.

(14) 2. 文文獻探討討 2.1. 文字稿的的特性. 由於文字字稿包含較較多的口口語表達(ee.g. 片語與與俚語)與與較多的重重覆語句(重重點會一再再強調)(H Hori et al.,, 2003b)，而且也較較一般書面面文件無結結構化 (沒有有標題與章章節，沒有有圖片、表表格、或特特殊方程式式符號)(C Christensen n et al., 20033; Christensen et al., 2004)，因此往往往 40 分鐘鐘的課程其其文字稿會會多達 11 個 A4 頁面的長度頁度(10 號的的字型)。在在一般文件件下，學習習者會在圖圖形與表格格所在的章章節中找尋尋到說明明圖形與表表格的重點點文字，但但在文字稿稿中並沒有有這些指引引，學習者者要在其其中抓出重重點尤其不不易。我們們以下的文文字為例： Do we go g through h the origiin or not? ? In this ca ase, yes, bbecause th here's a zeroo over therre. In this case we ddon't go th hrough thee origin, b ecause if x and y are zzero, we don't d get three. So, llet me aga ain say sup uppose y iss zero, wh hat x do we actually get? g If y is zero, then I geet x is minus m threee. (sourcee: MIT OpeenCourseW Ware, Lineear Algebrra Lecturee 1, instrucctor: Prof.f. Gilbert Strang) S 當讀者對對照著影音音課程可可很容易瞭瞭解這是在在平面上繪繪製兩條線線性方程的的講述過程程，但若單單純從文文字的角度度來看則容容易混淆。因為兩條條方程都是是用"in thiis case"來來指稱，而而不是一個個用 in thaat case，雖雖然講授者者的確將手手從第一條條方程移到到第二條方方程才說說"in this caase"。但在在文字表達達上卻看不不出這個動動作，因此此有效地從從文字稿中中摘取出有有意義的重重點 (此為為平行 4.

(15) 結構構，兩者應應同時被擷擷取出)。與新聞文文件的摘要要擷取不同同的是，一一個文字稿稿(一次的課課程)中通通常會含有有幾個子主主題，因此此在摘要的的獲取上必必須要能同同時將這些些主題擷取取出。另另一方面，由於課程程其間講授授者常會以以提問的方方式來與講講台下的學學生互動動，因此課課程的重點點內容可能能會散佈於於多個參與與者。依據 Zeechner (20 002b)及本本論文的整整理，文字字稿的摘要要擷取有著著以下的挑挑戰：處理理口語的的不流暢性性(Hori et e al., 20 003b)、辨辨識擷取的的單位 (Chrristensen et e al., 200 03; Christeensen et al., a 2004)、、維持多個個參與者的的一致性(Z Zechner and a Waibel, 2000aa; Zechneer, 2002a))、處理文文字稿中的的錯誤 (Zecchner and Waibel, 2000b; 2 Koolluru, et al., a 2005)、、掌握口語語的習慣用用語及片語語。 2.2. 文件摘要要方法. 文件摘要要的優點，就如 M Mani et al. (2002)所所提到的，「當摘要比比例濃縮至至原文件的的 17%(且且沒有明顯顯地降低正正確性)時時，決策的的速度可以以加速 2 倍倍」；以及，「查詢導導向的摘要要可以讓使使用者更快快速地找到到相關的文文件，而不不用再去檢檢視全文」」。因此，當網路上上的文字稿稿愈來愈多多時，提供供文字稿之之摘要內容容以方便學學習者瀏瀏覽與查詢詢的需求便便益形迫切切。然而口口說表達與與寫作是兩兩種不同的的溝通方方式，其中中的表達、、對象、以以及互動方方式也都有有不同。文文字稿為忠忠實記錄錄講者的表表達及與聽聽眾的互動動，通常也也會記 5.

(16) 錄講者說話的不連貫處(包括填充詞, well, um, err, …)及聽眾的反應(laugh 等)，文字稿的這類特性造成現有的文件摘要無法直接套用在其上。過去用於文件摘要的技術大致可分成三類(Nenkova et al., 2011)：(1) 主題模式(topic models)，由計算詞頻、詞頻反向文件頻率(tf×idf)、及詞彙連結(lexical chain)來決定文件的主題字(topic words)或主題模式。主題模式屬於非監督式方法。主要目的在於找出輸入文件的主題(分抽取主題字及建立主題模式兩種)，並基於所獲取的主題來選擇具資訊的句子。在抽取主題字方面，其基本想法是重覆出現的字詞比較可能跟文件的主題有關，因此利用主題字來建立摘要的做法包括：估計字詞權重、計算句子權重、選擇最好的句子、更新字詞權重(避免選到重覆意義的句子)、重覆上兩步驟直到達到摘要所需長度(Vanderwende et al., 2007; Yih et al., 2007; Haghighi and Vanderwende, 2009)。 (2)圖形式模式(graph-based models)，以節點(nodes)表示句子或語段實體(discourse entities)，以邊(edges)表示句子間的相似性。圖形式模式屬於非監督式方法。此方法透過將句子與句子的關係表達成圖形，其中圖形的節點(node)可以是句子或語段實體(discourse entity)，而圖形的邊(edge) 則連結相似的句子或語法相關的實體。句子間的相似性可由句子之間的 tf × idf 權重向量間的距離(cosine 相似度)來計算。圖形模式的優點是同時結合的字的頻率及句子的分群(e.g. Chen et al. 2011)，並且對計算重要性 6.

(17) 提供了一個正式的模式，例如 Hsu et al. (2007)使用隨機漫步來選擇摘要：將輸入文件表達成一個圖，接著開始由節點到節點依機率來巡行(有時會跳至一個新節點)，在經過一段時間後會停至某一節點的機率會剛好等於此圖形模式的穩態解(stationary solution)，而此機率可用來表示此句子的權重。透過挑選權重較高的句子(i.e., 由句子的中間性來選擇句子)來形成摘要。 (3)監督式方法(supervised methods)，由定義屬性來訓練區辨模式 (discriminative model)。監督式方法用於摘要擷取可看成是一個二元分類的問題：一個句子屬於或不屬於摘要。可以使用統計分類器依句子屬於摘要的可能性來決定分數。每一個句子以事先定義的屬性來決定，分類模式是由已標註的資料來訓練，然後選擇有最高分數的句子。過去研究所定義的屬性包括： (1) 句子的長度，通常愈長的句子愈重要； (2) 句子的權重，可以計算句子與文件間的 cosine 相似度、或句中重要字的權重和、或先使用 LSA 分析(Deerwester et al., 1990)後再計算字詞權重； (3) 句子的位置，開頭的句子或特定章節(e.g. 結論)的句子通常比較重要。 (4) 提示詞或片語，常出現的 n-gram 、命名實體(name entities) 、 7.

(18) 或提提示片語(ee.g. in connclusion, th he results show)。 (5) 情境境屬性(con ntext featuures)，一個個句子與其其鄰近句句子間的差差異。. 2.3. 機率性潛潛藏語意分分析(prob babilistic Latent L Semantic an nalysis, pL LSA). pLSA 被提出用以被以改善 LS SA 缺乏統統計基礎的的問題，在在許多應用用上顯示 ppLSA 可優優於 LSA A。但與 LSA 相同同地，pLS SA 通常被被用於多文文件的分析析，因此 pLSA p 也被被用於獲取取多文件的的摘要(e.g. Kong aand Lee, 2006)； 2 至於於單文件摘摘要，就我我們所知文文獻中仍還還未看到。pLSA 的的核心是觀觀點模式(aaspect moodel)，它是是針對一般般共現(co o-occurren nce)資料所所提出的一一個潛變數數(latent vaariable)模模式，用以以對應每一一個觀察值值對應至一一個無法觀觀察到的類類別變數 zZ={z z Hofmann, 1999)。 1, …, zk} (H 曾士昌(22011)提出出以句子的的主詞與動動詞做為該該句的語義語義。spLSA A 分析「句句子-段落((sentence - paragrapph)關係」，在觀點模模式上是每每一個句子子中的主、、動詞 sS S={s1, …,, sM}在每每一個段落落 pP={p1, …, pN}中中每一次次出現， spLS SA 主、動動詞摘要要法認為同同一段落中中同一對主主動詞不只只出現一次次，因此主主動詞具有有代表意義義。但此摘摘要法有有以下缺點點：(1)隨著著句子越長長，相對的的處理時間間也就越長長(2)並非非每一句句句子皆可擷擷取出主、、動詞(3)摘摘要法可能能會選出未未擷取出主主、動詞的的句子。而洪絲敏敏(2012)提出提出 spLSA A 名詞. 8.

(19) 摘要要法，將句句子中的全全部名詞來來取代主、動詞，並並且執行「「移除停用用字」、「字字根還原」」等步驟使使得處理理時間更為為快速，實實驗顯示洪洪絲敏所提提摘要法優優於曾士昌昌所提摘要要法，因此此本論文將將洪絲敏(2012)所提提 pLSA 名詞摘名要法法為比較基基礎。. 2.4. 潛在狄利利克雷分配配(Latent Dirichlett Allocatio on, LDA). 潛在狄利克雷分配 (Lateent Dirich hlet. Allocation, L LDA) 由 Blei B et al.(22003)等人人提出，用用來彌補 ppLSA 的不不足，LD DA 是一個個非監督機機器學習技技術，可以以用來識別別大型文件件集（docu ument colleection）或或語料庫（ccorpus）中的的潛藏主題題。LDA 使用了「「詞袋（baag of worrds）」方法法，這個方方法是將文文件視為字字詞頻率的的向量，而文字內內容則是化化為能方便便以建立模模型的數字字。且詞袋袋沒有考量量的單字字與單字之之間的順序序，因而降降低了複雜雜度。 LDA A 假設每一一個文件件是由數個個主題所構構成的概率率分佈，而而每一個主主題又是由由數個單字字所構成的的概率分佈佈。 LDA 的核心是觀點模式 (aspectt model) ，它是針對一般共現 (co-occurrencce)資料所所提出的一一個潛變數數(latent vaariable)模模式，用以對對應每一個個觀察值(以以本研究究來說，也也就是每一一個字詞 w∈W={w w1, …, wM}在一篇文文章 d∈D= ={d1,…,dN}的每一一個出現)至至一個無法法觀察到到的類別變變數 z∈ Z={z1, …, zk}。以產生生式模式而而言，LD DA 可以被被定義為：：以 Pr(d)的的機率 9.

(20) 選取取一篇文章章 d，以 Pr(z|d)的機 P 機率挑選一一個觀點 z，並以 P Pr(w|z)的機機率產生一一個字詞 w。 w 對於語料庫的每篇文件， Blei et al.(2003 3) 定義 L LDA 生成過程 (gennerative prrocess)： 1. 對每一一篇文件件的主題分分佈，抽取取其中一個個主題。 2. 在上述述過程所所抽到主題題所對應的的單字分析析抽出其中中一個單字字 3. 重複以以上過程程，直到抽抽到文件的的每一個單單字。. 圖 1 LDA 的生成模型的型以圖 1 來說明，當來當 i∈{1,...,M}，θi 是文件 i 的主題分的分佈，ϕk 是主題是 k 的單單字分佈，α是在每每一篇文文件的主題題的事前狄狄利克參數數，β是在在每一篇主主題的單字字分佈的事事前狄利克克參數，ziji 是在文件件 i 的第 j 個個單字的主主題，和而而 wij 是代代表特某一一殊單字。詞彙表(v vocabulary y)是由語料料庫的所有有文件的所所有互異單單字所組成成，但實際際建立模模型時需要要移除停用用字(stop words) 和進進行字根還還原(stemm ming)等相相關處理。。θ和 ϕ 分別有一個分個帶有α和和β的 Dirichlet 參數數。對 M 篇文件中中的每一個個單字中，從該文件件所對應的的θ抽 10.

(21) 出一個主題 Z，然後再從主題 Z 中所對應的 ϕ 抽出一個單字 W，將上述過程重複 N 次，就產生了一篇文件，而 N 指的是文件的單字總數。 LDA 是一個生產模式，它試圖描繪文件是如何組成的。Murray (2009) 提到它是概率模型是因為文件的建立是從原始文件的概率代表來選擇主題和單字。建模的內在概率每一個單字的選擇源自於以下的事實：自然語言允許我們使用不同的字來表達相同的想法。要將此想法表達在 LDA 模式之下，設想有一主題分佈，我們欲從文件集產生一個文件。那麼，針對文件的每一個要被產生的詞彙，會從主題的 Dirichlet 分佈抽取一個主題。而從該主題中，一個字會由該主題的另一個條件機率分佈隨機選取出來。這個過程會一直重複直到文件被產生為止。過去提出 LDA 的摘要有 Campr et al. (2013)、Liu et al.(2014)和 Annamalai et al.(2014)，但仍屬多文件摘要的範疇。Campr et al. (2013)提出以 LDA 多文件摘要結果與利用潛在語義分析方法的摘要進行比較。Liu et al.(2014)則是提出將輸入文件進行分群(clustering)，是能提昇文件摘要的品質。Annamalai et al.(2014)則是提出主題敏感度的演算法，藉由 LDA 區分主題的不同，並加權到句子上的權重值。 Murray(2009)對文件集詞彙進行文件預處理而得到了頻率的量測之後，再應用到 LDA 的推論演算法，進而得到潛藏變數後，依據 Zipfian 分佈對主題中的文件建立模式。個別的字詞是對該主題的相關性進行計 11.

(22) 分，在句子中所有的詞彙分數加總所得到分數就是為句子分數，將這些句子依分數排列，排名為前 k 句為摘要。Murray(2009)的實驗資料來自於英文維基，維基所提供的資料集過大，有 21GB 之多，針對這些文件時會移除非 Ascii 字元、圖片，再移除章節標題、超連結和無用資訊等，最後得到了一千篇文件，但這些文件載入記憶體需要到 1GB 的空間容量，但不幸的是當他用 LDA 跑文件集時，電腦無法處理 1GB 文件讀與寫，因此，他將文件集分為十份來進行 LDA 運算。在這十份文件集中，解析每一個詞彙並將字母轉換成小寫，並利用停用字表過濾不重要的詞彙。然後，在詞彙列表中的每一個詞彙會計算在每一份文件的所出現頻率並儲存為向量，接著結合所有的向量來形成 LDA 中的矩陣 A，再將 A 輸入 Blei(2003)所維護的 LDA-C 程式。設定每份文件集參數 K(主題數目)為 50，將 α設為 1/K(約 0.02)，誤差等級(tolerance)設為 10-6 和最大迭代次數為 50。在推論出潛藏變數之後，Murray(2009)使用有包含 python script 的 LDA 程式，將 100 詞彙匹配到 50 主題中。由於有 10 個文件集也就是 10 詞彙檔案，作者將它們結合為一個大的詞彙檔案，透過這個大的詞彙檔案可以估計推論原始文件集。決定好整合檔案的主題之後，再依據句子和主題的相關性來排列句子，再進行一次語文過濾器的預處理(去除標點符號、轉換小寫和移除停用字)，相對於 Blei(2003)所提到的卜瓦松分佈(Poisson distribution (ξ))，Murray(2009) 假設在主題中的詞彙是依據 Zipfian 分佈， 12.

(23) 將詞彙頻率排列名次，詞彙頻率 f 與詞彙名次 r 是有相關的，Zipf 的法則為： ∝. 1. 簡單來說，在主題列表中第一名的詞彙權重相當於第二名的詞彙權重的兩倍，以此類推。演算法會找到列表中每一個詞彙的權重(可能為 0) 並加總，而每一句的句子的詞彙權重加總而得到句子的總分。而句子的排列是根據句子分數並排名，選出前 K-1 句作為摘要。在 Murray 的專案中，摘要的第一句是具有文章標題含意的。因為實驗資料來至於維基，一般來說維基文章第一句是用來解釋文章標題。即使 K 值非常小，在 Murray 的系統所使用的加權方法，仍然會選擇文章的第一句，因為第一句至少詳述一個主題，所以會有較高的排名，但這使得系統不夠彈性(可能會不適於其他文件集)。張明慧等人(2011)提出的 LDA 摘要法，是先將傳統自動文件摘要的方式來計算文件中句子的權重值，接著結合 LDA 的概念，不僅將文件視為主題的混合，也把句子視為主題的混合，接著用一個 K 維的向量來代表主題的混合比例。張明慧等人(2011)認為句子和文件各自的主題的相似度越高，作為摘要的句子的可能性也就越高，兩者的主題分佈越相似，其句子的 LDA 特徵值也就越高，將特徵值加入先前權重值以計算一個句子的權重，藉此判斷作為摘要的句子。提出 KL 離散度公式來計算句子與 13.

(24) 主題分佈向量和文件與主題的分佈向量之間的離散度： D. ∑. P∥Q. log. (1). 為了能計算上述公式，則需要句子和文件的主題分佈向量， LDA 模型的θd 可獲得文件 d 在主題的分佈 P(T|D)，而句子的主題分佈根據貝式定理獲得 P(T|S)，如下表示： |. P T|S. (2). 句子是詞彙所組成的，主題在句子上的分佈 P(S|T)可以從主題在詞彙上的分佈 P(W|T)所得到，張明慧等人(2011)參考了 Arora et al. (2008)的算法： P S|T. ∑. |. ∈. |. (3). 而主題在文件上的分佈根據貝式定理獲得 P(D|T)，再將(3)和 P(D|T) 代入(2)中，句子主題混合可以表示成： P S|T. ∑. ∈. |. |. (4). 張明慧等人(2011)為了計算簡單，便假設所有的文件是等概率，也同樣假設所有的句子是等概率，這樣在句子和文件的概率在計算 P(T|S)的時候沒有影響，所以句子在主題分佈修改為： P S|T. ∑. ∈. |. |. (5). 由於在計算句子在主題的分佈時，使用單字概率的累加，容易使結果選擇較長的句子，所以修改為單字概率累加的平均，公式變化為： 14.

(25) ∑. P S|T. |. ∈. |. (6). 將 P(T|S S)和 P(T|D D)代入(1))計算句子子的主題特特徵距離，計算句子子主題分佈佈相似度特特徵公式為為： f. S. λ. D. P T|S ∥ P T|D (7). 其中λ取取-1，其特特徵值為 L LDA 的特特徵值。. 2.5. 三元組(T Triplet). 所謂的三三元組是句句子的主詞詞、動詞以以及受詞詞。本論文文參考 Russu et al. (20008)所提的的方法來獲獲取句子的的三元組。我們假假設句子(S S)已經被表表示為剖析析樹，其中中包含三個個子樹：名名詞片語((NP)、動詞詞片語(V VP)、及句號號(.)。首先，句句子的主詞詞是透過過搜尋名詞詞片語(NP P)的子樹來來獲得的。這通常是是透過寬度度優先搜尋尋法(breatth-first seaarch)來獲獲得。由選擇擇 NP 的第第一個是名名詞的子樹樹來作為主主詞。名詞詞可以在在以下的四四個子樹中中獲得： Subttree. The typ pe of nounn found. NN. noun, common, c ssingular orr mass. NNP P. noun, proper, p sinngular. NNP PS. noun, proper, p pluural. NNS S. noun, common, c pplural. 其次，動詞是藉由動由搜尋 VP 子樹來獲獲得的。所要要搜尋的的是動詞片片語(VP). 15.

(26) 最深的動詞子代，它是本論文要搜尋的真正動詞。動詞可以在以下的子樹中獲得： Subtree. The type of noun found. VB. verb, base form. VBD. verb, past tense. VBG. verb, present participle or gerund. VBN. verb, past participle. VBP. verb, present tense, not 3rd person singular. VBZ. verb, present tense, 3rd person singular 最後，受詞是由搜尋三個不同的子樹來獲得。這三個子樹是由上一. 步驟所獲得(包含真正動詞)的動詞片語(VP)子樹的兄弟姊妹(sibling)所獲得。這三個子樹包括：介系詞片語(PP)、名詞片語(NP)及形容詞片語(ADJP)。在 NP、PP 中是搜尋第一個名詞，而在 ADJP 是搜尋第一個形容詞。形容詞是下列子樹中獲得： Subtree. The type of noun found. JJ. adjective or numeral, ordinal. JJR. adjective, comparative. JJS. adjective, superlative 現時有許多工具可剖析出研究所需的剖析樹，如：史丹佛句子剖析. 器(stanford-parser)、OpenNLP Parse Tree、LINK PARSER 等等，本論文在後續章節將提到利用史丹佛句子剖析器來剖析，進而得到三元組。. 16.

(27) 3. 研研究方法法. 本論文流流程為：((1)預處理理：文字稿稿讀入，移移除停用字字並重整句句子，並匯匯出 LDA 工具所需工需的資料檔檔和句子檔檔案，接著著針對句子子檔案進行行剖析，使用用史丹佛句句子剖析析器剖析出出三元組資資料。(2))處理：使使用 LDA A 工具 JGibbbLDA 和 Matlab Topic T Moddeling Too olbox 得到到每一個主主題的概率率和該主題題下的字的的概率，藉藉由各位置置的字詞在在 LDA 中所獲得的中的概率值加加總得到權權重值進來來排序。(3 3) 摘要輸輸出與評估估：由指定定的摘要比比例來獲得得摘要的句句子數。所所得到摘要要和課程程投影片進進行比對，匯出比對對資料。程程式流程圖圖如圖 2：：預處理. 處理處. 摘要要輸出與評評估. 讀讀入文字稿稿. 排序序句子. 產產生摘要要. 句子子資料輸出出. 主題字字詞表. 摘摘要輸出出. 資資料剖析. 以 LDA 抽取主題抽. 投投影片比對對. 圖 2. 系統流流程圖. 17.

(28) 3.1. 預處理. 將文字稿稿載入，利利用史丹丹佛自然語語言處理器器先將句子子重新整理理。文字稿稿的句子常常會因文字字排版關關係在不正正確的位置置做切割，為方便摘摘要的擷取取，本論文文使用史丹丹佛自然然語言工具具為句子進進行斷句。例如某一一文字稿原原內容為：： So. G Given thiss data, let''s say you have a friennd who ow wns a housse that is, say 750 squaare feet annd hoping to sell thee house and they wantt to know how h muchh they can get ffor the houuse. 在利利用史丹佛佛自然語言言處理器將將句子重重新組合成成完整的句句子後如下下： So. Giveen this datta, let's sa ay you havve a friend d who own ns a housee that is, say s 750 squaare feet annd hoping to sell thee house an nd they wa ant to know w how mu uch they can get for thee house. 可看到「So.」被被獨立成一一句，這是是因為史丹丹佛自然語語言處理器器判定 So 後後的句號比比較可能能是句子的的結束，因此此判定它它為一個句句子。雖說如如此，本論論文論文認認為一個句句子至少應應由三個個單字組成成，且句子子的字元數數最少要大大於 15 個字元數，個如此才可可能含有充充份的語意意。因此當當句子少於於三個字或或小於 15 個字元我我們便將下下方的句子子結合至目目前的句子子。以這樣樣的規則去去把從史丹丹佛自然語語言處理理器所得到到的句子再再一次重新新組合新的的句子， 18.

(29) 藉此取得更完整的句子。這些處理後的句子會被記錄，以供後續摘要句子的擷取。上述句子經由處理之後的結果如下： So . Given this data , let 's say you have a friend who owns a house that is , say 750 square feet and hoping to sell the house and they want to know how much they can get for the house . 由於 LDA 分析的對象是文件中出現的字詞，因此我們進一步將句子轉成字詞。這其中包括移除標點符號、將字元轉成小寫及移除停用字。這些動作可以有效的減少字詞的數量，協助獲取文件的重要概念。. 3.1.1. 資料剖析三元組 (Triplet) 是由三個元素所組成：主詞 - 述語 - 受詞（subject-predicate-object）。要如何取得三元組，本論文使用史丹佛句子剖析器(stanford-parser)來獲取，例如將下列句子放入句子剖析器： I saw a girl who is in red cloth. 經由剖析器可取得剖析樹及史丹佛型態相依表示法 (Stanford Dependencies representation)，本論文藉由這兩者來取得三元組。剖析器可依使用者的需求輸出文字或圖片的剖析樹，以下為上方句子的出文字剖析樹：. 19.

(30) (ROOT [62.714] (S [62.561] (NP [3.898] (PRP I)) (VP [57.528] (VBD saw) (NP [47.461] (NP [12.838] (DT a) (NN girl)) (SBAR [32.322] (WHNP [1.874] (WP who)) (S [29.998] (VP [29.721] (VBZ is) (PP [23.545] (IN in) (NP [21.320] (JJ red) (NN cloth)))))))) (. .))) 若用史丹佛句子剖析器所提供的程式可得到圖的剖析樹，見圖 3：. 20.

(31) 圖 3 圖片剖剖析樹下列文字則則是史丹佛佛型態相依依表示法： nsubj(saw w-2, I-1) root(ROO OT-0, saw w-2) det(girl-44, a-3) dobj(saw w-2, girl-4)) nsubj(is--6, girl-4) rcmod(giirl-4, is-6)) amod(clooth-9, red--8) prep_in(iis-6, cloth h-9). 21.

(32) 3.1.2. 三元組輸出. de Marneﬀe and Manning (2008)解釋了史丹佛型態相依表示法，如： nsubj(saw-2, I-1) nsubj 指的是括號中的兩個單字的關係，其中 nsubj 指的關係為一般主詞 (nominal subject)，也就是括號中的單字 saw 和 I 的關係為一般主詞，而單字後的數字是指該單字的節點位置。本論文藉由解析史丹佛型態相依表示法來篩選所需要的三元組，與主詞有關的表示法為 nsubj 和 csubj(clausal subject)，在句子「I saw a girl who is in red cloth.」中所提供的關係： nsubj(saw-2, I-1) nsubj(is-6, girl-4) 從這裡程式可以藉由解析該單字在剖析的詞性，如 I 為 PRP (Personal pronoun)，而 saw 為 VBD(Verb)，這兩種的組合為主詞和述語常見組合之一，可用來篩選是否為三元組，藉由多種組合來篩選是否為三元組其中之二。接下來與受詞有關的表示法有 dobj(direct object)、iobj(indirect object) 和 pobj (object of preposition)，而範例句子所提供的相關關係有： dobj(saw-2, girl-4) dobj 為直接受詞，它是動詞的直接受詞。girl 詞性為 NN(Noun)，當關係為 dobj，其中一方單字為 NN，該 NN 為受詞。. 22.

(33) 在前一節節提到的經經由重整整所獲得的的句子資料料，將每一一句放入剖剖析器取得得剖析樹及及史丹佛型型態相依依表示法後後，再依上上述方來獲獲取三元組組。之後儲儲存每一句句的三元組組並輸出出文字檔案案，做為後後續流程的的使用。將將三元組的的主詞-述語語-受詞，每一位置置的詞性來來對應就是是名詞-動動詞-名詞，因此本論論文所獲取取的動詞與與名詞分別別輸出為為 LDA 所需需要的檔案案，進一步步單獨把動動詞與名詞詞進行 LD DA，各自自取得潛藏藏的主題。。. 3.2. 處理. 本論文藉藉由 LDA 工具取得得所需潛藏藏的主題，LDA 工具具可設定所所需要的主主題數，依依對應的文文字稿的的主題需要要而取得多多個主題。而在每一一個主題底底下都有單單字的分佈佈，一篇文文字稿包包含多個單單字，LDA A 工具會將將文字稿的的單字逐一一分配各個個主題之之下，而每每一個主題題底下單字字各自都有有概率值，例如其中中一主題及及底下的單單字和概概率： Topic 1 mod del. 0 0.055044. docu ument 0.030312 0 sd. 0 0.027159. scorre. 0 0.025220. 以 modeel 來說，是是屬於 Toopic1 之中中的單字且且概率值為為最高的。由此我們們可取得從從各主題底底下單字概概率排行行。所以可可將概率值值作為權重重值。 23.

(34) 接著藉由每一主題底下的單字，去尋找有含該單字的句子，將其中所含單字的概率加總來為作為該句子的權重值，但主題字詞表是統一的，為突顯個別文字稿的差異，本論文加入了關係詞來微調句子權重值，而所選取的關係詞必須與該文字稿相關，本論文以文字稿的章節標題作為該文字稿的關係詞，每一份文字稿都有屬於自己的關係詞。接著加入提示詞(Cue phrase)來近一步微調權重值。提示詞不如關鍵字那麼重要，但往往能達到提示的作用如：「for example」、「the purpose of」等。由於含有提示詞的句子可作為重要句子後補的機率較高，在權重值的設定上比相關詞來得高，後續的實驗結果收錄在附錄並提到相關詞與提示詞的權重值設定。藉由多個高權值加總所找到的句子，可作為放入候補句。經由這樣的過程，所有主題底下都有候補句。要從候補句子選取摘要句子的方式是：將主題的概率值排序，從最高概率的主題中選取最高權重值的句子，接著再往第二高概率主題選取第一句，依序選完所有主題的第一句之後，再重新的一輪從最高概率的第二句不停排下去，直到所有的句子被選取為止。上一節所提到的三元組的資料，同樣是結合上述作法，從每一句的三元組資料去比對各主題底下的單字，符合的單字既是三元組元素也是潛藏主題的單字。後續如同所前方所述找到含有該單字的句子，本論文認為既是三元組也具有高概率的單字，其句子更適合作為摘要句。此這作法是提取句子的主詞(Subject)動詞(Verb)、受詞 24.

(35) (Objject)，各取取第一個個字母來稱稱呼。所以以後續章節節會稱為 S SVOLDA A。. 3.3. 摘要輸出出與比對. 如 3.4 節所提，系節系統會依主主題字詞表表進而產生生的摘要，每堂課程程的每一章章的每一節節都有各自自的文字字稿，我們們的系統輸輸出的摘要要是以一個個文字稿為為一個單位位，針對內內一個文文字稿所有有句子中所所選出的重重要句子來來作為摘要要句子，因因此一個課課程的摘摘要數量是是對應的一一個課堂的的文字稿數數量。為評評估系統所所產生摘要要，我們選選擇與課課程投影片片進行比較較。因為 MOOC M 為了了能讓使用用者容易理理解課程程內容，大大部分的課課程會以選選擇播放投投影片並加加以講解課課程，因此此文字稿稿的內容與與投影片息息息相關，而投影片片是將課程程重點擷取取出來和收收錄課程程上重要的的筆記，且且以人工方方式編寫，適合與摘摘要來進行行比對，並並且以一一對一的方方式進行比比對，而所所以對應投投影片也正正是該節的的上課用投投影片，因因此投影片片檔案數量量會與文字字稿檔案相相同。為能能公平比對對，輸出摘摘要時，摘要的字字詞數必須須和投影片片字詞數相相近，因此此在輸出時時會依投影影字數詞來來做為輸輸出的依據據。測量方式式為使用精精確率(Prrecision)、召回率(R Recall)、F F1-Measurre 來評估摘摘要的優劣劣。 AbstractW Word AbstracttSize. 精確確率 Preccision. AbstractWordd 為系統所所產生摘要要是投影片片內容的的字數，Ab AbstractSizze 為摘 25.

(36) 要總字數。召回率 Recall. AbstractWord SlideSize. SlideSize 為投影片總字數。 F1. Measure. 2. Precision Recall Precision Recall. 26.

(37) 4. 實實驗與討討論 4.1. 實驗資料料集為了測試試本論文文所提方法法在文字字稿摘要的的效果,我我們首先蒐蒐集了 courrsera, 和 University U y of Waikaato 等課程程平台所提提供之資訊訊領域相關關的課程文文字稿、投投影片、及及影音檔檔。其中影影音檔純粹粹僅供內容容比對用，以釐清文文字稿中的的錯誤或可可能的誤解解,本論文文並未處理理影音資訊訊。表 1 與表與 2 為本本論文所下下載的課程程的相關資資訊。表 1. courrsera 課程程文字稿資資料課程程名稱. 單元數 5. 課程長長度 6週. 總句數數. 8. 8週. 7806. Un niversity oof 7 Melbourne M / Professo or Paascal Van Heentenryckk 16 Sttanford Unniversity/ Tiim Roughggarden. 9週. 13306. 6週. 12508. Un niversity oof London n 6 /D Dr Lorenzoo Cavallarro. 6週. 23565. Sttanford Unniversity/ Krristin Sainnani. 8週. 9395. 開課校系/教開教師. Webb Applicattion Archhitectures. Un niversity oof New Mexico M /Grreg Heeileman Beginning Gaame niversity oof Un Proggrammingg with Co olorado Syystem/ Drr. C# Tiim Disccrete Optiimization Algoorithms: Desiign and Anaalysis, Partt 1 Malicious Softtware and its Undderground Econnomy Twoo Sidees to Everyy Storry Writting in thee Scieences. 27. 8. 7908.

(38) Natuural Languuage Proccessing. Co olumbia U University// Michael M Coollin. 20. 10 週. 7540. Sociial Networrk Anaalysis. Un niversity oof Michigan/ M L Lada Ad damic Sttanford Unniversity/ Jeff Ullmann. 8. 9週. 4033. 23. 6週. 4780. Autoomata. 表 2 University U of Waikatto 課程文文字稿資料料課程程名稱. 開課校系/教開教師. Dataa Mining with w Wekka. Prrof Ian H. Witten/ Un niversity oof Waikato o. 單元課程長總句數數數度 9 11469 9週. 4.2. LDA 工具具介紹. 為避免工工具本身偏偏差的執執行結果，本論文探探討了文獻獻中最常被被引用的L LDA 工具具：一者為 JGibbLD DA(以下簡簡稱 jLDA)，另一者者為 Matlab b Topic Moddeling Toolbox(以下下簡稱 mL LDA)。前前者由 JAV AVA 開發，可直接修修改執行，後者由 MALTAB M 開發，但但提供界面面供 JAVA 呼叫。因因此我們以以 JAVA 撰寫寫程式轉換換文件成它它所需要的的格式接接著透過 MALTAB M 所所提供的界界面呼叫m mLDA 進行行分析。我們進行行 LDA 分析析，而得得到表 3：表 3. 3 GibbLD DA 和 Mattlab Topic Modeling g Toolbox 比較表系統統語言提供供主題機率率提供供字詞機率率輸入入格式秒數數. JAVA A 有(存於.p 有 phi 檔) 有文字檔檔 10..83 秒(20 個主題) 13..13 秒(30 個主題) 28. TAB MALT 有有 MAT 檔 11.86 秒(200 個主題) 11.77 秒(300 個主題).

(39) 備註. 提供多種 LDA 模型 http://psiexp.ss.uci.edu/rese http://jgibblda.sourceforge arch/programs_data/toolbo .net/ x.htm 提供三種模式選擇. 下載網址. 要進行 LDA 執行前，都需要將所得到的資料匯整成一或兩個檔，以便於執行 LDA，其輸入格式如下： JGibbLDA 的資料檔只需一個，其要求為 [M] [document1] [document2] ... [documentM] M 為文件數量，[documentj]為第幾份件，同時[documentj]的組成是由 [wordi1] [wordi2] ... [wordiN]，其中[wordij] (i=1..M, j=1..N)，也就是第 i 個文件的第 j 個單字。執行之後輸出資料的檔案如表 4：. 表 4. 輸出檔的內容 <model_name>.others <model_name>.phi. 為存放 LDA 模式的參數設定文件包含「單字-主題」(word-topic)的概率，也就是 p(wordw|topict) <model_name>.theta 文件包含「主題-文件」(topic-document)的概率，也就是(topict|documentm) <model_name>.tassign 包含單字的主題分配訓練資料，每一行是文件<wordij>:<topic of wordij>的列表的組成 Note：JGibbLDA 的主題編號是從 0 開始，所以會出現 70:0 的組合，代表 ID 為 70 的單字是分到 topic 0。 29.

(40) <moodel_file>.twords worddmap.txt. 該模型下下，最優優的 topN 單字其概率單率單字和單單字的 ID D. Matlab Topic T Mod deling Tooolbox 所需需資料檔為為兩個，執執行 LDA 前，需將資資料轉換成成Ｍ檔才行行。資料料檔可以分分單字檔和和位置檔，單字檔是是儲存文件件所有的單單字，而位位置檔有特特定的輸輸入要求。如表 5：表 5m mLDA 輸入入檔內容容單單字檔內容容 applle. 位置置檔內容 1 2 10 2 2 6 2 5 7……. basic com mputer ….. 上表表的位置檔檔內容：1 1 2 10 2 2 6，以三個個數值為為一個組：「在第一份份文件中，在單字檔檔中第二個個單字「bbasic」出現了 10 次」次，後三三個為：「在在第二份文文件中，在在單字檔中中第三個單單字「com mputer」出現了出 6次次」，以此類類推。. 4.3. 字詞數及及主題數的的決定. 建立 LD DA 主題模模型時需設設定 alphaa 與 beta 值，本論值論文依 LDA A 工具的預預設值，將將 alpha 值設為值 50//K(K 為主主題數)，b beta 值 0.001，而參數數中的主題題數量的設設定則是依依據課程的的章節進進行設定。LDA 會依依據亂數的的設定值會會使得執行行結果不只只有一種種解且有多多種解。接接著觀察在在多個亂數數種子 30.

(41) 中所得到的 LDA 結果是否有相同解，使得分類結果更有明確性。首先針對一般論文來進行實驗：抽取五份論文執行 LDA，其設定值為一至五個主題和一至五個字詞，共計二十五個結果。隨機選取 50 個亂數種子，取相同結果中最高值並且平均，結果如圖 4 和圖 5：. jLDA 60 字數平均值. 50 40 30 20 10 0. Topic 1 50.00 50.00 50.00 50.00 50.00. 1 2 3 4 5. Topic 2 28.33 22.17 13.33 11.33 9.00. Topic 3 14.50 9.33 6.17 3.17 2.50. Topic 4 8.83 2.67 2.17 1.50 0.00. Topic 5 2.83 1.83 0.67 0.00 0.00. 關鍵字數量. 圖 4. jLDA 結果統計表. mLDA 字數平均值. 60 50 40 30 20 10 0 1 2 3 4 5. Topic 1 50.00 50.00 50.00 50.00 50.00. Topic 2 27.50 21.67 13.50 8.33 9.00. Topic 3 14.17 9.17 5.50 4.00 3.83. Topic 4 9.67 2.50 1.67 0.83 0.33. 關鍵字數量. 圖 5. mLDA 結果統計表 31. Topic 5 3.50 1.83 1.50 0.00 0.00.

(42) 從結果表來看，主題數越多或是關鍵字數量越多其數值逐漸降低，這是正常的結果。但我們可以從主題數的角度去觀察，觀察從一到五的主題數的次數變化，在某一數主題數下，次數會急據下降，這也許代表了該份論文適合的主題數量。從平均值來看，一份論文潛藏的主題數是二到三個主題。. 為瞭解主題數和文件數對執行時間的影響，我們分別由固定文件數來變化主題數，及固定主題數來變化件數來瞭解兩個工具的執行效率。當設定的主題數越多，每一主題數下的字詞不盡相同，即使同一主題同一字詞的概率值也有些微差異。說明了兩者工具在不同主題下，字詞分佈是不盡相同的。兩者執行時以前處理加上 LDA 工具執行時間進行計算，首先我們固定文件數為 500 件和底下關鍵字設定 20 個單字，而針對主題數的變化來看執行秒數，所得到的結果是執行十次進行平均的平均秒數，如圖 6。. 32.

(43) 70. 平均秒數. 60 50 40 30 20 10 0. jLDA. 5. 10. 20. 30. 40. 50. 12.650238 21.145441 30.193327 42.197125 48.961128 57.862169. mLDA 15.92654 19.641478 26.182953 36.471905 40.957176 41.036573. 主題數圖 6. 主題數比較如圖 6 所示，jLDA 在主題數 5~10 個平均秒數和 mLDA 相近，但隨著主數題增加，秒數也隨之增加，這可以看出執行秒數值也會隨著主題數增加而有所不同。當主題數越高，mLDA 執行速度會勝過於 jLDA。接著，將主題數固定為 20，針對輸入文章數的不同測試秒數的差異，以執行十次進行平均的平均秒數如圖 7。. 33.

(44) 45. 平均秒數. 40 35 30 25 20 15 10 5 0. jLDA. 100 0. 200. 300. 400. 500. 600. 2101 16.1662202 19.43756 64 27.973846 6 30.193327 41.704631 7.5402. m mLDA 9.7857 7185 13.9728806 15.09857 71 23.017563 3 26.182953 35.032169. 文件數文圖 7. 文件件數比較隨著文件件數的變化化，在會發發現 mLD DA 執行平平均秒數逐數逐漸勝於於 jLDA 的平平均秒數，但一開始始的 100~2200 份的文文件上是 jLDA j 表現現上會比 mLDA 好。。這可以說說明 mLD DA 較適合合執大量文文件的 LD DA。. 4.4. 實驗說明明. 本論文的的摘要種類類有：由 jLDA 和 mLDA 的主題字詞的詞表所產生生的命名為為 JGibbLD DA 和 MaatlabLDA A，動詞和和名詞的 jL LDA 和 m mLDA 的主主題字詞表表所產生的的命名為 JGibbLDA J A_noun、MatlabLD M DA_noun、JGibbLDA A_verb、 MattlabLDA_vverb 以及 SVOL LDA 所產生的命名為 SV VOJGibbL LDA 、 SVO OMatlabLDA。最後後為曾士昌昌(2011)所所提供的 plsa p 程式所所產生的摘摘要簡稱為為 pLSA。共計九種種種類。 34.

(45) 4.5. LDA 摘要要為能評估估 LDA 摘要的是否摘否有達到標標準，本論論文設定 Baseline 作為最作低依依據，將文文字稿視視為摘要直直接與投影影片直接進進行比對進進而得到精精確率、召回回率和 F1--Measure。精確率率 Precisio on. 召回率率 Recall F F1. 文字字稿單字與與投影片單單字中相相同的單字字文字稿的總文總字詞數文字稿稿單字與與投影片單單字中相同同的單字投影影片的總字字詞數 2. Meassure Baseeline. Precission Reecall Precision Recaall. 將得得到的 F1--Measure 做為本研研究的 Basseline 值。。實驗集依依課程類型型加以分類類可分為為三種： Com mputer Sciience: Sofftware Enggineering Com mputer Sciience: Theeory Hum manities:B Biology & Life Sciennces 以下下將在此三三種分類各各挑出一堂堂課程，再以說明。明. 以 Courssera 的「W Writing inn the Scien nces」的第第一章為例例，該章節節說明到何何謂是一篇篇好的文章章，又說說明該怎麼麼寫出好的的文章的概概念，並提提出即使是是一篇科學學學術論文文，文章章句子還是是必須清晰晰明理讓讀讀更能理解解作者所要要表達的含含意。該章章節為 388 個句子，本論文藉藉由 LDA A 的結果所所抽取的句句子為 12 句，摘要要的 12 句句是為了與與本章節投投影片進行行比對，而而兩者的總總字詞必須須相近。本本論文擷取取了 JGib bbLDA 摘要的前摘 1 2 句如下： 35.

(46) Writing in the Sciences 第一章第一節摘要： Because the whole point of scientific writing is to get your ideas across , get your results across to other scientists , to policy makers . Right ? And I think what actually happens when a lot of people sit down to write is they 're worried about , about two up there . So I really want you to in this question keep your focus on that . The main point of writing is to get your idea across clearly and effectively . And I think a lot of things get associated with good writers . So , I think a lot of people think that in order to be a good writer , you 've got to have some sort of inborn talent . And once you 've learned them it 'll be a lot easier for you to write in a clear and effective and effecient way . Another thing I hear from a lot of students is , I can only write when I 'm inspired . Also in this course I 'm going to try to give you a lot of tips to help make your writing easier . There are a lot of ways that you can ease the writing process . So , a lot of scientists do n't spend enough time on revisioning . It will really improve your writing . We 're going to talk a lot about cutting clutter from your work at this first week of the course . 而比對用投影片擷取了 15 句內容如下： Writing in the Sciences 第一章第一節投影片 1 Writing in the Sciences. Unit 1 : Introduction ; principles of effective 36.

(47) writing 2 Writing in the Sciences Module 1.1 : Introduction 3 1.1 Introduction What makes good writing ? 1 . Good writing communicates an idea clearly and effectively . 2 . Good writing is elegant and stylish . Takes time , revision , and a good editor ! Takes having something to say and clear thinking . 4 What makes a good writer ? Inborn talent ? Years of English and humanities classes ? An artistic nature ? The influence of alcohol and drugs ? Divine inspiration ? 1.1 Introduction 5 What makes a good writer : Having something to say . Logical thinking . A few simple , learnable rules of style ( the tools you 'll learn in this class ) . Take-home message : Good writing can be learned ! 1.1 Introduction 6 In addition to taking this class , other things you can do to become a better writer : Read , pay attention , and imitate . Write in a journal . Let go of `` academic '' writing habits ( deprogramming step ! ) Talk about your research before trying to write about it . Write to engage your readers -- try not to bore them ! Stop waiting for `` inspiration . '' Accept that writing is hard for everyone . 37.

(48) Revise . Nobody gets it perfect on the first try . Learn how to cut ruthlessly . 如 3.3 節所提，所產生的摘要與相對應的投影片進行比對，進而得到數據。所得到比對的數據如表 6：表 6 Writing in the Sciences 的比較數據 FileName 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 26 27 28. Precision 0.054441 0.177931 0.141611 0.173649 0.169978 0.163342 0.108839 0.102933 0.254545 0.170813 0.114879 0.18346 0.139004 0.117103 0.114804 0.189662 0.291753 0.078862 0.234195 0.026827 0.036505 0.250992 0.116461 0.111881 0.084204 0.239849 0.156056. Baseline Recall 0.703704 0.678947 0.565684 0.772932 0.729858 0.74221 0.723684 0.66791 0.724919 0.704274 0.85567 0.721495 0.773308 0.880309 0.692483 0.672304 0.638833 0.659864 0.570728 0.508772 0.725714 0.857627 0.776119 0.590078 0.323339 0.64358 0.400491. F1 0.101064 0.281967 0.226516 0.283586 0.275739 0.267757 0.18922 0.178376 0.376787 0.274942 0.202563 0.292535 0.235649 0.206709 0.196955 0.29586 0.400568 0.140886 0.332111 0.050967 0.069513 0.388335 0.202532 0.188098 0.133612 0.349461 0.224595 38. Precision 0.276923 0.437173 0.31016 0.455604 0.375 0.5 0.331878 0.408922 0.510511 0.390863 0.438619 0.452465 0.46051 0.356322 0.393574 0.37656 0.413981 0.31348 0.405817 0.158333 0.243243 0.522364 0.371528 0.288288 0.233939 0.448142 0.288783. PLSA Recall 0.333333 0.439474 0.310992 0.470677 0.383886 0.515581 0.333333 0.410448 0.550162 0.394872 0.44201 0.480374 0.461686 0.359073 0.446469 0.382664 0.42002 0.340136 0.410364 0.166667 0.257143 0.554237 0.399254 0.292428 0.234603 0.450584 0.297297. F1 0.302521 0.43832 0.310576 0.463018 0.379391 0.507671 0.332604 0.409683 0.529595 0.392857 0.440308 0.466002 0.461097 0.357692 0.418356 0.379588 0.416979 0.326264 0.408078 0.162393 0.25 0.537829 0.384892 0.290343 0.234271 0.44936 0.292978.

(49) 29 30 31 32 33 34 39 40 41 42 43 44 45 46 48 49 50 平均值 FileName 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16. 0.443393 0.279779 0.106635 0.130315 0.077986 0.056951 0.137689 0.175412 0.123511 0.143638 0.072994 0.079277 0.137985 0.109864 0.093715 0.082887 0.101313. 0.431379 0.606322 0.546559 0.766194 0.696035 0.701031 0.61206 0.608929 0.737828 0.7225 0.635496 0.656682 0.749147 0.78481 0.827655 0.868984 0.369863. 0.437304 0.382882 0.178453 0.222745 0.140257 0.105345 0.224806 0.272364 0.2116 0.239635 0.130948 0.141474 0.233046 0.192746 0.168365 0.151339 0.159057. 0.437146 0.459071 0.286275 0.473259 0.276316 0.275748 0.318271 0.313725 0.337931 0.354988 0.278195 0.306488 0.443886 0.287212 0.341085 0.334204 0.204082. 0.437223 0.459291 0.295547 0.474696 0.277533 0.285223 0.325628 0.342857 0.367041 0.3825 0.282443 0.315668 0.452218 0.28903 0.352705 0.342246 0.205479. 0.437185 0.459181 0.290837 0.473977 0.276923 0.280405 0.321908 0.327645 0.351885 0.368231 0.280303 0.31101 0.448014 0.288118 0.346798 0.338177 0.204778. 0.144498 0.673325 0.226347 0.361156 0.373298 0.367001 Precision 0.326087 0.274809 0.226316 0.403587 0.228448 0.370879 0.303879 0.367742 0.396825 0.319605 0.342604 0.414179 0.380407 0.334615 0.259091 0.33637. JGibbLDA Recall 0.347222 0.284211 0.230563 0.406015 0.251185 0.382436 0.309211 0.425373 0.404531 0.331624 0.349227 0.414953 0.381865 0.335907 0.259681 0.338266. F1 0.336323 0.279431 0.22842 0.404798 0.239278 0.376569 0.306522 0.394464 0.400641 0.325503 0.345884 0.414566 0.381134 0.33526 0.259386 0.337316 39. MatlabLDA Precision Recall F1 0.326087 0.347222 0.336323 0.274809 0.284211 0.279431 0.226316 0.230563 0.22842 0.394775 0.409023 0.401773 0.228448 0.251185 0.239278 0.351351 0.368272 0.359613 0.303879 0.309211 0.306522 0.367742 0.425373 0.394464 0.396825 0.404531 0.400641 0.319605 0.331624 0.325503 0.342604 0.349227 0.345884 0.38674 0.392523 0.38961 0.380407 0.381865 0.381134 0.334615 0.335907 0.33526 0.259091 0.259681 0.259386 0.33637 0.338266 0.337316.

(50) 17 18 19 20 21 22 23 24 26 27 28 29 30 31 32 33 34 39 40 41 42 43 44 45 46 48 49 50 平均值. 0.409433 0.285714 0.309408 0.214876 0.222222 0.458401 0.34629 0.260816 0.222445 0.339286 0.248815 0.443393 0.440437 0.273267 0.380665 0.268398 0.281356 0.359719 0.33101 0.404181 0.370647 0.266667 0.268966 0.419784 0.324597 0.363118 0.314961 0.222973. 0.410463 0.306122 0.310924 0.22807 0.24 0.476271 0.365672 0.275457 0.224878 0.340078 0.257985 0.431379 0.444444 0.279352 0.382591 0.273128 0.285223 0.360804 0.339286 0.434457 0.3725 0.267176 0.269585 0.430887 0.339662 0.382766 0.320856 0.226027. 0.409947 0.295567 0.310164 0.221277 0.230769 0.467165 0.355717 0.267937 0.223655 0.339681 0.253317 0.437304 0.442431 0.276276 0.381625 0.270742 0.283276 0.360261 0.335097 0.418773 0.371571 0.266921 0.269275 0.425263 0.331959 0.372683 0.317881 0.22449. 0.409433 0.28254 0.309408 0.214876 0.222222 0.442211 0.34629 0.264968 0.222445 0.336695 0.248815 0.443393 0.440437 0.273267 0.380665 0.268398 0.281356 0.359719 0.344948 0.404181 0.37296 0.266667 0.268966 0.419784 0.324597 0.363118 0.309278 0.222973. 0.410463 0.302721 0.310924 0.22807 0.24 0.447458 0.365672 0.27154 0.224878 0.337743 0.257985 0.431379 0.444444 0.279352 0.382591 0.273128 0.285223 0.360804 0.353571 0.434457 0.4 0.267176 0.269585 0.430887 0.339662 0.382766 0.320856 0.226027. 0.409947 0.292282 0.310164 0.221277 0.230769 0.444819 0.355717 0.268214 0.223655 0.337218 0.253317 0.437304 0.442431 0.276276 0.381625 0.270742 0.283276 0.360261 0.349206 0.418773 0.386007 0.266921 0.269275 0.425263 0.331959 0.372683 0.314961 0.22449. 0.325847 0.334734 0.330148 0.324415 0.334047 0.329077. JGibbLDA_noun FileName Precision Recall F1 1 0.262712 0.287037 0.274336 2 0.315789 0.315789 0.315789 3 0.323684 0.329759 0.326693 4 0.39291 0.4 0.396423 5 0.327801 0.374408 0.349558 40. MatlabLDA_noun Precision Recall F1 0.262712 0.287037 0.274336 0.315789 0.315789 0.315789 0.323684 0.329759 0.326693 0.39291 0.4 0.396423 0.326087 0.35545 0.340136.

(51) 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 26 27 28 29 30 31 32 33 34 39 40 41 42 43 44 45 46 48. 0.389356 0.326226 0.361486 0.493631 0.345118 0.419769 0.41527 0.416137 0.422642 0.280973 0.337999 0.37995 0.307443 0.345942 0.207792 0.197044 0.482471 0.40293 0.273177 0.215813 0.387244 0.285885 0.443393 0.436754 0.279297 0.381694 0.35 0.331058 0.315582 0.395722 0.457746 0.406542 0.265655 0.312073 0.443522 0.456033 0.413127. 0.393768 0.335526 0.399254 0.501618 0.350427 0.421392 0.416822 0.418263 0.432432 0.289294 0.340381 0.381288 0.323129 0.352241 0.280702 0.228571 0.489831 0.410448 0.288512 0.216775 0.396887 0.293612 0.431379 0.438218 0.289474 0.396761 0.370044 0.333333 0.321608 0.396429 0.486891 0.435 0.267176 0.315668 0.455631 0.470464 0.428858. 0.391549 0.330811 0.379433 0.497592 0.347752 0.420579 0.416045 0.417197 0.427481 0.285073 0.339185 0.380618 0.315091 0.349063 0.238806 0.21164 0.486123 0.406654 0.280635 0.216293 0.392006 0.289697 0.437304 0.437485 0.284294 0.389082 0.359743 0.332192 0.318566 0.396075 0.471869 0.42029 0.266413 0.31386 0.449495 0.463136 0.420846 41. 0.389356 0.326923 0.361486 0.488889 0.345118 0.419769 0.41527 0.416137 0.422642 0.280973 0.337999 0.37995 0.307443 0.345942 0.207792 0.197044 0.482471 0.40293 0.273177 0.215813 0.387244 0.285885 0.443393 0.437111 0.279297 0.381694 0.35 0.331058 0.315582 0.395722 0.457746 0.406542 0.265655 0.312073 0.443522 0.456612 0.413127. 0.393768 0.335526 0.399254 0.498382 0.350427 0.421392 0.416822 0.418263 0.432432 0.289294 0.340381 0.381288 0.323129 0.352241 0.280702 0.228571 0.489831 0.410448 0.288512 0.216775 0.396887 0.293612 0.431379 0.437739 0.289474 0.396761 0.370044 0.333333 0.321608 0.396429 0.486891 0.435 0.267176 0.315668 0.455631 0.466245 0.428858. 0.391549 0.331169 0.379433 0.49359 0.347752 0.420579 0.416045 0.417197 0.427481 0.285073 0.339185 0.380618 0.315091 0.349063 0.238806 0.21164 0.486123 0.406654 0.280635 0.216293 0.392006 0.289697 0.437304 0.437425 0.284294 0.389082 0.359743 0.332192 0.318566 0.396075 0.471869 0.42029 0.266413 0.31386 0.449495 0.461378 0.420846.

(52) 49 50. 0.348371 0.371658 0.359638 0.348371 0.371658 0.359638 0.143791 0.150685 0.147157 0.167785 0.171233 0.169492. 平均值. 0.352217 0.36426 0.357945 0.352653 0.364116 0.358114. JGibbLDA_verb FileName Precision Recall F1 1 0.285068 0.291667 0.28833 2 0.404199 0.405263 0.404731 3 0.32199 0.329759 0.325828 4 0.354745 0.365414 0.36 5 0.383562 0.398104 0.390698 6 0.335979 0.359773 0.347469 7 0.451754 0.451754 0.451754 8 0.36 0.369403 0.364641 9 0.446602 0.446602 0.446602 10 0.399329 0.406838 0.403048 11 0.388041 0.393041 0.390525 12 0.390597 0.403738 0.397059 13 0.415829 0.422733 0.419253 14 0.309859 0.339768 0.324125 15 0.241685 0.248292 0.244944 16 0.365035 0.367865 0.366444 17 0.331668 0.334004 0.332832 18 0.311037 0.316327 0.313659 19 0.332645 0.338235 0.335417 20 0.212329 0.27193 0.238462 21 0.231183 0.245714 0.238227 22 0.461794 0.471186 0.466443 23 0.319865 0.354478 0.336283 24 0.302597 0.304178 0.303385 26 0.22501 0.225284 0.225147 27 0.356313 0.357977 0.357143 28 0.284841 0.286241 0.285539 29 0.443393 0.431379 0.437304 30 0.409287 0.409483 0.409385 31 0.23301 0.242915 0.237859 32 0.387652 0.387652 0.387652 42. MatlabLDA_verb Precision Recall F1 0.285068 0.291667 0.28833 0.401575 0.402632 0.402102 0.32199 0.329759 0.325828 0.354745 0.365414 0.36 0.383562 0.398104 0.390698 0.335979 0.359773 0.347469 0.451754 0.451754 0.451754 0.36 0.369403 0.364641 0.446602 0.446602 0.446602 0.399329 0.406838 0.403048 0.388041 0.393041 0.390525 0.390597 0.403738 0.397059 0.415829 0.422733 0.419253 0.309859 0.339768 0.324125 0.241685 0.248292 0.244944 0.365035 0.367865 0.366444 0.329347 0.332495 0.330914 0.311037 0.316327 0.313659 0.332645 0.338235 0.335417 0.212329 0.27193 0.238462 0.231183 0.245714 0.238227 0.461794 0.471186 0.466443 0.319865 0.354478 0.336283 0.302597 0.304178 0.303385 0.22501 0.225284 0.225147 0.356313 0.357977 0.357143 0.284841 0.286241 0.285539 0.443393 0.431379 0.437304 0.409287 0.409483 0.409385 0.23301 0.242915 0.237859 0.387652 0.387652 0.387652.

(53) 33 34 39 40 41 42 43 44 45 46 48 49 50 平均值. 0.304167 0.282895 0.326673 0.34669 0.366337 0.36 0.278409 0.238411 0.453696 0.343096 0.379242 0.334225 0.169935. 0.321586 0.295533 0.328643 0.355357 0.41573 0.36 0.280534 0.248848 0.455631 0.345992 0.380762 0.334225 0.178082. 0.312634 0.289076 0.327655 0.35097 0.389474 0.36 0.279468 0.243517 0.454662 0.344538 0.38 0.334225 0.173913. 0.304167 0.276451 0.326673 0.34669 0.366337 0.36 0.278409 0.243534 0.453696 0.343096 0.379242 0.334225 0.169935. 0.321586 0.278351 0.328643 0.355357 0.41573 0.36 0.280534 0.260369 0.455631 0.345992 0.380762 0.334225 0.178082. 0.312634 0.277397 0.327655 0.35097 0.389474 0.36 0.279468 0.25167 0.454662 0.344538 0.38 0.334225 0.173913. 0.338197 0.347225 0.342507 0.338055 0.347003 0.342324. SVOJGibbLDA FileName Precision Recall F1 1 0.30531 0.319444 0.312217 2 0.369898 0.381579 0.375648 3 0.226913 0.230563 0.228723 4 0.390602 0.4 0.395245 5 0.269231 0.298578 0.283146 6 0.386059 0.407932 0.396694 7 0.343284 0.35307 0.348108 8 0.333333 0.347015 0.340037 9 0.536741 0.543689 0.540193 10 0.315789 0.328205 0.321878 11 0.39467 0.400773 0.397698 12 0.431734 0.437383 0.43454 13 0.393881 0.394636 0.394258 14 0.377163 0.420849 0.39781 15 0.242424 0.255125 0.248613 16 0.329648 0.336152 0.332868 17 0.407444 0.412978 0.410192 18 0.332268 0.353741 0.342669 19 0.353549 0.359244 0.356374 20 0.141667 0.149123 0.145299 43. SVOMatlabLDA Precision Recall F1 0.317972 0.319444 0.318707 0.398458 0.407895 0.403121 0.273458 0.273458 0.273458 0.416544 0.42406 0.420268 0.313364 0.322275 0.317757 0.408219 0.422096 0.415042 0.405702 0.405702 0.405702 0.313333 0.350746 0.330986 0.511111 0.521036 0.516026 0.416244 0.420513 0.418367 0.359356 0.373711 0.366393 0.426716 0.429907 0.428305 0.422419 0.425926 0.424165 0.498168 0.525097 0.511278 0.222462 0.234624 0.228381 0.352694 0.35518 0.353933 0.412826 0.414487 0.413655 0.309904 0.329932 0.319605 0.349616 0.35084 0.350227 0.2 0.201754 0.200873.

(54) 21 22 23 24 26 27 28 29 30 31 32 33 34 39 40 41 42 43 44 45 46 48 49 50 平均值. 0.25 0.44702 0.356364 0.290116 0.215292 0.409195 0.282767 0.443393 0.426806 0.302632 0.444995 0.327511 0.261146 0.343719 0.392361 0.385666 0.3725 0.266423 0.224176 0.430025 0.369835 0.358974 0.322078 0.202703. 0.285714 0.457627 0.365672 0.295039 0.216775 0.415564 0.286241 0.431379 0.430077 0.325911 0.454453 0.330396 0.281787 0.343719 0.403571 0.423221 0.3725 0.278626 0.235023 0.432594 0.377637 0.364729 0.331551 0.205479. 0.266667 0.452261 0.360958 0.292557 0.216031 0.412355 0.284493 0.437304 0.428435 0.31384 0.449675 0.328947 0.271074 0.343719 0.397887 0.403571 0.3725 0.272388 0.229471 0.431306 0.373695 0.361829 0.326746 0.204082. 0.19337 0.448276 0.34507 0.292249 0.211638 0.423664 0.299387 0.443393 0.429862 0.303327 0.428141 0.353712 0.302752 0.339512 0.374138 0.392727 0.410891 0.295802 0.292517 0.416058 0.377823 0.391813 0.379581 0.121212. 0.2 0.462712 0.365672 0.300261 0.215154 0.431907 0.299754 0.431379 0.43295 0.313765 0.431174 0.356828 0.340206 0.349749 0.3875 0.404494 0.415 0.295802 0.297235 0.437713 0.388186 0.402806 0.387701 0.136986. 0.196629 0.455379 0.355072 0.296201 0.213382 0.427746 0.29957 0.437304 0.431401 0.308458 0.429652 0.355263 0.320388 0.344554 0.380702 0.398524 0.412935 0.295802 0.294857 0.426611 0.382934 0.397233 0.383598 0.128617. 0.341075 0.351713 0.346227 0.354443 0.363491 0.358842. 從第一節來看，本論文所提的八種摘要法皆優於 Baseline，但動詞與名詞的摘要法卻輸給了 pLSA，一般的 LDA 摘要與 SVOLDA 摘要稍微優秀一些，但整個課程的平均值來看，所有的摘要皆輸給了 pLSA，從表 6 看出數節的數值拉滑了整個平均。但以確定的是在「Writing in the Sciences」課程上，一般的 LDA 結果能比較適合輸出摘要。 44.

(55) 接著以「Automata」進行觀察，該課程與上一個課程不同處在於所屬分不同，比較能區分不同領域我們的研究是否有所差異，該分類為：「Computer Science: Theory」。本次所選的章節為：第一章第一節「Course outline and motivation」，該節是簡單介紹 Automata 概論以及可以運用的地方。該節約 121 行，藉由 LDA 的結果所抽取句子為 19 句，本論文擷取了前 12 句如下： Automata 第一章第一節摘要： This theory plays an important role in computer science . So computer science graduates naturally sided out in conducting programming courses as the one they used the most , No surprise here . They also have been used for decades to model electronic circuits , and in particular to help design good circuits . They have also been used to model protocols , and we 'll give some examples later in this course . Especially [ inaudible ] underlie the body of techniques known as model checking , Which has been used to verify the correctness of both communication protocols and large electronic circuits . There are fundamental limitations on our ability to compute . Mm-hm . One limitation is undecidability there are problems that can not be solved by computation . You ca n't do this . We 're going to prove that there is no way to tell whether a program will ever print a particular word Or even if it will 45.

(56) ever print anything at all . Often the trickiest parts of a program deal with trees , graphs , or other recursive structures . We 're also going to learn about a number of important abstractions : finite automata , regular expressions , context-free grammars , and varieties of pushdown automata and Turing machines . Some of the essential parts of this course are proving equivalences among the models , that is , any example of one model can be simulated by some instance of another model . Machines that can magically turn into many machines that each do something independently but with a coordinated effect . 課程投影片會盡量保留原樣，但同時也會包含少量程式及公式，擷取了前 15 句： Automata 第一章第一節投影片： Welcome to the Stanford. Automata Theory Course. Why Study. Automata ? What the Course is About 2 Why Study Automata ? A survey of Stanford grads 5 years out asked which of their courses did they use in their job . Basics like intro-programming took the top spots , of course . But among optional courses , CS154 stood remarkably high . X the score for AI , for example . 3 How Could That Be ? Regular expressions are used in many systems . 46.