研究方法
3.1.2. 三元組輸出
de Marneffe and Manning (2008)解釋了史丹佛型態相依表示法,如:
nsubj(saw-2, I-1)
nsubj 指的是括號中的兩個單字的關係,其中 nsubj 指的關係為一般主詞 (nominal subject),也就是括號中的單字 saw 和 I 的關係為一般主詞,而 單字後的數字是指該單字的節點位置。
本論文藉由解析史丹佛型態相依表示法來篩選所需要的三元組,與 主詞有關的表示法為nsubj 和 csubj(clausal subject),在句子「I saw a girl who is in red cloth.」中所提供的關係:
nsubj(saw-2, I-1) nsubj(is-6, girl-4)
從這裡程式可以藉由解析該單字在剖析的詞性,如 I 為 PRP (Personal pronoun),而 saw 為 VBD(Verb),這兩種的組合為主詞和述語常見組合之 一,可用來篩選是否為三元組,藉由多種組合來篩選是否為三元組其中 之二。接下來與受詞有關的表示法有dobj(direct object)、iobj(indirect object) 和pobj (object of preposition),而範例句子所提供的相關關係有:
dobj(saw-2, girl-4)
dobj 為直接受詞,它是動詞的直接受詞。girl 詞性為 NN(Noun),當關係 為dobj,其中一方單字為 NN,該 NN 為受詞。
取得
0.055044 0.030312 0.027159 0.025220 el 來說,是
接著藉由每一主題底下的單字,去尋找有含該單字的句子,將其中 所含單字的概率加總來為作為該句子的權重值,但主題字詞表是統一的,
為突顯個別文字稿的差異,本論文加入了關係詞來微調句子權重值,而 所選取的關係詞必須與該文字稿相關,本論文以文字稿的章節標題作為 該文字稿的關係詞,每一份文字稿都有屬於自己的關係詞。接著加入提 示詞(Cue phrase)來近一步微調權重值。提示詞不如關鍵字那麼重要,但 往往能達到提示的作用如:「for example」、「the purpose of」等。由於含 有提示詞的句子可作為重要句子後補的機率較高,在權重值的設定上比 相關詞來得高,後續的實驗結果收錄在附錄並提到相關詞與提示詞的權 重值設定。藉由多個高權值加總所找到的句子,可作為放入候補句。
經由這樣的過程,所有主題底下都有候補句。要從候補句子選取摘 要句子的方式是:將主題的概率值排序,從最高概率的主題中選取最高 權重值的句子,接著再往第二高概率主題選取第一句,依序選完所有主 題的第一句之後,再重新的一輪從最高概率的第二句不停排下去,直到 所有的句子被選取為止。上一節所提到的三元組的資料,同樣是結合上 述作法,從每一句的三元組資料去比對各主題底下的單字,符合的單字 既是三元組元素也是潛藏主題的單字。後續如同所前方所述找到含有該 單字的句子,本論文認為既是三元組也具有高概率的單字,其句子更適 合作為摘要句。此這作法是提取句子的主詞(Subject)動詞(Verb)、受詞
(Obj
要總字數。
召回率 Recall AbstractWord SlideSize SlideSize 為投影片總字數。
F1 Measure 2 Precision Recall Precision Recall
實
b Applicathitectures inning Ga gramming
crete imization
orithms:
ign and alysis, Part
icious tware and derground nomy Two es to Every ry
ting in the ences tion Un
M
niversity o Mexico /Gr
eileman niversity o olorado Sy im
niversity o Melbourne / ascal Van
entenryck tanford Un im Roughg
niversity o Dr Lorenzo
tanford Un ristin Sain
法在文字
ystem/ Dr
of
/ Professo k
niversity/
garden of London o Cavallar
niversity/
nani