• 沒有找到結果。

此階段為本論文最重要的環節。為了比較句子間的相似性,一個最直 覺的答案是尋找完全符合的句子,不過當句子所有字詞都相同,但卻有大 寫字母、標點符號或空白間隔之間的差異,此做法可能會造成無法匹配情 境發生,因此我們採用近似句子匹配(Approximate Sentence Matching, ASM)

17 資料來源:https://tartarus.org/martin/PorterStemmer/。

(Leveling et al. 2012)方法,是一個近似匹配的方法來比較句子之間的相似性,

找尋最高相似性的句子視為匹配句子,而非完全匹配的方式。

本論文使用多個篩選條件來判定句子是否屬於重要句子,進一步計算 句子間的近似匹配比率,並標記文字稿個別句子的類別標籤。為了方便解 說,個別定義以投影檔句子為基礎的匹配比率為Pcr

Pcr=投影檔與文字稿的重疊字詞總數

投影檔句子之字詞總數 (8)

以文字稿句子為基礎的匹配比率為Tcr

Tcr=投影檔與文字稿的重疊字詞總數

文字稿句子之字詞總數 (9)

句子間的近似匹配分數為Cp

Cp= 投影檔與文字稿的重疊字詞總數

Max(文字稿句子之字詞長度,投影檔字詞長度) (10) 處理流程如圖 3-2 所示,參數設定詳細說明請至第肆章第二節之一:

(一) 設定 Pcr起始值,以持續遞減 0.025 的機制至 0.1 停止。設定 Pcr 起始值原因在於,投影檔句子之字詞有時非常少且是常出現字詞時,

如匹配比率越高,則文字稿句子較長者不會受到太多的處罰,並進 一步考量是否移除標點符號就能正確匹配句子,還是需移除停用字 才足以正確匹配句子。

(二) 若符合演算法一時,我們計算已匹配句子的 Cp值,並進行降冪 排序,此規則能有效的懲罰長句子的問題,因句子長度越長,意味

著字詞數越多,重疊的次數會因此提升,匹配比率也會提升。此外,

我們認為有部分文字稿句子會匹配到多個句子,因此加入可匹配到 多個句子規則:

Pcr > 目前Pcr + 調節值 (11) 採用調節值原因在於,有時某門課程之文字稿內容名詞出現頻繁,

如不增加調節值會導致錯誤匹配的疑慮。當 Pcr同時有多個比率超 過以上準則,才可選取多個句子,否則只能選擇最高 Cp做為選取。

當取多個匹配句子且匹配到多個句子之 Cp值相同時,會先選取第 一個匹配到的句子視為摘要句,此外會進一步累加 Tcr,並需滿足 累加 Tcr ≤ 1.0 的規則。此規則目的在於,當累加 Tcr = 1 時,表示文 字稿句子之字詞應全數匹配完成,若超過 1.0 則不符合配對原則。

圖 3-2 演算法規則以表 3-1 為例,其中取多個句子範例中,前 3 個句子 的 Pcr值都符合演算法一與演算法二,且加總 Tcr等於 1.0,並未超過 1.0,

但在第 4 個句子之 Pcr小於 0.75 未符合演算法,且累加至 Tcr等於 1.08,會 超過 1.0 之條件,並不符合取多個句子的條件,因此只有前 3 個句子是符合 多個句子之篩選條件;但在取單一句子時,因未達演算法一,因此以最高 Cp值視為匹配句子。

5:for each sentence i

6: if sentence i Pcr >= Pcr + 調節值 && total_Tcr <= 1.0 7: add sentence i to pool

8: total_Tcr+= Tcr of sentence 9: end if

10:next

11:if pool == null then

12: 取最高Cp值的匹配句子

explain popular machine learning

algorithms work 0.86 0.42 0.42 understand various representations

models 1.0 0.33 0.33

understand evaluation methods 1.0 0.25 0.25 understand doing 0.5 0.08 0.08

符合取單一匹配句子範例

備註:假設目前 Pcr為 0.7,若需符合演算法二,則 Pcr需大於 0.75

文字稿句子 投影檔句子 Pcr Tcr Cp

context weka data mining workbench

data mining workbench 1.0 0.6 0.6 data mining vs. machine

learning

0.4

(未達演算法二) 0.4 0.4

當同時符合以上篩選規則時,標記文字稿句子類別為 1,因部分文字稿 與投影檔句子間重疊字詞數過低,會因此未達以上的演算法規則,則標記 文字稿句子類別為 0。最後,藉由 GloVe 已訓練好的字詞向量18,來獲取句 子向量,形成我們往後所用的訓練與測試集。

相關文件