• 沒有找到結果。

第五章 知識萃取機制設計

第一節 模糊綜合評判

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y 第五章 知識萃取機制設計

本研究於「知識標註學習系統」(Knowledge-based Annotation Learning System,

以下簡稱 KALS)中所發展的「知識萃取機制」係考量標註特徵與標註共識等六 項考量因素,結合專家評估制定的標註重要度模糊隸屬函數與因素權重集,以模 糊綜合評判推論出代表標註重要度的「標註分數」與「標註因素分數」發展而成。

根據「標註分數」是否達到建議門檻分數,「知識萃取機制」將會進行標註技巧 建議與篩選出優質標註進行推薦,最後將綜合而成的「標註建議」回饋給讀者。

而「標註分數」較高的標註,也會在閱讀文章上以紅字的形式標亮,此為標註指 引的功能。

以下各節將說明「知識萃取機制」在運作上的各個細節。

第一節 模糊綜合評判

本研究採用之「知識萃取機制」推論「標註分數」的方法為「模糊綜合評判」。

相較於傳統綜合評判,模糊綜合評判是參考各因素的模糊隸屬函數,搭配因素權 重集,計算出模糊集合評價集。最後再經過重心法做解模糊化的動作,而推論出

「標註分數」。

許多社會科學領域的研究使用「模糊綜合評判」作為評鑑的指標(吳柏林,

2005)。而相較於大多數機器學習方法,「模糊綜合評判」在計算上具有不需事 前訓練、運算成本低、能夠快速得到結果等優勢。本研究在設計模糊綜合評判的 因素集、權重集、模糊隸屬度的過程中,也因為納入了專家的專業意見,使得此 方法具有專家效度。

一、 參數設定

在使用「模糊綜合評判」時,需要配合因素集、論域、權重集、評價集以及 模糊隸屬函數五種參數。分別說明如下:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(一) 因素集

這是影響「標註分數」推論的各項因素所組成的一個集合,亦即「知識萃取 機制」所考量的各項因素。本系統的因素集為「標註範圍共識」、「標註喜愛共識」、

「標註範圍長度」、「標註範圍位置」、「標註範圍詞性」與「標註策略類型」這六 項因素。後面章節中會再詳細說明這六項因素。

(二) 論域

因素集中的每一項因素皆會發生不同的情況,因素可能產生情況的集合稱之 為「論域」,而每一種情況就是該論域的「因子」。以「標註範圍位置」因素為例,

其論域為「段落開頭第一句」、「段落開頭第二句」、「段落結尾倒數第一句」、「段 落結尾倒數第二句」與「除了以上位置之外的其他位置」。而其中「段落開頭第 一句」則是該論域的一項因子。

(三) 權重集

這是反映各因素的重要程度,以 0 到 1 的量化數值表示。權重越大,對於「模 糊綜合評判」的結果影響也會越大。各項因素的權重會經過正規化,使得各因素 的權重總和為「1」。權重集的建立採用專家評估法,以「知識萃取機制專家評估 問卷」的統計結果來設定。詳細設定過程在後面章節中會加以介紹。

(四) 評價集

這是對於標註各因素可能做出的各種評價結果集合。本系統的評價集設計為

「低重要」(1 分)、「中重要」(2 分)、「高重要」(3 分)三種。各名義評價皆有 對應的量化數值,使得「模糊綜合評判」的結果可以經由解模糊得到一個明確的 數值,也就是「標註分數」。