模糊比對

第三章方法與步驟

第五節模糊比對

經過初步的種子詞彙擷取與擴充之後，我們把標準答案中在此步驟之前能找到的全部除去，並把剩下來未判定極性的詞彙依照字數分為四個類別，其中 1 個字的分為一類，2 個字的分為一類，3 個字的分為一類，4 個字以上的分為一類，

並給予不同的規則進行極性分析。其中 2 個字的實驗步驟順序是根據最後的實驗結果而定，不僅可以節省多餘的詞性判定，同時也不至於讓正確率(Precision)降低。

1 個字、2 個字、3 個字的判定極性的規則方法會在此節解說，而 4 個字以上極性判定會在下一節詳述。

NTUSD

在此步驟中使用了 NTUSD positive 以及 NTUSD negative 這兩個資料當作進行模糊比對的統計資訊。

首先 NTUSD 為一個標明正確極性的資料，其中只取出 2 個字的結果，來進行字數的統計，這是因為在 NTUSD 資料中對於每個詞都標示得非常詳細，幾乎是把所有詞彙的使用方法包含進去，例如：『令人高興的』，被正確的歸類在正向詞彙中，但卻多出了多餘的修飾詞彙『令人』、『的』，這些多出來的字就會對統計結果產生影響，我們所期望的是不需要修飾字，而是像『高興』本身就具有極性意義詞彙。

最後擷取出 NTUSD positive 中 2 個字的詞彙共 1262 個，以及 NTUSD negative

中 2 個字的詞彙共 3605 個，進行單字的統計，並分別列出 NTUSD 正向和負向統計字數前 10 多的單字，如下表 3-9：

表 3-9：NTUSD 正向和負向統計字數各前 10 多的單字

正向極性字 844 個數量排名前 10 名 負向極性字 1813 個數量排名前 10 名

正向極性字 數量 負向極性字 數量

心 30 不 118

愛 29 死 60

好 28 失 51

安 23 亂 45

明 19 人 42

意 18 打 42

有 17 無 38

正 16 心 37

善 16 傷 35

喜 16 惡 35

因為考慮到正負詞彙數量的差距很大，所以在此不能直接使用這些字的統計數量進行分析，而詳細的使用方法會在下面各個章節中介紹。

第一類 1 個字

從第一類 1 個字的類別，我們調整了正負向統計字的比例以進行標註極性的工作，所使用的正負比例為 1：3，也就是負向字數除以正向字數必須大於等於 3，

此單詞才會被判定成負向極性，否則即為正向極性，若在兩邊極性統計字中皆找不到有效次數，則此詞彙會判定為無法辨識極性。

第二類 2 個字

第二類 2 個字的類別，必須先把開頭第一個字有否定意義的詞先進行分類，

並直接歸類為負向極性詞彙，此步驟使用的否定單字有 6 個，分別為：『不』、『無』、

『違』、『誤』、『勿』、『錯』，或許在未來可以加入一些其他單字，藉此以提高正確率(Precision)。

其次為分類出正向極性的做法，此方法查詢 NTUSD positive 和 NTUSD negative 單字統計次數，並由高往低擷取，按照所查詢的正向次數擷取出正向極性詞彙後，再除去由負向次數所查詢到的負向極性詞彙，反覆觀察擷取出來的詞彙的正確率(Precision)以及回收率(Recall)，若有不到標準的數值，就提高或降低所需要的 NTUSD 正負向單字統計字數，提高統計字數表考慮的單字種類變少，

反之降低統計字數表考慮單字變多，用此以維持平衡。

擷取出所需的正向極性詞彙之後，緊接著把這些標示正向極性的詞彙從所有詞彙中除去，只留下未進行極性判定的詞彙。

向極性詞彙的方法，調整 NTUSD negative 單字統計次數擷取出負向極性詞彙後，

再去除由 NTUSD positive 單字統計次數擷取出的正向極性詞彙，經過詞頻控制擷取出來的詞彙的正確率(Precision)以及回收率(Recall)，以達標準。

最後再去除掉已找尋到的負向極性詞彙，把剩餘的未判定極性詞彙做最後一道分析，此方法是把兩個字出現在 NTUSD positive 和 NTUSD negative 的單字統計分別相加總再行比較，正負向極性單字比例為 1：3，負向極性單字總和必須大於正向單字總和 3 倍(不包括等於 3 倍)，此未判定詞彙才會被判定為負向極性。

第三類 3 個字

在判斷 3 個字正負極性時分成四個部分，首先需要用到第一部分種子詞彙擴充的結果，先選出所有在其中的 3 個字的答案，與未判定極性的 3 個字詞彙進行比對，比對過程中完全不考慮順序，只要有 2 個字符合比對成功，就判定為與種子詞彙相同的極性，例如：『不得了』，是經由種子詞彙『了不得』所比對出進行分類的。

第二步使用被擷取出來的所有 2 個字的以分類極性詞彙，其中包括了種子擴充出來額外的 2 個字極性詞，並進行三回合的模糊比對，第一回把 3 個字的未判定詞彙，分成第一個字與中間字為同一組，第二回即中間字與最後一個字一組，

第三回則是開頭第一個字與最後一個字成為同一組，若比對符合就判定此 3 個字未判定詞彙，與符合的 2 個字的詞彙具有相同的極性。例如：『討人厭』會在第三回與『討厭』比對符合，並判定為負向極性詞彙。

第三步則是檢查剩下未判定的詞彙看是否含有否定詞『不』、『無』、『沒』、『誤』、

『勿』、『違』、『錯』，若有含此 7 種單字，則此未判定詞彙會被歸類為負向極性詞彙。

第四步則是進行與 2 個字的最後步驟相同，把 3 個字出現在 NTUSD positive 和 NTUSD negative 的單字統計分別相加總再進行比較。正負向極性單字的比例為 1：3，也就是負向極性單字次數總和必須為正向極性單字次數總和的 3 倍以上，

才會被判定為負向極性詞彙，不過在此之前必須先做一個簡單的前處理，而這個處理是根據中研院斷詞系統擷取出的 3 個字詞彙本身有關。

例如：這部電影創造出了很多新奇的角色經過斷詞系統分析後：

這(Nep)部(Nf)電影(Na)創造出(VC)了(Di)很多(Neqa)新奇(VH)的

(DE)角色(Na)

『創造出(VC)』這個詞就與一般認知中的斷詞不太相同，並不是斷出『創造』

這個詞彙，不過在統計字頻判斷極性時，就盡可能的把這些我們認為多餘的詞去除，以增加判斷的正確率(Precision)。

此步驟除去的單字只針對最後一個字，內容包括：『出』、『到』、『給』等 3 個字。

在文檔中電影評論中情緒詞彙之極性分析 (頁 35-39)

第三章 方法與步驟

第五節 模糊比對