• 沒有找到結果。

第三章 方法與步驟

第五節 模糊比對

經過初步的種子詞彙擷取與擴充之後,我們把標準答案中在此步驟之前能找 到的全部除去,並把剩下來未判定極性的詞彙依照字數分為四個類別,其中 1 個 字的分為一類,2 個字的分為一類,3 個字的分為一類,4 個字以上的分為一類,

並給予不同的規則進行極性分析。其中 2 個字的實驗步驟順序是根據最後的實驗 結果而定,不僅可以節省多餘的詞性判定,同時也不至於讓正確率(Precision)降 低。

1 個字、2 個字、3 個字的判定極性的規則方法會在此節解說,而 4 個字以上 極性判定會在下一節詳述。

NTUSD

在此步驟中使用了 NTUSD positive 以及 NTUSD negative 這兩個資料當作進 行模糊比對的統計資訊。

首先 NTUSD 為一個標明正確極性的資料,其中只取出 2 個字的結果,來進 行字數的統計,這是因為在 NTUSD 資料中對於每個詞都標示得非常詳細,幾乎 是把所有詞彙的使用方法包含進去,例如:『令人高興的』,被正確的歸類在正向 詞彙中,但卻多出了多餘的修飾詞彙『令人』、『的』,這些多出來的字就會對統 計結果產生影響,我們所期望的是不需要修飾字,而是像『高興』本身就具有極 性意義詞彙。

最後擷取出 NTUSD positive 中 2 個字的詞彙共 1262 個,以及 NTUSD negative

中 2 個字的詞彙共 3605 個,進行單字的統計,並分別列出 NTUSD 正向和負向統 計字數前 10 多的單字,如下表 3-9:

表 3-9:NTUSD 正向和負向統計字數各前 10 多的單字

正向極性字 844 個數量排名前 10 名 負向極性字 1813 個數量排名前 10 名

正向極性字 數量 負向極性字 數量

心 30 不 118

愛 29 死 60

好 28 失 51

安 23 亂 45

明 19 人 42

意 18 打 42

有 17 無 38

正 16 心 37

善 16 傷 35

喜 16 惡 35

因為考慮到正負詞彙數量的差距很大,所以在此不能直接使用這些字的統計 數量進行分析,而詳細的使用方法會在下面各個章節中介紹。

第一類 1 個字

從第一類 1 個字的類別,我們調整了正負向統計字的比例以進行標註極性的 工作,所使用的正負比例為 1:3,也就是負向字數除以正向字數必須大於等於 3,

此單詞才會被判定成負向極性,否則即為正向極性,若在兩邊極性統計字中皆找 不到有效次數,則此詞彙會判定為無法辨識極性。

第二類 2 個字

第二類 2 個字的類別,必須先把開頭第一個字有否定意義的詞先進行分類,

並直接歸類為負向極性詞彙,此步驟使用的否定單字有 6 個,分別為:『不』、『無』、

『違』、『誤』、『勿』、『錯』,或許在未來可以加入一些其他單字,藉此以提高正 確率(Precision)。

其次為分類出正向極性的做法,此方法查詢 NTUSD positive 和 NTUSD negative 單字統計次數,並由高往低擷取,按照所查詢的正向次數擷取出正向極 性詞彙後,再除去由負向次數所查詢到的負向極性詞彙,反覆觀察擷取出來的詞 彙的正確率(Precision)以及回收率(Recall),若有不到標準的數值,就提高或降低 所需要的 NTUSD 正負向單字統計字數,提高統計字數表考慮的單字種類變少,

反之降低統計字數表考慮單字變多,用此以維持平衡。

擷取出所需的正向極性詞彙之後,緊接著把這些標示正向極性的詞彙從所有 詞彙中除去,只留下未進行極性判定的詞彙。

向極性詞彙的方法,調整 NTUSD negative 單字統計次數擷取出負向極性詞彙後,

再去除由 NTUSD positive 單字統計次數擷取出的正向極性詞彙,經過詞頻控制擷 取出來的詞彙的正確率(Precision)以及回收率(Recall),以達標準。

最後再去除掉已找尋到的負向極性詞彙,把剩餘的未判定極性詞彙做最後一 道分析,此方法是把兩個字出現在 NTUSD positive 和 NTUSD negative 的單字統 計分別相加總再行比較,正負向極性單字比例為 1:3,負向極性單字總和必須大 於正向單字總和 3 倍(不包括等於 3 倍),此未判定詞彙才會被判定為負向極性。

第三類 3 個字

在判斷 3 個字正負極性時分成四個部分,首先需要用到第一部分種子詞彙擴 充的結果,先選出所有在其中的 3 個字的答案,與未判定極性的 3 個字詞彙進行 比對,比對過程中完全不考慮順序,只要有 2 個字符合比對成功,就判定為與種 子詞彙相同的極性,例如:『不得了』,是經由種子詞彙『了不得』所比對出進行 分類的。

第二步使用被擷取出來的所有 2 個字的以分類極性詞彙,其中包括了種子擴 充出來額外的 2 個字極性詞,並進行三回合的模糊比對,第一回把 3 個字的未判 定詞彙,分成第一個字與中間字為同一組,第二回即中間字與最後一個字一組,

第三回則是開頭第一個字與最後一個字成為同一組,若比對符合就判定此 3 個字 未判定詞彙,與符合的 2 個字的詞彙具有相同的極性。例如:『討人厭』會在第 三回與『討厭』比對符合,並判定為負向極性詞彙。

第三步則是檢查剩下未判定的詞彙看是否含有否定詞『不』、『無』、『沒』、『誤』、

『勿』、『違』、『錯』,若有含此 7 種單字,則此未判定詞彙會被歸類為負向極性 詞彙。

第四步則是進行與 2 個字的最後步驟相同,把 3 個字出現在 NTUSD positive 和 NTUSD negative 的單字統計分別相加總再進行比較。正負向極性單字的比例 為 1:3,也就是負向極性單字次數總和必須為正向極性單字次數總和的 3 倍以上,

才會被判定為負向極性詞彙,不過在此之前必須先做一個簡單的前處理,而這個 處理是根據中研院斷詞系統擷取出的 3 個字詞彙本身有關。

例如:這部電影創造出了很多新奇的角色 經過斷詞系統分析後:

這(Nep)部(Nf)電影(Na)創造出(VC)了(Di)很多(Neqa)新奇(VH)的

(DE)角色(Na)

『創造出(VC)』這個詞就與一般認知中的斷詞不太相同,並不是斷出『創造』

這個詞彙,不過在統計字頻判斷極性時,就盡可能的把這些我們認為多餘的詞去 除,以增加判斷的正確率(Precision)。

此步驟除去的單字只針對最後一個字,內容包括:『出』、『到』、『給』等 3 個字。

相關文件