• 沒有找到結果。

4.2 類別獨特詞組尋找

4.2.2 各類別獨特性詞組尋找

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

71

圖 4.5:獨特性詞組的界定,兩者皆為重要特徵詞組,

但只有左圖的詞組 A 為雷震的獨特性詞組

4.2.2 各類別獨特性詞組尋找

儘管已能從重要特徵詞組明顯看出情境性語言特徵與一般常用語言特徵明顯 差異,但有著找出的詞組可能橫跨多個類別,以及將該類別的文本沒有用過的詞組 其他文本卻皆有使用視為重要特徵詞組的問題存在。前者缺乏了單一類別的獨特 性,後者則是有著將不存在詞組作為重點特徵的問題,找出的重要特徵詞組還是太 過粗糙。為了解決這些問題,我們進一步對這些找出的重要特徵詞組篩選,希望找 出能完整代表該類別的獨特性詞組。

為了找出特有於其他類別的獨特性詞組,將會基於已找出的重要特徵詞組上,

加入新的篩選條件:

1. 重要特徵詞組只出現在單一類別內

2. 該類別原始文本內的相對頻率高於其他類別

第一點是想要找出獨特性,也就是只有這類別在該詞組使用上與其他類別有著差 異,而其他類別則不會將此詞組視為重要特徵詞組。圖 4.5 為的詞組 A 與詞組 B 同為重要特徵詞組,前者為雷震,而後者為雷震與殷海光。若按照第一點的定義,

只有一個類別在該詞組與其他類別數值大於 0.01,則詞組 A 符合單一類別,所以

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

72

詞組 A 為雷震的獨特性詞組;至於詞組 B 作為重要特徵詞組,雷震與殷海光同時 與其他類別數值大於 0.01,但並非為其中之一的獨特性詞組,畢竟當類別皆有使用 且顯著於其他類別時,就只能說是該詞組使用上各有千秋,但無法明確看出類別使 用上的獨特性。舉例來說,「自由(VH)中國(Nc)」出現於各位作者的文本內,且在 使用相對次數上皆有所不同,但較屬於對於同一主題的著重闡述程度或是常用寫 作風格的不同,而非僅存在於單一類別的獨特性詞組。

第二點則是希望確保找出的獨特性詞組在文本的相對數量比其他類別還要多,

這裡就加入了人工統計的方式進行輔助:以機器學習方式找出重要特徵詞組後,再 以統計該詞組在各類文本的既有數值後來篩選,最後找出的獨特性詞組將為該類 別獨有,且保證數量上顯著於其他類別。因為重要特徵詞組僅能看出類別間的區分 性,當整體數量分布有所差距時模型就能進行有效分類,所以詞組在文本內的數量 不一定是最大的。獨特性詞組需為該類別在使用上表現比其他類別明顯,也就是在 文本中使用數量需大於其他類別,我們不能將使用次數不高的詞組視作某個類別 的獨特性詞組,這相當於賦予一個不存在標籤,像是將「足球」作為籃球評論的獨 特性詞組。舉例來說,「新聞(Na)記者(Na)」在社論符合第一點「重要特徵詞組只出 現在單一類別內」,但使用數量上低於文章及日記,這時我們就不能說「新聞(Na) 記者(Na)」是社論的獨特性詞組,畢竟無法代表雷震在社論類型文本使用特色。

最後如同 4.2.1 小節的重要特徵詞組尋找方式,分成「一般常用的語言特徵」

及本論文提出的「情境性語言特徵」2 類,找出獨特性詞組時是否後者比前者容易 看出情境性,並觀察各類別的獨特性詞組在文本中的表現。

極(Dfa)少數(Neqa) ,是(SHI)反共(VH) ,

政治(Na)權力(Na) ,不(D)止(VH) ,

不成(VH)問題(Na) ,是(SHI)代表(VK)

胡適 最(Dfa)有(V_2) ,又(D)說(VE) ,不(D)容易

(VH)

甚(Dfa)熱(VHC) ,許(Neqb)至(VCL) ,

要(D)看(VC) ,很(Dfa)有(V_2) , 今日(Nd)報載(VE) ,未(D)去(D) ,

天氣(Na)變(VH) ,可(D)得(VJ) , 退役(VH)軍人(Na) ,下午(Nd)一時(Nd) , 太(Dfa)久(VH) ,又(D)云(VE) ,太(Dfa)無 (VJ) ,不成(VH)樣子(Na) ,不(D)願意(VK) ,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

76

甚(Dfa)久(VH) ,今日(Nd)午間(Nd) , 不(D)悉(VK) ,下午(Nd)去(VCL) , 現(VH)政府(Na) ,如此(VH)地步(Na) ,

稍(D)坐(VA) ,今日(Nd)整理(VC) , 不(D)來(D) ,甚(Dfa)大(VH) ,去(D)參加 (VC) ,未(D)外出(VA) ,小(VH)外孫(Na) ,

又(D)說(VE) ,甚(Dfa)寒(VH) , 晚間(Nd)睡(VA) ,今日(Nd)接到(VC) ,

想(VE)吃(VC) ,殷(VH)海光(Nb) , 不(D)做(VC) ,天氣(Na)好(VH) , 要(D)請(VF) ,多(VH)人(Na) ,要(D)到 (VCL) ,民主(VH)中國(Nc) ,略(D)談(VE) ,

許(Neqb)返(VCL) ,多(D)寫(VC) , 中央(Nc)黨部(Nc) ,不(D)出來(VA) ,

要(D)來(VA) ,至孝(VH)炎處(Nc) , 晨(Nd)八時(Nd) ,大雨(Na)滂沱(VH) , 下午(Nd)訪(VC) ,自由(VH)陣線(Na) ,

要(D)給(VD) ,今日(Nd)去(VCL) , 分居(VH)監(Na) ,是(SHI)做(VC) , 人(Na)做(VC) ,大(VH)西瓜(Na) , 總統(Na)說(VE) ,飯(Na)畢(VH) , 今日(Nd)晚間(Nd) ,要(D)找(VC)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

77

表 4.17 與表 4.18 分別表現了在「同主題不同作者」及「同作者不同類型」下,

「一般常用的語言特徵」及本論文提出的「情境性語言特徵」所找出的獨特性詞組。

可以很明顯觀察出絕大部分類別內的獨特性詞組數目上,本論文提出的語言特徵 會大於一般常用的語言特徵。在 4.2.1 小節,我們得到各類別的重要特徵詞組,而 在本章節篩選後則留下了類別間核心的差異詞組,絕大部分跨類別與表現不明顯 的詞組已除去。一般常用語言特徵只留下了 bigram 及 trigram 為主,標點符號與高 頻詞類別重疊率較高的大多已捨去。相對於重要特徵詞組,獨特性詞組不但能區別 各個類別,更能找出與其他類別不同的觀點,像是「同主題不同作者」與他人不同 主題觀點及「同作者不同類型」在各類型文本會使用的詞組,之後也會舉例說明。

與 4.1.2 小節各類別的平均 OOB 錯誤率結果比較下,可以看出類別的 OOB 錯 誤率數值會和情境性語言特徵的獨特性詞組數目呈反比。當雙類別模型該類別 OOB 錯誤率越高,如雷震及胡適,則獨特性詞組數越低;反過來說數值越低,如 龍平甫、朱伴耘及日記,則獨特性詞組數越高,這也表現了雙類別模型在某一類別 OOB 錯誤率的高低會影響獨特性詞組數目。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

78

在獨特詞組整體表現上,情境性語言特徵的詞組在不同研究方向下得到的結 果也不盡相同。「同主題不同作者」可以看出各作者對於同個主題但與其他作者相 異的觀點,舉例來說:

殷海光:反共(VH)者(Na)

1. 何以呢?共黨與反共(VH)者(Na)之間最大的分別只在有無自由民主。

2. 共黨摧毀自由民主;反共(VH)者(Na)應堅持自由民主。

3. 如果反共(VH)者(Na)與所反對象的相似點愈多,那麼二者之相反豈不顯 得只是為了權利與感情的衝突?如果反共(VH)者(Na)只是為了權利與感 情而反共,那麼他反共的理由便非常脆弱。

—自由民主是反共的活路 1958 年 19 卷 02 期 1. 何以呢?推廣地說,凡共黨行之有效的方法,反共(VH)者(Na)行之都不會

真正收效。

2. 反共(VH)者(Na)除了這個中心和象徵以外,永遠不應再有別的選擇。

3. 二分法在敵人手中是一把劈倒千年古木的利斧;但是,到了反共(VH)者 (Na)手中卻成了自我毀滅的武器。

—論二分法 1958 年 19 卷 03 期 1. 在反共(VH)過程中把民主予以壓制或取滑,那末,反共(VH)者(Na)與共

黨的實際距離,至多是五十步與百步之差而已。

2. 在這一形势中,獨裁的反共(VH)者(Na)檢盡了一切便宜,同時因為藉口反 共而打煞民主自由的發展,於是它自己變成了黑暗的統治。

3. 「反共」而不照着正當的道理行的時候,人民還是有理由要求獨裁的反共 (VH)者(Na)下台,而代之以眞正的民主反共。

—「反共」不是黑暗統治的護符! 1960 年 22 卷 10 期

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

79 傅正:地方(Na)自治(VA)

1. 我國憲法第十一條明文規定『人民有言論、講學、著作及出版之自由』, 今以行政院提出之出版法修正案,震驚社會,誠以言論出版自由,為人民 最基本之合法權利,關係國家憲政及地方(Na)自治(VA)之興替,本會為民 意機關,受全省人民付托之重,自不能不寄予關注。

—國民黨當局還不懸崖勒馬? 1958 年 18 卷 12 期 1. 如果國民黨允諾共同選派管理員和監察員,民青雨黨及無黨無派人士卽

令競選成功的希望不多,也該拿出爲地方(Na)自治(VA)而努力的決心和 勇氣,堂堂正正的參加競選。

—對於地方選舉的兩點起碼要求 1960 年 22 卷 06 期 1. 爲着使臺灣地方(Na)自治(VA)做到眞正的地方(Na)自治(VA),而非純粹的

官治或黨治,我們究該選擧甚麼樣的候選人,來擔任現行地方(Na)自治 (VA)的職務,很値得在行使選擧權之前,冷靜地仔細想想。

2. 所謂地方(Na)自治(VA),是指地方上的各項公共事務,由我們老百姓自己 作主,依據我們大家的共同意志,來加以處理。

3. 根據以上所述,可見在今日臺灣地方(Na)自治(VA)之中,民意之被忽視、

抹煞、以至否定,實在是導源於國民黨的獨霸局面。

4. 總之,我們爲了促使臺灣地方(Na)自治(VA)的進步,進步到除掉投票時我 們能像個主人之外,平時也能成爲一個眞正的主人,使得地方上各種公共 事務的處理,都能以我們人民的意見爲意見,以我們老百姓的利益爲利益,

便只有選擧在野黨和無黨無派的候選人爲省議員和縣、市長。

—請投在野黨和無黨無派候選人一票! 1960 年 22 卷 08 期

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

80 蔣勻田:一段(Nc)話(Na)

1. 洛氏這一段(Nc)話(Na),實為上錄的獨立宣言一節話的來源。

2. 茲引證林肯一段(Nc)話(Na)如下: 「從政治上說,我從無一種情感,不 是發之於獨立宣言所蘊蓄的情意。……」

3. 一八五六年林肯所新組成的共和黨,發表了一篇富麗堂皇的政綱,有這 樣一段(Nc)話(Na):我們共和黨的前輩。……

4. 從以上所引的一段(Nc)話(Na),可看出共和黨深知美國人民重視自由,

故從自由觀念,以反對奴隸制度之存在。

—美國兩黨政策變遷的理論基礎 1955 年 12 卷 07 期 1. 黑格爾這一段(Nc)話(Na),見於其所著權利的哲學”The Philsophy of

Right”中,實為十八世紀以來天賦人權革命的理論,祇重個人自由學說 的反動。

2. 茲再引張佛泉教授一段(Nc)話(Na)以資證明:「極權主義與自由主義間最 重要的區別,到底是什麼說?……」

3. 茲擧美國獨立宣言一段(Nc)話(Na)以證之。

—國家與個人 1956 年 14 卷 06 期 1. 艾森豪總統這一段(Nc)話(Na),不但表明他同情中立國家的立場,而且也

說明了艾氏不認為中立國對美國有害。

2. 假使艾森豪總統明白共產黨實現世界革命戰爭的真諦,則更不會在其新 聞記者招待會中說出如下一段(Nc)話(Na):假使一個國家宣佈與一強國有 軍事聯合,若發生意外事件,或在邊境發生紛爭,則人必曰,理所當然,

禍由自取。

—銓釋中立主義 1956 年 15 卷 01 期

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

81

上述例句可觀察出殷海光有探討「反共(VH)者(Na)」相關議題,而傅正在

「地方(Na)自治(VA)」提到關於當於選舉的情況,而蔣勻田的「一段(Nc)話(Na)」

則是常在文本內引用他人句子。「同作者不同類型」則表現出日記內的獨特性詞組 與社論和文章有著天壤之別,而社論與文章也因寫作風格接近而無太多獨特詞組,

但可以透過有些獨特性詞組觀察在其他類型文本的使用情況,例如在社論的獨特 性詞組「民主(VH)國家(Na)」中:

社論:

1. 民主(VH)國家(Na)要貫澈主權在民的原則、其最起碼的條件就是選舉。

—競選活動應看做政治教育 1953 年 08 卷 02 期 1. 民主(VH)國家(Na)的黨部任務;當然以辦選舉為主要,但選舉是臨時

的,其在平時則從事組織與宣傳。

的,其在平時則從事組織與宣傳。