計算詞頻

第三章研究方法與過程

第三節資料分析過程

一、計算詞頻

第三節資料分析過程

一、計算詞頻

為了計算加強詞出現的頻率，必須找出加強詞在語料裡實際出現的形式，同樣的詞彙，會因為方言的差異、或書寫習慣的不同，而有不同形式的變體。根據上一節所整理的加強詞詞項，四種加強詞共有53 個詞項需要做統計，必須找出這 53 個詞項在語料裡實際出現的形式，也就是找出詞項的各種變體，才能開始進行統計。搜尋詞彙變體時，需考慮以下四點情形：

一、需考慮音韻的差異，參見下列例句：

慕莉講感情 ê tāi-chì bē-tàng siuⁿ 勉強，i mā 無真了解，會 sái 故事真長、真複雜，我無法 t³ 記 siuⁿ chim-chiok，總是，i 愛唱歌，

hit 暝就會 khah 早睏，˜ 敢 siuⁿ 鐵齒，若是「tńg 去 ê o͘-bah-sáng 勸--a 怨嘆長老 sioⁿ 熱心，害著 ka-tī ê cha-b¯-kiáⁿ 想beh 放 1 tè 歌，港口 ê 歌 sioⁿ 沉重，文夏 ê 歌 siuⁿ Romantic

頭一個想著清慧，˜-koh i sioⁿ 出名，若 h³別人認著叫 i 簽名

前三個例句裡出現的「siuⁿ」（太），與後三個例句裡出現的「sioⁿ」（太），是因為方音差異而產生的變異。台語有優勢音的存在（洪惟仁 2003），但實際上各地的台語仍然有音韻上的差異，甚至每個人也有屬於自己的音韻特色。要一個人

說話沒有口音（accent）就像要一個人說話沒有聲音一樣，是不可能的事（Stockwell 2003）。方音的差異反映在書寫上會出現不同的詞彙變體，這就是本研究搜尋變體時需考慮的情形之一。

二、需考慮漢字與羅馬字的不同，請看以下例句：

日頭 ê 映照之下，光熠、小可鑿目，『阮兜 tō tī 半山頂這個少年人 ê 面貌有小可親像咱 hit 個過身去 ê 後生

事實是˜ án-ni，lán 小可斟酌著知，tī 社會上來beh 欺負我，無 sió-khóa 教示一下攏 bē 使得。

只有 tùi 今起才想 beh sió-khóa 來享福一下，卻無疑誤有感覺著這層，因為若是 sió-khóa 有學問 ê 人若 ˜ 是漢學者

前三個例句裡出現的「小可」（稍微），與後三個例句裡出現的「sió-khóa」（稍微），即是因為使用漢字與羅馬字的不同而產生的變體；另外像是「傷」（太）與

「siuⁿ」（太）也是這種情形。

三、需考慮羅馬字標註形式的不同，請看以下的例句：

心適ê 腔口，阮阿爸講 kan-na 歸仁hia 才有，別位無人 bē 輸地獄，受盡虐待， kan-na 你一個掠我作人款待。

若無聽著。因為伊 kan-na 注意著he 無 ńg 暴露 ê 手無腳也無手， kan na 一粒頭縛kôan-kôan 荒郊野外，我 kan na 聽著風 hiù-hiù 叫。

母語運動bē tàng kan na 寄望台灣國家教育制度

前三個例句裡出現的「kan-na」（只有），與後三個例句裡出現的「kan na」（只有），兩者差了「-」，這是因為羅馬字的標註形式不同而產生的變體；其他如 siuⁿ

（太）與siuN（太）的差別也是如此。

四、需考慮漢字使用的不同，請看以下的例句：

chhē 出一張 mè-sì h³ 我，那像雄雄 koh 想起著啥麼

我tī 冊裡 bat 看過，那像叫做啥物燈油？

回答：「這看起來那像是令人討厭ê背叛，

ê 時陣，雞母若像拼性命 ê ùi 雞 kak ê 胸坎到 chit-má mā 若像強 beh pit 開共款。

歸身軀疼透透。伊感覺若像愈來愈無力。這個時陣

前三個例句裡出現的「那像」，與後三個例句裡出現的「若像」，即是因為使用不同的漢字而產生的變體。

考慮以上四種情形之後，列出各種可能的變體，再利用Microsoft Word 的尋找功能逐一檢查，過濾出實際存在語料之中的詞彙變體，共91 個，此即本研究實際統計詞頻的對象，詳細的詞項編碼參見附錄六至附錄九。

開始統計詞頻之前，需將欲統計的詞彙編碼以利統計軟體的操作。編碼的方式是賦予每個欲統計的詞彙一組五碼的編號，每組編碼可以分成三個部份，第一部分按照所屬的加強詞種類給予前兩碼：屬低調詞前兩碼就編上 dt、屬退讓詞前兩碼就編上hg、屬擴充詞前兩碼就編上 ml、屬強調詞前兩碼就編上 mf；第二部份按不同的詞項給予第三碼與第四碼，第三碼與第四碼合起來是一個二位數的整數，依序是01、02、03……；第三部分按不同的變體給予第五碼，依序是 a、b、

c……。如低調詞（dt）裡 chit-tiám-á（01）的變體「一點」（a），它的編號就是dt01a。

詳細的編碼參見附錄六至附錄九。五種文類的編碼範例參見附錄十到附錄十四。

為每一個欲統計的詞彙編碼之後，再利用Microsoft Word 的「搜尋」與「取代」

的功能為語料中欲統計的詞彙標上編碼，這種半人工標記的方式，可以在標記的同時一並檢查該詞彙是否符合被統計的資格，例如編號ml10a 的詞彙「大大」，在語料中可能是當成名詞，指大的東西，如「大大細細」；也可能是當成形容詞，如

「頭大大」，這兩種用法都不是本文所研究的對象，只有當它是副詞的時候，如「大大改變」才是本文欲統計的詞彙。

語料中所有欲統計的詞彙都標上編碼之後，接下來只要利用 Microsoft Word 的「全部取代」功能，即可得知某一個詞、或某一類詞的出現次數，例如若要知道所有低調詞的出現次數，只需在「全部取代」的功能裡輸入dt 取代 dt，Word 立刻會把 dt 出現的次數計算出來，這就是所有低調詞出現的次數；或者需要得知詞項「有一點」的出現次數，只需在「全部取代」的功能裡輸入 dt01a 取代 dt01a，

Word 會立刻把 dt01a 出現的次數顯示出來，這就是詞項「有一點」的出現次數。

有了詞項的出現次數之後，再把出現次數除以文本詞數，所得即為詞項的出現頻率。

在文檔中台語加強詞的研究：語料庫語言學的分析 (頁 41-44)

第三章 研究方法與過程

第三節 資料分析過程

一、 計算詞頻

第三節 資料分析過程

一、 計算詞頻

第三章研究方法與過程

第三節資料分析過程

一、計算詞頻

第三節資料分析過程

一、計算詞頻