第三章 研究方法與過程
第三節 資料分析過程
一、 計算詞頻
第三節 資料分析過程
一、 計算詞頻
為了計算加強詞出現的頻率,必須找出加強詞在語料裡實際出現的形式,同 樣的詞彙,會因為方言的差異、或書寫習慣的不同,而有不同形式的變體。根據 上一節所整理的加強詞詞項,四種加強詞共有53 個詞項需要做統計,必須找出這 53 個詞項在語料裡實際出現的形式,也就是找出詞項的各種變體,才能開始進行 統計。搜尋詞彙變體時,需考慮以下四點情形:
一、需考慮音韻的差異,參見下列例句:
慕莉講感情 ê tāi-chì bē-tàng siuⁿ 勉強,i mā 無真了解,會 sái 故事真長、真複雜,我無法 t³ 記 siuⁿ chim-chiok,總是,i 愛唱歌,
hit 暝就會 khah 早睏,˜ 敢 siuⁿ 鐵齒,若是「tńg 去 ê o͘-bah-sáng 勸--a 怨嘆長老 sioⁿ 熱心,害著 ka-tī ê cha-b¯-kiáⁿ 想beh 放 1 tè 歌,港口 ê 歌 sioⁿ 沉重,文夏 ê 歌 siuⁿ Romantic
頭一個想著清慧,˜-koh i sioⁿ 出名,若 h³別人認著叫 i 簽名
前三個例句裡出現的「siun」(太),與後三個例句裡出現的「sion」(太),是 因為方音差異而產生的變異。台語有優勢音的存在(洪惟仁 2003),但實際上各 地的台語仍然有音韻上的差異,甚至每個人也有屬於自己的音韻特色。要一個人
說話沒有口音(accent)就像要一個人說話沒有聲音一樣,是不可能的事(Stockwell 2003)。方音的差異反映在書寫上會出現不同的詞彙變體,這就是本研究搜尋變體 時需考慮的情形之一。
二、需考慮漢字與羅馬字的不同,請看以下例句:
日頭 ê 映照之下,光熠、 小可 鑿目,『阮兜 tō tī 半山頂 這個少年人 ê 面貌有 小可 親像咱 hit 個過身去 ê 後生
事實是˜ án-ni,lán 小可 斟酌著知,tī 社會上 來beh 欺負我,無 sió-khóa 教示一下攏 bē 使得。
只有 tùi 今起才想 beh sió-khóa 來享福一下,卻無疑誤 有感覺著這層,因為若是 sió-khóa 有學問 ê 人若 ˜ 是漢學者
前三個例句裡出現的「小可」(稍微),與後三個例句裡出現的「sió-khóa」(稍 微),即是因為使用漢字與羅馬字的不同而產生的變體;另外像是「傷」(太)與
「siun」(太)也是這種情形。
三、需考慮羅馬字標註形式的不同,請看以下的例句:
心適ê 腔口,阮阿爸講 kan-na 歸仁hia 才有,別位無人 bē 輸地獄,受盡虐待, kan-na 你一個掠我作人款待。
若無聽著。因為伊 kan-na 注意著he 無 ńg 暴露 ê 手 無腳也無手, kan na 一粒頭縛kôan-kôan 荒郊野外,我 kan na 聽著風 hiù-hiù 叫。
母語運動bē tàng kan na 寄望台灣國家教育制度
前三個例句裡出現的「kan-na」(只有),與後三個例句裡出現的「kan na」(只 有),兩者差了「-」,這是因為羅馬字的標註形式不同而產生的變體;其他如 siun
(太)與siuN(太)的差別也是如此。
四、需考慮漢字使用的不同,請看以下的例句:
chhē 出一張 mè-sì h³ 我, 那像 雄雄 koh 想起著啥麼
我tī 冊裡 bat 看過, 那像 叫做啥物燈油?
回答:「這看起來 那像 是令人討厭ê背叛,
ê 時陣,雞母 若像 拼性命 ê ùi 雞 kak ê 胸坎到 chit-má mā 若像 強 beh pit 開共款。
歸身軀疼透透。伊感覺 若像 愈來愈無力。這個時陣
前三個例句裡出現的「那像」,與後三個例句裡出現的「若像」,即是因為使 用不同的漢字而產生的變體。
考慮以上四種情形之後,列出各種可能的變體,再利用Microsoft Word 的尋找 功能逐一檢查,過濾出實際存在語料之中的詞彙變體,共91 個,此即本研究實際 統計詞頻的對象,詳細的詞項編碼參見附錄六至附錄九。
開始統計詞頻之前,需將欲統計的詞彙編碼以利統計軟體的操作。編碼的方 式是賦予每個欲統計的詞彙一組五碼的編號,每組編碼可以分成三個部份,第一 部分按照所屬的加強詞種類給予前兩碼:屬低調詞前兩碼就編上 dt、屬退讓詞前 兩碼就編上hg、屬擴充詞前兩碼就編上 ml、屬強調詞前兩碼就編上 mf;第二部份 按不同的詞項給予第三碼與第四碼,第三碼與第四碼合起來是一個二位數的整 數,依序是01、02、03……;第三部分按不同的變體給予第五碼,依序是 a、b、
c……。如低調詞(dt)裡 chit-tiám-á(01)的變體「一 點 」(a),它的編號就是dt01a。
詳細的編碼參見附錄六至附錄九。五種文類的編碼範例參見附錄十到附錄十四。
為每一個欲統計的詞彙編碼之後,再利用Microsoft Word 的「搜尋」與「取代」
的功能為語料中欲統計的詞彙標上編碼,這種半人工標記的方式,可以在標記的 同時一並檢查該詞彙是否符合被統計的資格,例如編號ml10a 的詞彙「大大」,在 語料中可能是當成名詞,指大的東西,如「大大細細」;也可能是當成形容詞,如
「頭大大」,這兩種用法都不是本文所研究的對象,只有當它是副詞的時候,如「大 大改變」才是本文欲統計的詞彙。
語料中所有欲統計的詞彙都標上編碼之後,接下來只要利用 Microsoft Word 的「全部取代」功能,即可得知某一個詞、或某一類詞的出現次數,例如若要知 道所有低調詞的出現次數,只需在「全部取代」的功能裡輸入dt 取代 dt,Word 立 刻會把 dt 出現的次數計算出來,這就是所有低調詞出現的次數;或者需要得知詞 項「有一點」的出現次數,只需在「全部取代」的功能裡輸入 dt01a 取代 dt01a,
Word 會立刻把 dt01a 出現的次數顯示出來,這就是詞項「有一點」的出現次數。
有了詞項的出現次數之後,再把出現次數除以文本詞數,所得即為詞項的出 現頻率。