第三章 研究途徑與步驟
第三節 研究分析
使用學術類與非學術類詞頻統計表進行詞彙分析,分析工作分成四個部分:
第一部分分析台華共通詞在學術類與非學術類的使用差異;第二部分分析詞彙豐 富度在學術類與非學術類的差異;第三部分分析台語羅馬字詞彙在學術類與非學 術類的使用情形;第四部分分析台語平均詞長在學術類與非學術類的差異。
因為低頻詞31中包含電腦雜訊,會影響研究結果,分析統計時會以不同覆蓋 率計算的方式設法排除電腦雜訊的干擾,以求研究結果之精確。
31 低頻詞就是在語料中使用頻率比較低的詞彙。低頻詞有兩種:一是泠僻的詞彙,本身使用率 就比較低,例如:「踅箍」或專有名詞等;另一種是電腦雜訊(打字錯誤),例如:「岀世」的
「岀」,是由兩個「山」組合而成的,並不是「出去」的「出」字,因此電腦會將「出世」與 錯誤的「岀世」分成兩個不同的詞彙,錯誤的「岀世」詞頻自然就比較低,其他還有「唤」、「歩
一一
一一、、、、台華共通詞的使用差異分析台華共通詞的使用差異分析台華共通詞的使用差異分析台華共通詞的使用差異分析
這一部分是分析台華共通詞在學術類與非學術類的使用情形,步驟如下:
(一)將學術類與非學術類詞頻統計表中所有詞彙(詞型)分別與詞庫小組
「中文詞庫(八萬詞目)32」逐一比對,字形、字義皆相同者視為台 華共通詞,字形、字意其中有一個不同者視為台語特別詞。
(二)使用Microsoft Excel 軟體的函數 vlookup 功能,利用電腦程式與詞 庫小組「中文詞庫(八萬詞目)」逐一比對,將學術類6,857 個詞彙(詞
型),非學術類9,083 個詞彙(詞型),分別區分為台華共通詞和台語 特別詞。
(三)人工校對電腦分類後的台華共通詞和台語特別詞,校對工作有四個部 分:
1.台華共通詞轉為台語特別詞:電腦比對結果為台華共通詞,但實際上華語 已不使用,或台語已改變詞意的詞彙,轉歸類為台語特別詞。例如:上好、
攏。
2.台語特別詞轉為台華共通詞:電腦比對結果為台語特別詞,但實際上華語 仍在使用,且詞意與台語相同的詞彙,轉歸類為台華共通詞。例如:台語、
全部。
32 由中央研究院中文詞知識庫小組執行、研究,授權中華民國計算語言學學會發行,為一包含 八萬目詞的電子辭典。詞庫收的詞包含一般用詞、常用專有名詞、成語、慣用語、常用派生詞、
異體詞、合併詞以及少數特殊領域用語和古漢語詞語。每個詞項包含的訊息有: 注音、頻率、
詞類、名詞語義分類等。
資料來源:中華民國計算語言學學會:http://www.aclclp.org.tw/use_ced_c.php。2008/9/6。
3.無法明確歸類的詞彙:於統計詞型、詞次時,台華共通詞與台語特別詞以
一半計算(即詞型、詞次乘以1/2)。例如:「足」,台語、華語皆有「腳」
的意思,但台語亦有副詞「很」的意思。
(四)人工校對範圍:學術類覆蓋率(比例總合)達80%且詞次達 8 次(含 8 次)以上之詞彙,計 1,250 詞;非學術類覆蓋率(比例總合)達 80
%且詞次達7 次(含 7 次)以上之詞彙,計 1,657 詞。
(五)計算學術類與非學術類覆蓋率 100%、覆蓋率 80%的台華共通詞與
台語特別詞的比例33。
(六)結果分析。
二二
二二、、、、詞彙豐富度分析詞彙豐富度分析詞彙豐富度分析詞彙豐富度分析
本研究詞彙豐富度的計算方式為:
詞型 詞彙豐富度 =
詞次
步驟如下:
(一)分別計算學術類與非學術類的詞型與詞次。
(二)詞型÷詞次即可得到學術類與非學術類的詞彙豐富度。
(三)分別計算學術類與非學術類覆蓋率100%、覆蓋率 95%、覆蓋率 90
33 因為覆蓋率 100%包含許多打字錯誤等電腦雜訊,會影響研究結果,本研究以不同覆蓋率的
%、覆蓋率85%、覆蓋率 80%的詞彙豐富度34。
(四)結果分析。
三 三 三
三、、、、台語羅馬字詞彙使用分析台語羅馬字詞彙使用分析台語羅馬字詞彙使用分析台語羅馬字詞彙使用分析
這一部分探討學術類與非學術類台語羅馬字詞彙的使用情形,本研究的台語 羅馬字詞彙包括全羅詞彙和漢羅詞彙,步驟如下:
(一)使用Microsoft Excel 軟體的函數 code、left、right 功能,利用電腦 程式將台語羅馬字詞彙與台語全漢字詞彙做初步分類。
(二)人工校對:挑出電腦錯誤歸類為台語羅馬字詞彙的部分。例如:英文 詞power、solution,數詞「3-6」,以及電腦無法分辨的漢字:團圆的
「圆」等。
(三)分別計算學術類與非學術類台語羅馬字在詞型、詞次所佔的比例。
(四)結果分析。
四 四 四
四、、、、台語台語台語台語平均詞長平均詞長平均詞長分析平均詞長分析分析 分析
這一部分探討學術類與非學術類語料的平均詞長,計算方式為:音節數÷詞 型數。步驟如下:
(一)分別計算學術類與非學術類的音節總數以及詞型總數。
(二)音節(syllable tokens)總數÷詞次總數即可得到學術類與非學術類
34 同註 33。
的平均詞長。
(三)分別計算學術類與非學術類覆蓋率 100%、覆蓋率 80%的台語平均
詞長35。
(四)結果分析。