第三章 研究途徑與步驟
第二節 語料處理
抽樣所得之語料尚需要經過電腦斷詞、人工校正以及詞頻統計三個處理程 序,之後整理出學術類與非學術類兩個詞頻統計表,方可做為分析台語詞彙的資 料。以下分成三個部分說明語料處理過程。
一 一 一
一、、、、電腦斷詞電腦斷詞電腦斷詞電腦斷詞
本研究電腦斷詞採用「漢羅台語文斷詞系統」19,此系統是以「台文華文線 上辭典」六萬多筆詞條做為詞庫,以「逆向最大比對法」找出詞庫裡有的詞進行 斷詞。但是目前台語尚缺乏完善的分詞規範,「漢羅台語文斷詞系統」亦非以分 詞規範進行斷詞,而且辭典也不可能收錄所有的詞條,因此電腦所斷之詞彙並非
完成正確,有其限制。以下分成三點說明「逆向最大比對法」、電腦斷詞步驟以 及電腦斷詞限制:
(一)逆向最大比對法的斷詞步驟
電腦針對輸入的句子,從句尾往句首比對電腦詞庫裡有的語詞,先比對最長 的音節,再依序比對到最短的音節,與詞庫語詞相符的則判斷為詞彙。茲以「這 个囡仔真古錐」為例說明逆向最大比對法的斷詞步驟。
1.由句尾往句首數 4 個字:「仔真古錐」。
2.比對電腦詞庫找不到「仔真古錐」,因此不是詞彙。
3.由句尾往句首數 3 個字:「真古錐」。
4.比對電腦詞庫找不到「真古錐」,因此不是詞彙。
5.由句尾往句首數 2 個字:「古錐」。
6.比對電腦詞庫找到「古錐」,「古錐」斷詞為詞彙。
7.剩餘的字「這个囡仔真」,回到步驟一、步驟二…依序操作至整句話斷詞 完畢。
8.將斷詞完畢的詞彙順序顛倒。例如:上述的例子斷詞完後是「古錐、真、
囡仔、這个」,順序顛倒後「這个、囡仔、真、古錐」。
補充說明:僅剩下一個字時,不論詞庫有無該字,皆斷詞為詞彙。
(二)電腦斷詞步驟
1.將語料逐篇輸入「漢羅台語文斷詞系統」,由電腦斷詞。
2.電腦檢索「台文華文線上辭典」詞庫裡六萬多筆詞條。
3.詞庫裡有的詞用 [ ] 表示;詞庫裡沒有的詞用 { } 表示。例如:[教學]
表示詞庫有,電腦能夠斷詞;{的}表示詞庫沒有,電腦無法斷詞。
4.電腦無法斷詞的部分則由人工校正。
(三)電腦斷詞的限制
「漢羅台語文斷詞系統」是以「台文華文線上辭典」中的詞條做為斷詞依據,
因為台語書寫形式尚未規範,而且「台文華文線上辭典」不可能收錄所有的詞條 與書寫形式;再者目前亦缺乏一套完善的台語分詞準則,「漢羅台語文斷詞系統」
也不是以分詞準則進行斷詞,因此斷詞結果不一定完全正確,此為電腦斷詞的限 制。
二二
二二、、、、人工校正斷詞人工校正斷詞人工校正斷詞人工校正斷詞
因為電腦斷詞有其限制,因此需要以人工校正的方式輔助「漢羅台語文斷詞 系統」之不足。以下分成人工校正斷詞的限制、電腦斷詞錯誤的詞彙、人工校正 斷詞的原則、人工校正斷詞的步驟四個部分說明:
(一)人工校正斷詞的限制
本研究語料經過電腦斷詞後共有 15,000 多個詞型,礙於時間與人力的考 量,無法一一校對電腦斷詞詞彙的正確與否。因此「台文華文線上辭典」收錄的 詞條經電腦斷詞為詞彙後,即不再以人工進行校正。研究者僅能針對電腦斷詞錯 誤的前後三個詞彙予以人工校正(請參考下面人工校正斷詞步驟 1),此為人工 校正斷詞的限制之一。
目前台語缺乏一套完善的分詞準則,在人工校正斷詞時,研究者主要以詞意 完整為主要考量,在人工校正時很難避免主觀的成分,亦無法兼顧語法、詞性分 類等問題,此為本研究人工校正斷詞的限制之二。
(二)電腦斷詞錯誤的詞彙
斷詞系統」無法比對造成斷詞錯誤,這些詞彙可分成以下兩種類型:
1.「台文華文線上辭典」沒有收錄的詞條(包含書寫不一致的詞彙),例如:
暗bong-bong。
2.詞彙中插:兩個詞彙中間插入「-」符號,例如:{1- ê }, [出]-{去}。
(三)人工校正斷詞的原則
根據人工校正斷詞的限制以及電腦無法斷詞的詞彙,擬定以下幾項人工校正 斷詞原則:
1.「漢羅台語文斷詞系統」已完成斷詞的詞彙,不再進行人工校正。
2.僅針對「漢羅台語文斷詞系統」斷詞錯誤的台語詞彙進行人工校正。
3.非台語詞彙部分(例如:英語或日語),詞彙之間以空白分隔,沒有斷詞 的問題,故不須人工校正。
4.人工校正以保留詞意完整為原則。
(四)人工校正斷詞步驟
依據上述的人工校正斷詞原則,擬定以下幾點人工校正斷詞步驟:
1.以電腦斷詞錯誤的詞彙為中心,將前後三個詞彙(如少於三個詞彙,取到 前後標點符號為止)視為未完成斷詞部分,納入人工校正範圍,保持{ } 前後詞意之完整。例如:『[ ] [ ] [ ]{ }[ ] [ ] [ ]』,或『,[ ] [ ]{ }[ ] [ ][ ]。』,範例『,[將][課]{程的}[目標][設定][做]20』。 2.人工校正{ }前後三個詞彙,詞意完整者斷詞成為一個詞彙。
20 擷取自「台語文語料庫」學術語料:梁淑慧。2002。〈「幼兒台語班」的教學實務 kah 成果〉。
《2002 台灣羅馬字教學 kap 研究國際學術研討會》。
3.將人工斷詞後的台語詞彙加入「漢羅台語文斷詞系統」使用者詞庫,改進 電腦斷詞結果。
4.再執行一次電腦斷詞。
5.將文本再檢視一次,若有遺漏沒有斷詞的部分,再執行步驟 1~步驟 4。
表16 為人工斷詞處理實例說明:
表16 人工斷詞實例表
例句 電腦斷詞 人工斷詞 備註
hit 個 gín-á 豆油 moh--leh21
[hit][個][ gín-á][豆 油][ moh]--[ leh]
* 人工斷詞原則1
將課程的目標設 定做22
[將][課]{程的}
[目標][設定][做]
[將][課程] [的]
[目標] [設 定][做]
人工斷詞原則2、4
上尾1-pái 喘氣23 [上]{尾 1--pái } [喘氣]
[上尾] [1]
-[-pái]
人工斷詞原則2、4
21 擷取自「台語文語料庫」非學術語料:Abon。2000。〈魚肉〉。
22 擷取自「台語文語料庫」學術語料:梁淑慧。2002。〈「幼兒台語班」的教學實務 kah 成果〉。
《2002 台灣羅馬字教學 kap 研究國際學術研討會》。
表16 人工斷詞實例表
24 擷取自「台語文語料庫」非學術語料:Abon。2000。〈魚肉〉。
25 擷取自「台語文語料庫」非學術語料:Voyu Taokara 劉。2006。〈目睭〉。
26 擷取自「台語文語料庫」非學術語料:Voyu Taokara 劉。2006。〈目睭〉。
27 擷取自「台語文語料庫」學術語料:梁淑慧。2002。〈「幼兒台語班」的教學實務 kah 成果〉。
《2002 台灣羅馬字教學 kap 研究國際學術研討會》。
28 擷取自「台語文語料庫」學術語料:張學謙。2002。〈東是東,西是西,永遠 bē 相 tú?台灣 人對台語文字 ê 態度研究〉。《2002 台灣羅馬字教學 kap 研究國際學術研討會》。
表17 使用者詞庫表(舉例)
使用者詞庫 使用者詞庫 使用者詞庫 使用者詞庫
黑板 上尾 干乾 攏
kōaⁿ-kōaⁿ-kōaⁿ tò-tńg--來 漢羅 流程
摃搥仔 到 態度 旗á
韻母 今á 日 多元 黃gīm-gīm
呣閣 án-chóaⁿ 現主時 光sih-sih
三三
三三、、、、詞頻統計詞頻統計詞頻統計詞頻統計
經過電腦斷詞和人工校正斷詞後,由「漢羅台語文斷詞系統」輸出詞頻統計 表,學術類21 篇、非學術類 67 篇,共計 88 份分篇詞頻統計表。接著使用 Microsoft
Excel 軟體和楊允言撰寫的程式,將 21 篇學術類以及 67 篇非學術類分篇詞頻統 計表,分別合併整理出學術類詞頻統計表以及非學術類詞頻統表各一份。如表 18、表 19:
表18 學術類詞頻統計表(範例)
編號 詞型 詞次 比例 比例總合
1 ê 2,817 4.8521% 4.8521%
2 的 1,235 2.1272% 6.9793%
表18 學術類詞頻統計表(範例)
3 [NUMBER]29 1,209 2.0824% 9.0618%
4 是 839 1.4451% 10.5069%
5 有 620 1.0679% 11.5748%
6,853 唤30 1 0.0017% 99.9931%
6,854 岀世 1 0.0017% 99.9948%
6,855 歩數 1 0.0017% 99.9966%
6,856 泪泪 1 0.0017% 99.9983%
6,857 靭性 1 0.0017% 100.0000%
表19 非學術類詞頻統計表(範例)
編號 詞型 詞次 比例 比例總合
1 ê 4,082 5.2364% 5.2364%
2 [NUMBER] 1,251 1.6048% 6.8411%
3 是 1,218 1.5624% 8.4036%
4 我 1,129 1.4483% 9.8518%
29 [NUMBER]是數字 1,2,3……,因為可以無限衍生,影響統計結果,因此全部歸為一個詞型 [NUMBER]計算。
30 學術類詞頻編號 6,853「唤」、編號 6,854「岀」、編號 6,855「歩」是打字造成的錯誤,屬於 雜訊的一種,在做分析時會考慮將低頻詞拿掉,避免雜訊對研究分析造成干擾。
表19 非學術類詞頻統計表(範例)
5 講 1,019 1.3072% 11.1590%
9,079 靈堂 1 0.0013% 99.9949%
9,080 觀看 1 0.0013% 99.9962%
9,081 觀音山 1 0.0013% 99.9974%
9,082 讚嘆 1 0.0013% 99.9987%
9,083 鑼 1 0.0013% 100.0000%