• 沒有找到結果。

探討陳明仁台語短篇小說語詞特色

在文檔中 陳明仁短篇小說ê語詞研究 (頁 15-88)

二、行話ê使用 三、台灣俗諺語 第四章 結論

五、 研究限制

目前針對「語言系統」ê詞彙分類猶無真完整,包括台語抑是中文辭典。欲 分析作家用詞風格愛tuì使用每一個詞去研究,看出伊個別ê獨特性。因為能力有 限,kan-ta就語詞ê部份進行探討,根據作品中附加特殊口氣ê詞、行話kap俗諺語 做分析,看出無仝類ê詞使用ê目的kap特色。

第二章 斷詞 kap 詞頻統計

一、漢羅台語文斷詞系統使用方法 教育部台灣閩南語字詞頻調查中說明詞頻是統計語言基本 ê 空課。本論文分

做質化 kap 量化兩階層探討,先根據楊允言教授16「台語文語料庫蒐集及語料庫 為本台語書面語音節詞頻統計」中會當看出文章中總共有偌濟詞,其中佗一類 ê 詞 tī 文章中使用 ê 頻率 khah 懸,紲--落來 tsiah 進一步透過詞頻分析出作品中 ê 寫作特色 kap 無仝氣口 ê 詞是按怎產生。

本論文主要 beh 探討一個文類文本內面所呈現出 tī 字詞使用上 ê 特色。首先 先選出一篇文章,進行詞語 ê 分詞,計算特殊氣口語言 tī 文本中佔 ê 比率,透過 語言計量 ê 統計會當看出 tó 一類 ê 詞使用 khah 濟,看出文章 ê 語言特徵。Tī 2012 年有人提出講,以語言結果 ê 計量特徵來表示文本中加强語言風格對比 kap 作家 判定研究 ê 解說性(陳芯瑩,李雯雯,王燕,2012),也著是講文章 ê 語言特色會當 透過詞類頻率 ê 整理 kap 作家文本 ê 描述。使用斷詞系統語料庫看出每一個詞出 現 ê 頻率進一步來分析,tshuē 出高頻率用字,會當分析作者創作 ê 特色。

首先進入漢羅台語文斷詞系統網站了後,輸入台語文本資料,著會根據斷詞 原則來進行斷詞,tī 網頁中下面會出現斷詞結果,詞庫有 ê 詞用[ ]表示,詞庫 無 ê 會用{ }表示,著 ài tī 網頁正爿欄「使用者詞庫」輸入使用者認為欠缺 ê 語 詞,一 tsuā 會當輸入一個詞,另外 mā 會當直接用空白 kap 括號[ ]強制斷詞,按 呢 tsiah 會按照每一個詞出現 ê 頻率得著 koh khah 精確 ê 結果。下面著將台語文斷 詞系統步驟一一列出分析,kā 其他研究者17無講著 ê 部份進一步補充說明。

1. Kā 文章貼去斷詞系統著會看著詞庫中看是毋是算做一 ê 詞,利用括號區分出 來。(參考圖一)

(圖一) 斷詞系統中有 ê 詞用[ ]表示,詞庫無 ê 會用{ }表示。

16 楊允言主持,張學謙(共同),2004.8-2005.7,〈台語文語料庫蒐集及語料庫為本台語書面語音

節詞頻統計〉,行政院國家科學委員會補助專題研究計畫成果報告。

17 李欣民,2008,〈國民小學閩南語民間版教科書漢字選用之研究〉,國立台東大學台灣語文教

師碩士班碩士論文。

2. 透過頂懸先了解斷詞系統會 kā 詞分做詞庫有 ê kap 無 ê 做區別了後,下面著就 漢羅台語文斷詞系統 ê 使用步驟進行說明,先 kā 漢羅文章貼去--lih 斷詞系統頂 懸(參考圖二)。

(圖二)漢羅台語文斷詞系統使用方法

3. 輸 入 頂 面 文 章 了 後 , 就 會 當 看 出 系 統 根 據 「 台 語 斷 詞 原 則 討 論 」 所 斷 詞 出 來 ê 結 果 (請 參 考 圖 三 )。

(圖 三 ) 斷 詞 結 果 (校 正 前 )

4 . 因 為 透 過 斷 詞 系 統 ê 結 果 有 可 能 有 精 差 ê 情 形 , koh ài 人 工 校 正 過 tsiah 會 當 得 著 koh khah 正 確 斷 詞 ; 因 此 紲 --落 來 著 kā 無 精 確 斷 出 ê 詞 增 補 列 入 去 使 用 者 詞 庫 , 一 ê 詞 列 一 tsuā(參 考 圖 四 )。

(圖 四 ) 使 用 者 詞 庫

5. 以 下 是 經 過 使 用 者 詞 庫 ê 整 理 , 得 出 無 仝 ê 結 果 (參 考 圖 五 )。

(圖 五 ) 斷 詞 結 果 (校 正 後 )

斷詞結果經過人工校正比對出有一寡無仝 ê 所在,譬如講:「Tàu-tīn--ê」是 指朋友之間或是 tuì 熟似 ê 人 ê 稱呼,校正前無 kā 算做是一 ê 詞,tse 著是 ài kā 另外囥 tiàm 使用者詞庫,tsiah koh 重新斷詞一擺。

6. 根據整理發現,tī 斷詞系統 ê 使用上出現一寡問題,第一是需要 kā 漢羅文字 文章轉成數字 ê 調號,¬烏點用 ou 表示,鼻化母音 ài 用 N 表示,避免出現亂碼 影響詞頻統計 ê 情形(請 參 考 圖 六 )。

(圖六) 直接貼文章會出現亂碼情形18 (用紅筆註記)

7. 因為台語輸入需要安裝 Taiwanese Serif 或是 Taiwanese Fixed 字型,一般使用新細 明體著會出現亂碼,利用 Code transfer (http://taigi.fhl.net/CTS/index.html)來達到轉碼 ê 用途(請參考圖七)。

(圖七) Code Transfer 轉碼工具

欲將台語文轉換做有聲調顯示 koh buē 出現亂碼,著 ài 透過轉碼工具 ê 使用,

18 亂碼情形 m̄-bat-˜-bat、無 siá°--lah-無 siá°--lah、h³ 你聽-h³ 你聽、本金七 kho -本金七 kh¬、Sýt-á 忠-Sýt-á 忠... 說明:一般台灣羅馬字拼音ê書寫需要先ài 安裝 Taigi Unicode,

字型 tsiah buē 走精去。

首先先進入「台語信望愛網站」(http://taigi.fhl.net/),然後選取「教羅台羅轉碼工 具」,kā 文張貼去 lih,著會當進行轉碼 ê 動作。

說明:一般電腦所用 ê 字型中文以新細明體 kap 標楷體佔大多數,tī 台語文 ê 書 寫頂懸需安裝字型抑是透過轉碼工具,因為台灣閩南語羅馬字拼音方案採 用 ê 是標準 Unicode 編碼 tshiah 會呈現出台語文聲調 ê 部份。

8. Tī Input encode 選擇 TP,Output encode 選擇 Kaulo number,著會當得著轉換 ê 結 果(請參考圖八)。

(圖八) 轉碼後 ê 結果

9. Kā 轉碼後 ê 結果貼去輸入白話字漢羅資料欄位中進行討論(請參考圖九)。

(圖九)台羅拼音轉換做數字調號 tsiah 貼去 lih 斷詞系統頂面

Tī 本論文 ê「附錄」有將斷詞結果整理出來,斷詞是按照頂面轉換數字 ê 資 料統計出來--ê,毋過會 tú-著第二個問題是斷詞 ê 結果,根據曾金金教授19tī〈台 灣文學出版物收集、目錄、選讀編輯計畫結案報告說明〉討論台語斷詞 ê 基本原 則是,tuì 語意 kap 語法兩方面來說明分詞單位,tsiah 會當 tī 語言學理論上 tshuē-著分詞依據,致使分詞標準有執行 ê 依據(曾金金,1997)。

「詞」tī 語言學家 ê 定義是「會當獨立運用,具備完整語意 ê 上細語言成分」。 全羅文本無斷詞問題,因為 tī 羅馬字書寫過程會 kā 一個詞中間用“-”連字符號 (hyphen)註記。漢字書寫 tī 詞 kap 詞之間,無 làng-keh 區分,無法度 kā 每一個詞 正確分--出來,ài koh 透過辭典 ê 詞條去修正(參考表一)。漢語 ê 分詞是 kā 一個漢 語 ê 詞組序列分出幾個有意義 ê 詞。本論文所用 ê 漢羅台語文斷詞系統 ê 規則是 根據辭典 ê 分詞方法,這是一款應用廣泛 ê 分詞法(胡錫衡,2008,頁 43),其中 使用 Backward Maximal Matching (BMM,逆向最大匹配 koh 稱做是反向長詞優先法)

(Tuì 正爿到倒爿 ê 方向去比對出現 tī 辭典中上長 ê 詞)演算法斷詞。一開始將 文本貼去--lih,用 Forward Maximal Matching (FMM,正向最大匹配分詞,tuì 倒 爿到正爿 ê 方向去比對出現 tī 辭典中上長 ê 詞)或者是用 BMM 做得出結果,親像:

「台語小說看台語語詞變化」,tsit 句話有可能有無仝 ê 斷詞情形,所以 ài 根據文 本頂下文 tsiah 會知影欲用 tó 一款斷詞法。

(1) FMM:台語/小說/看台/語/語詞/變化。

(2) BMM:台語/小說/看/台語/語詞/變化。(漢羅台語文斷詞系統)

紲--落來 tú-著 ê 問題是詞頻統計出來 ê 結果,其中數字 ê 部份是 kā 全部阿 拉伯數字算做夥,毋過會 tú-著講表達仝一 ê 數字有兩種以上 ê 結果。譬如講:

數字 1=一,但是「一定」tsit ê 詞著 buē 使用 1 來書寫。

二、《路樹下 ê t³-peh-á》ê 詞頻統計

透過漢羅台語文斷詞系統整理分類發現,《路樹下 ê t³-peh-á》四篇小說〈Làu-s…t 孤飛〉、〈Làu-s…t 孤鳥〉、〈刺 pho-á〉、〈路樹下 ê t³-peh-á〉文中分別出現大約 831、

974、905 kap 2212 ê 詞,有可能因為斷詞系統是輸入漢羅文,包括羅馬字 kap 漢 字,致到無法度真精確斷出完整 ê 詞,人工校正前後著會出現小可無仝 ê 數量(參 考附錄),需要經過使用者詞庫 ê 增補修改(參考表一),得出新 ê 結果。

19 曾金金,1997,〈台語斷詞原則說明〉,《臺灣文學出版物收集、目錄、選讀編輯結案報告說明》, 行政院文化建設委員會,頁 45-72。

(表一) 使用者詞庫(按照文章內面語詞出現 ê 順序排列)

〈Làu-s…t 孤飛〉

無 chhàu 無 siâu Cha-b--ê a 母 cha-b人

目 chiu óa 靠 cha-p人 lak 袋 á

sián 頭 á 就會 無所不至 儉腸 neh 肚

不 tap 不 chhit 傳統式 khah 有 受教育--ê 蔘 ákhùi tòe thōm--ê 真 chē 項 做--過 無 lám 無 ne hit 時 hit 款 góan tau

好--無 K.T.V. 加工--ê kāng 款

偷走去 7kám-á 店 kám-á 店 有時 á

無 êng 暗班--ê tih 傷 1kóa

廢話 nah 有 hiah chē 正經話

想講 -chiâⁿ-siâu soan--a 月日

lān-ht-á cha-b--ê hit-lō iah 是 lih-pau--ê phah 斷--去 食薰 pûn 風上 gōng tiâu--lehh

免--lah 熟 sāi hit 間 檳榔擔

孤 kha 手 chhun 長手 大通路 hù-hù 叫

檳榔 kauh bē 赴 khah 好 cha-b-kiáⁿ

會 sái 目空赤 固定--ê A 麗

鼻 á hàn 緣 bēbái chhun 手

kui 暝 也 bē 大路邊 粗牙--ê

幼齒 ê 倒 péng 知 tang 時

15、6 歲 á làu 涼--ê khôe-kha 破相 輸--人

好 社會風俗 L.K.K. hit 代--ê

笑--死-人 pē 母 生成--ê 就有

胸 khám--a 天霸王 有貨--ê 是

lih 做 豬 á-kiáⁿ 這 kh圍 á 肉肉肉

Mouh-leh-lù 肉 káng L.C.B. phàn-á 老 cha-b 老 chi-bai hit 味--ê 會 tàng

thh 過 khah 早 讀冊 Johnny Khong

無 kâng 無要緊 bōe phok 假 phok hit 款型--ê

注射--ê tàu-tīn--ê 寮 á 底 剃頭店

hit 途--ê 顧口 37 á 台灣話

熟 sāi 看--起-來 菜鳥 á kh二--ê

油 lok-lok 寮--ê hau-siâu 起 kha 動手 店 kí--ê Ài-koh 來 愛哥來 phóng--去-a

內籬 á 13 姨 坐擔--ê 假在 sek

初出洞門 紅茶店 辣妹舞 看 māi

thèng 好 起屁面 Hau-siâu-hau-tak 熟 sāi

有 êng --落-來 siàu 想 大面神

敢 煞煞--去 賊頭寮 Pháiⁿ 錢 á

chhōa 頭 才 tiāu tī-tāi hit 工

kui 身軀 kám 有 友--ê tú 好

 bat 烏牛 尾--á 抓組--ê

戴帽 á 嘴角全波 有--ê 無--ê 痴哥

kāu 話屎 破 bâ tú 會著 Chhit-á

A 本 á 極道之妻 hit 個 岩下志麻

知-- 面桶水 sià 世 sià 眾 體面

chiūⁿ-kioh--ê êng-á 話 看口 準 tú 好 tong-á 錢 照 khí-kang siàu 簿 tk 個月

記 siàu 香奈兒 皮包 á 帽 á

溢酸食醋 月錢 無大無細 kiat 著

thûi-á sià 了了 攬(láng)褲 裂 kha 脛

kha-chhng 後 mā 是 人情世事 會 hiáu

展 hong 神 siuⁿ 過 làu-iāng chhiàng 聲

〈Làu-s…t 孤鳥〉

Tàu-tīn--ê 坐車 iáu 未 借調

熟 sāi --1-下 chiah 會 鐵網 á

iáu 會 放封 St-á 忠 chhiāng 著

上 kài 會 tàng àu-siâu 咬骨 tńg 去

籠(long)á 內 戴帽 á 肯 sńg 球

幾-10-lìn khîⁿ 球架 khioh 著

tâm--去 iah 是 siáⁿ-mih hán 講

文鳥 錦鳥 十姊妹 真 chē

鳥 á-kiáⁿ tńg 來 老 pē 顧暝顧日

老--ê kui 世人 pháiⁿ 運 準講

大富戶 iáu 有 庄 kha 人 好 khang

組買 株式(tu-sek)會社 外省人 tàu-khang-á

nah 有 好價 鳥 á siáu 貪

無趣味 siáⁿ-mih 總--是 作 sit

厝角鳥 á 客鳥 白頭 khiat-á 白頭 khok-á

iáu 是 chhek 鳥 á 會 sái 內籬 á

無 kâng 起 chhio --出-來 phah 手 chhèng

出--去 Chái 起 雜役 á hoah 講

Phah 飯--ê 狗籠 á 晝頓 暗頓

收封 跳房 chái 時 tú 好

thèng 候 chiah 有 thang 字條 á 友--ê

kan-taⁿ 值班 ê mā 是 紙條 á

「食會」ê tàu-saⁿ-kāng tòe 會 á pôaⁿ-nóa

話母 籠 á 上愛 teh 注(tù)

起嘴 chhio 外籬 á 打嘴炮 冰

孤行獨市 監所司 kh一--ê kh二

kh三 也有 走水--ê 看守所法

請款單 入--去 入--來 厝--nih

面乳 雜貨 thèng 好 kám-á 店

雜用 外路 á 陪 tòe 相請

食薰 某 mih 人 相 bat phah 鼓

phah 武--ê 簡講 薰草 tháu 開

niáu 鼠 á 尾 有時 á 炮管 Khám-kún

大--ê 貴事 南天門 縱貫路

a 娘 借問 照講 後叔

知 hoan 咐 K.T.V. 金 sih-sih

Benz 520 kh-á 內 時行 phang 料

做友--ê 生本 khám-siâu khám-siâu khong-khám 性

尊 chhûn 今 á 日 驚 chìn 前

出 sai sai-á 工 黃牛票 摸摸茶

冰果室 lim 茶 割引 一清--ê

tk 工 一清專案 米國 外省--ê

劉宜良 記智 江南 蔣經國

小蔣--ê 吳國禎 宋美齡 空 á 縫

起屁面 情報局 lih 狂 C.I.A.

F.B.I. sa 無 niau-á-mg 竹聯幫 頭旗

惹著 米國人 一清掃黑專案 ngī-táu

1 隻牛剝雙領皮 烏道 走跳 八 gah 有 chhun

Pháiⁿ 錢 á 檳榔擔 Rona 走 chông

目 chiu A 麗 無 chhàu 無 siâu 顧口

電動間 á 變做 車路頭 目空赤

武士刀 八卦刀 掃刀 刀

êng 間 á 4 號 á 塗 kha phāⁿ 車

e-kiáu e 弦 á e 石磨 á kāng 款

kiáu 間 tong-kóng tong-kiáu 街 á 路

保護費 無親無 chiâⁿ 無田無園 幫派

保護費 無親無 chiâⁿ 無田無園 幫派

在文檔中 陳明仁短篇小說ê語詞研究 (頁 15-88)

相關文件