第五節 研究分析
本研究將 15 個文類的詞頻進行統計,針對台語文類分類關鍵詞、台華共通 詞、台語用字等方面進行比較整理。
一、 台語文類分類關鍵詞整理
這一部分是要找出 15 個文類的分類關鍵詞進行分析,進行步驟如下:
步驟一
首先利用 Microsoft Excel 函數公式統計出各個詞彙出現文類的數量,這一步 驟分兩個公式來進行。
公式一:fx=IF(G2>0,1,0)。
此公式表示如果 G2 的數量大於 0 會以 1 表示,沒有大於 0 就以 0 表示。意 即在歌仔冊這一類別中,「ê」這一詞的詞頻為 0,所以利用 IF 公式推算 V2 欄會 出現 0。以此類推,將 15 類中所有的詞彙詞頻都轉成 1 和 0,「1」表示這個詞彙 的詞頻大於 0,這個詞在這一類別中有出現;「0」表示這個詞的詞頻沒有大於 0,
這個詞在這一類別中並沒有出現。詳見圖 3-2。
圖 3- 2 IF 函數
將所有的文類詞彙都以「1」和「0」表示詞的有無後,接下來進行公式二的 運算。
公式二:fx=SUM(D2:R2)。
此公式表示 S2 這一欄為 D2 到 R2 數量合計的結果,也就是說「ê」這一詞
圖 3- 3 SUM 函數 步驟二
利用 Microsoft Excel 函數公式篩選出只集中在 3 文類以內出現的詞彙。選擇 資料排序將文類數合計數量按照遞增方式,由少到多排序,找出文類合計數量小 於等於 3 的詞,就是集中在 3 種類以內的詞彙。
步驟三
將篩選出來的詞彙進行整理,使其出現在相同文類的詞彙集中排列。利用
Microsoft Excel 函數公式計算 15 位數的二進位,公式三的運算如下:
fx=Q2*1+P2*2+O2*4+N2*8+M2*16+L2*32+K2*64+J2*128+I2*256+H2*512+G2
*1024+F2*2048+E2*4096+D2*8192+C2*16384 。詳見圖 3-4。
此公式表示將所有詞彙中每一欄位「1」和「0」轉化二進位方式,當成 15 位數的二進位,再利用結果進行資料排序,將加權分數由少至多遞增方式排列,
這樣詞彙出現於相同文類的就會集中排列。因為詞彙的二進位計算結果相同表示 這些辭會出現的文類都一樣。詳見圖 3-5。
圖 3- 4 將語詞出現於某一文類以 0 和 1 表示,視為二進為數字。
圖 3- 5 加權分數相同文類集中排列
步驟四
利用排序的結果,在步驟一所選出只集中在 1~3 種文類的詞彙中,找到二 進位後結果相同者,結果相同代表這些詞彙出現的文類為一樣,即可將這些詞彙 按照 15 個文類分別歸納整理,找出 15 個文類中的分類關鍵詞彙。
將這些關鍵詞彙依照詞頻高低排序,由高到低選出 15 文類的分類關鍵詞前
200 名。
步驟六
將篩選出來的關鍵詞彙進行人工校對,刪去人名、地名、專有名詞等,再重 新找出前 200 名的分類關鍵詞。
步驟七
結果分析
二、 台華共通詞整理
這一部分是要找出 15 個文類台華共通詞所佔的比例,進行步驟如下:
步驟一
以詞庫小組「中文詞庫(八萬目詞)16」為對照標準,利用 Microsoft Excel 中 VLOOKUP 函數,分別將 15 文類的詞彙一一比對,找出 15 個文類中的台華 共通詞。
公式四:fx=VLOOKUP(E2, $A$2:$B$40001,2,FALSE),此公式表示以 A2 到
B40001 的這些欄位中,去尋找和 E2 相符合的詞彙,如果找到了在 G2 的欄位就
會顯示 B2 的結果也就是「1」,如果沒有就會顯示#N/A,表示 FALSE 沒有找到,詳見圖 3-6。
16 一個包含八萬目詞的電子辭典,由中央研究院中文詞知識庫小組執行、研究,授權中華民國
計算語言學學會發行。
中華民國計算語言學學會中文詞庫:http://www.aclclp.org.tw/use_ced_c.php
圖 3- 6 VLOOKUP 函數
因為中文詞庫中有八萬詞彙,超過了 Excel 所能處理最多 65,536 列的範圍,
所以八萬詞目分為兩欄,接下來再以同樣的公式進行比對,將所有詞彙比對完 畢,將比對結果複製到 I 欄及 J 欄,並「0」取代「#N/A」,在 K 欄統計 I 欄加 J 欄的結果,如果數字大於 0 就表示這個詞彙在中文詞庫的八萬目詞中有找到,也 就是說這個詞彙就是台華共通詞。詳見圖 3-7。
步驟二
人工校對詞彙,刪去形同音同但意義不同卻被視為共通詞的詞彙。
步驟三
分別統計出 15 個文類中,台華共通詞所佔的比例。
步驟四 結果分析。
三、 台語用字整理
這一部分是分析台語用字的問題,進行的步驟如下:
步驟一
將所有詞彙以台語羅馬字的部分為標準,按照英文字母 A~Z 的順序排序。
步驟二
利用 Microsoft Excel 中的 IF 函數公式,統計出羅馬字寫法相同但漢羅寫法 不同的詞彙共有幾個。
公式五:fx=IF(B28=B27,C27+1,1),此公式表示 B28 這一欄的內容如果和
B27 這一欄的內容相同時,C28 就是 C27 欄的結果加 1,如果內容不同,C28 這
一欄的就顯示 1。如此一來就可以計算出羅馬字相同但是漢字寫法不同的詞彙數量有幾個。詳 見圖 3-8。
圖 3- 8 利用 If 函數計算同音詞數量 步驟三
利用 Microsoft Excel 中的 IF 函數公式,找出同羅馬字但漢字寫法不同數量 的最大值是多少。
公式六:fx =IF(C23<C24," ",C23),此公式表是如果 C23 這一欄的值小於 C24 的話,D23 這一欄的內就出現空白,如果不是 D23 這一欄的內容就顯示 C23 的 內容。如此一來就可以找出每一組同羅馬字但漢字寫法不同的最大值是多少。如 圖 3-9。
圖 3- 9 找出不同用字的最大值 步驟四
利用步驟五的結果進行篩選,找出羅馬字寫法相同而漢羅寫法不同超過 15 種以上的詞彙。
步驟五
人工校對詞彙,刪除刪去形同音同但意義不同之詞彙。
步驟六 結果分析。