• 沒有找到結果。

前端使用者介面簡介

2. 語料庫介紹

2.2 臺灣客語方言語料庫之系統化架構

2.2.2 前端使用者介面簡介

語料庫前端使用者介面,目前以網頁形式呈現。計畫初期規劃擬以 Python 程式語言撰寫,利用PHP 與 MySQL 作為系統及後設資料庫的開發工具,其使 用者介面如〈圖3〉所示:

〈圖 3〉以 Python 程式語言撰寫之前端使用者介面

而後考量使用者之便利性與親切性,改以網頁形式呈現,使用者可省去下載軟 體安裝及面對陌生視窗之不便,故而後改以php 及 html 語法撰寫網頁程式,

網站架設於 Apache 2.2.11 版本,以網頁版介面形式呈現,其使用者介面如〈圖 4〉所示。因語言程式改寫之關係,故目前網頁版已完成改寫之功能包含:文本 輸入、文本查詢、關鍵字查詢、語料和使用管理等功能,搭配詞查詢、批次修 改、頻率統計等功能仍在改寫中。

〈圖 4〉以 PHP 程式語言撰寫之前端使用者介面

關於系統運作方面,文本輸入功能1需由熟稔客語用字之人員新增及輸入文 本,因此輸入人員必須熟悉輸入格式,確保輸入格式正確,也必須瞭解哪些用 字已有教育部公布之標準用字,哪些用字目前尚未有標準用字,且輸入者在遇 到雖已有標準用字但一般輸入法卻無法輸入的難字時,需知道如何輸入相對應 的拼音及調號。為預防輸入者輸入錯誤,在其新增文本時,系統會紀錄新增者 的資訊及新增時間,方便語料庫管理者校對及修正。

關於客語用字之處理,需特別提出說明的是,雖然目前教育部已頒佈部分 規定用字,但部分用字無法以一般輸入法輸出,進而有所謂的「難字」的產生。

針對這些難字,目前處理的方式是改以輸入其相對應的拼音加調號;例如「 」 以「ngai5」標記,並以空白區隔連續的難字。針對難字部分,為了在新的難字

出現時,輸入者能正確且快速地修改語料庫中相同的字,因此程式設計師特地 建立一反查用表格,即「相關詞彙」 (Relatedword)。「相關詞彙」為一記載相關 詞用法的紀錄,例如「 」與「ngai5」為相關詞彙,表格紀錄此相對應資訊,若 是有新的用字時,使用者可利用此表格進行批次取代或代換搜尋。

修改文章的功能包括修改標題及修改內容,但僅有文章輸入者本人及語料 庫管理員以上權限的使用者可修改標題,如此可避免語料混亂。如欲修改標題,

可藉由搜尋方式,修改者可根據搜尋結果來判定文章是否要修改標題。修改文 章內容的功能,可以藉由單篇文章內容修訂以及多篇文章用字的批次修改之方 式進行修改。

查詢功能主要分文本查詢、關鍵字查詢兩種方式,細目如〈圖5〉所示。文 本查詢功能,可按文章名、作者名、書名等方式查詢,查詢結果為文章表單列 表,如〈圖6〉所示;如欲進一步查詢每一篇文章的內容,可再點擊查詢結果。

關鍵字查詢功能,可輸入關鍵字查詢,查詢結果為含有該關鍵字之句子,如〈圖 7〉所示,可點擊文章名,進一步瞭解全篇文章內容。

〈圖 5〉查詢介面

〈圖 6〉文本查詢結果(文章表單列表)

〈圖 7〉關鍵字查詢結果

目前尚未改寫完成的搭配詞查詢、批次修改、頻率統計等功能仍在改寫中。

其中的搭配詞查詢功能,在於提供使用者輸入兩個詞彙,查詢結果為兩個詞彙

的共現長句,並可進一步設定兩個詞彙之間的距離,以設定詞彙關係的緊密度;

以客語「緊…緊…」結構查詢為例,輸入的兩個關鍵字即為「緊」、「緊」,查詢 結果即包含「緊走緊快」此類詞組。批次修改功能,在於提供一次性大量修改 用字或錯誤,可節省逐個修改的時間。頻率統計功能,在於提供關鍵字詞出現 的個數,以便量化分析使用。

為協助語料庫管理者管理語料,程式設計提供語料庫管理者可查詢最新輸 入的文章,亦可查詢特定輸入者的文章,如此可用以檢驗文本輸入之正確性與 否,並可進行後續之文章勘誤。

目前語料庫所含文本主要為書面語之故事集、客家雜誌,未來將收錄政 治大學口語語料庫之口語語料;同時在資源整合上,包括國立新竹教育大學台 灣語言與語文教育研究所葉瑞娟教授、國立新竹教育大學英語教學系黃漢君教 授與吳睿純教授等諸位教授與所屬研究團隊所建構之客語經典歷時文本、客語 戲劇節目對白、客語對答問卷內容等,均將一同彙整至此客語語料庫內。目前,

已有不少國內外專家學者詢問此客語語料庫之使用方式,然而因書面語料、網 路語料因版權問題尚未解決,故語料庫仍無法公開對外開放檢索,此問題仍待 各單位之努力與合作,方能俾使此客語語料庫對外開放使用。同時,因不同文 本之差異性大,涉及語料儲存方式之細節,仍需要更多時間撰寫和微調程式,

俾使語料庫語料更具多樣性。

本研究目前已完成客語語料庫架構及重要的資訊系統部分,計畫成果之

貢獻大致如原預期,且也吸引客語研究者的高度興趣與詢問,足見客語語料庫 系統化建構和量化分析以及本研究計畫之重要性。未來研究目標,希望朝向以 語料角度為主的研究,並希望能夠結合語言學與其他學門,如計算語言學、資 料庫研究等之合作,希望發展重疊詞搜尋功能、客語自動斷詞程式、客語自動 標音程式、量化方面的頻率計算或字數統計、並進而系統化建立電子化之客語 辭典及客語和其他語言之多語辭典,期冀客語語料庫之檢索系統與應用更加完 善。