A.先對各種代號下定義(可作可不作):
標註記號共分成四種插入事件,每種各有十多種不同意義的代號,可以 自己先在Transcriber 中加入。在 Options\Events\裡選擇編輯 noise,
pronounce,lexical,language 四種其中一種:
71
先按「New」增加新的欄位,Value 是所要用的代號,Description 是此代 號的意義。最後按「Modify」確定。
B.開啟一段新的audio 檔後,標註內容是一片空白。
選擇標註內容的原則是:
只標註主持人與來賓(交談者)的內容。
準點報時,有標註。
廣告,即時新聞,不標註。
音樂(音樂性節目或是串場用),不標註。
C.基本操作:
下半部是audio 檔的波形內容,皆以滑鼠操作。
用滑鼠左鍵可選擇波形任何一點,會出現1的紅線,在2會出現對應的 時間點。3是目前在整段audio 檔的實際位置,單位是秒。4可以左右 拉動看接下來的波形。5是調整顯示的比例。
D.如何標註:
所謂標註是先紀錄audio 檔的文字內容,再根據說話者的語氣變化,在 字與字之間加入說明的代號,稱作「插入事件」。
(a) 首先在下半部波形的一段對話前,用滑鼠左鍵按出「起始點」,再按一 下「Enter」作出一個 break point。由下圖可以看出,左半部是 music,右 半部是語音,按一下「Enter」後,在文字工作欄位多出了Region 2。同 樣地,也要在一段句子的結尾也作出一個break point,而文字就寫在這 一段Region 裡。
例:下圖可以看到有4個區域,音樂不作標示,文字的部分,依照適當的 長度再作分割。
73
(b) 通常處理的流程是:
先把整段音檔其中要標註(語音)與不要標註(音樂、廣告...)
用break point 大致分割出來。
聆聽每段語音的部分,把內容紀錄下來。
在聽一次語音,這次把各種插入事件標註進去。
依照長度規則,把語音每隔一小段時間再斷一次。
編輯細部部分,包括說話者名稱,背景音樂的標示。
此流程並不是標準程序,可以依喜好調整。
E.最後的音檔標註文件應該包括:
文字內容以及各種插入事件的標註。
談話者的資料編輯(Segmention\Create turn)。
Topic 的編輯,裡面有日期、時間、節目。
F.各種工作準則:
有幾樣工作的原則以及我們自訂的一些規範:
a.標註內容的選擇:
只標註主持人與來賓(交談者)的內容。
準點報時,有標註。
廣告,即時新聞,不標註。
音樂(音樂性節目或是串場用),不標註。
b. 插入事件的代號:
一律以中研院所給我們的”Transcriber 操作暨標註方式說明”為準,沒 有再增加或修改定義。
c.語氣詞須以英文字母代替:
由於中研院的文件裡並沒有完備的對照表,所以我們自行訂出一組 常見語助詞的對照表:
啊 吧 啦 呢 喔 嗎、嘛 嗯 呃、兒 呵 哈 A BA LA NER O MA N ER HR HA
哇 ㄟ、ㄝ 囉 唉呀 唉唷 ㄜ嗯 嗯哼 厚 呀 耶 WA E LO AI YA AI YO M NHM HO YA YE
d.切斷句子的長度:
為了作語音辨識的方便,把最後切成的每一小段句子的長度限制在 10 到 15 秒之間,最好是一個完整的句子,切斷點是在波形間隔 的部分。句子的開頭與結尾處也最好能保留一些沒有語音的部分,不要
剛好切在剛開始發聲的部分。(通常出現在一大段話的開頭與結尾部 分,以及談話中有停頓或休息的地方)
G.建議事項
a.善用快速鍵。一些常用的鍵像「Play」、「插入 noise」等可以用快速鍵
控制,可以加快工作速度。可惜不能自訂快速鍵。快速鍵的看法:75
H. 參考:
1. 中研院”Transcriber 操作暨標註方式說明”。
(1) 第一部分介紹指令欄內各項指令的意義,以及某些指令的設定方 法。
(2) 第二部分是所有插入事件的介紹,包括所使用的記號、意義說明、
標記方式及使用範例。
(3) 第三部分是簡單的實際範例。
2.3 UltraEdit 軟體介紹
除了可以像Word 一樣,提供強大的編輯與列印功能外,如果用它開啟非文 字檔,UltraEdit 就立刻成為可以直接編輯程式碼的編輯器。而且 UltraEdit 也支 援雙位元字元集 (DBCS),可編輯中文。
2.3.1 UltraEdit 功能簡介:
(1) 提供超強的文字檔編輯、預視、列印功能。
(2) 提供直接編輯十六進位碼功能。
(3) 可編輯 HTML 檔案,以彩色顯示 HTML 標記,方便網頁編輯。
(4) 新版在畫面左邊提供快速檢視欄框,無論切換編輯視窗或檔案都很容易。
(5) 新增的 project(計畫)功能,可以讓您把數個文字檔合成一個「計畫」,
方便您一次編輯數個彼此有關連的文件。