• 沒有找到結果。

(4) 如何標註:

A.先對各種代號下定義(可作可不作):

標註記號共分成四種插入事件,每種各有十多種不同意義的代號,可以 自己先在Transcriber 中加入。在 Options\Events\裡選擇編輯 noise,

pronounce,lexical,language 四種其中一種:

71

先按「New」增加新的欄位,Value 是所要用的代號,Description 是此代 號的意義。最後按「Modify」確定。

B.開啟一段新的audio 檔後,標註內容是一片空白。

選擇標註內容的原則是:

只標註主持人與來賓(交談者)的內容。

準點報時,有標註。

廣告,即時新聞,不標註。

音樂(音樂性節目或是串場用),不標註。

C.基本操作:

下半部是audio 檔的波形內容,皆以滑鼠操作。

用滑鼠左鍵可選擇波形任何一點,會出現1的紅線,在2會出現對應的 時間點。3是目前在整段audio 檔的實際位置,單位是秒。4可以左右 拉動看接下來的波形。5是調整顯示的比例。

D.如何標註:

所謂標註是先紀錄audio 檔的文字內容,再根據說話者的語氣變化,在 字與字之間加入說明的代號,稱作「插入事件」。

(a) 首先在下半部波形的一段對話前,用滑鼠左鍵按出「起始點」,再按一 下「Enter」作出一個 break point。由下圖可以看出,左半部是 music,右 半部是語音,按一下「Enter」後,在文字工作欄位多出了Region 2。同 樣地,也要在一段句子的結尾也作出一個break point,而文字就寫在這 一段Region 裡。

例:下圖可以看到有4個區域,音樂不作標示,文字的部分,依照適當的 長度再作分割。

73

(b) 通常處理的流程是:

先把整段音檔其中要標註(語音)與不要標註(音樂、廣告...)

用break point 大致分割出來。

聆聽每段語音的部分,把內容紀錄下來。

在聽一次語音,這次把各種插入事件標註進去。

依照長度規則,把語音每隔一小段時間再斷一次。

編輯細部部分,包括說話者名稱,背景音樂的標示。

此流程並不是標準程序,可以依喜好調整。

E.最後的音檔標註文件應該包括:

文字內容以及各種插入事件的標註。

談話者的資料編輯(Segmention\Create turn)。

Topic 的編輯,裡面有日期、時間、節目。

F.各種工作準則:

有幾樣工作的原則以及我們自訂的一些規範:

a.標註內容的選擇:

只標註主持人與來賓(交談者)的內容。

準點報時,有標註。

廣告,即時新聞,不標註。

音樂(音樂性節目或是串場用),不標註。

b. 插入事件的代號:

一律以中研院所給我們的”Transcriber 操作暨標註方式說明”為準,沒 有再增加或修改定義。

c.語氣詞須以英文字母代替:

由於中研院的文件裡並沒有完備的對照表,所以我們自行訂出一組 常見語助詞的對照表:

嗎、嘛 呃、兒 A BA LA NER O MA N ER HR HA

ㄟ、ㄝ 唉呀 唉唷 ㄜ嗯 嗯哼 WA E LO AI YA AI YO M NHM HO YA YE

d.切斷句子的長度:

為了作語音辨識的方便,把最後切成的每一小段句子的長度限制在 10 到 15 秒之間,最好是一個完整的句子,切斷點是在波形間隔 的部分。句子的開頭與結尾處也最好能保留一些沒有語音的部分,不要

剛好切在剛開始發聲的部分。(通常出現在一大段話的開頭與結尾部 分,以及談話中有停頓或休息的地方)

G.建議事項

a.善用快速鍵。一些常用的鍵像「Play」、「插入 noise」等可以用快速鍵

控制,可以加快工作速度。可惜不能自訂快速鍵。快速鍵的看法:

75

H. 參考:

1. 中研院”Transcriber 操作暨標註方式說明”。

(1) 第一部分介紹指令欄內各項指令的意義,以及某些指令的設定方 法。

(2) 第二部分是所有插入事件的介紹,包括所使用的記號、意義說明、

標記方式及使用範例。

(3) 第三部分是簡單的實際範例。

2.3 UltraEdit 軟體介紹

除了可以像Word 一樣,提供強大的編輯與列印功能外,如果用它開啟非文 字檔,UltraEdit 就立刻成為可以直接編輯程式碼的編輯器。而且 UltraEdit 也支 援雙位元字元集 (DBCS),可編輯中文。

2.3.1 UltraEdit 功能簡介:

(1) 提供超強的文字檔編輯、預視、列印功能。

(2) 提供直接編輯十六進位碼功能。

(3) 可編輯 HTML 檔案,以彩色顯示 HTML 標記,方便網頁編輯。

(4) 新版在畫面左邊提供快速檢視欄框,無論切換編輯視窗或檔案都很容易。

(5) 新增的 project(計畫)功能,可以讓您把數個文字檔合成一個「計畫」,

方便您一次編輯數個彼此有關連的文件。

3. 語音資料標示成果

3.1 IC 電台標註狀況

相關文件