第四章 系統設定與系統效能評估
4.2 系統效能評估
4.2.1 系統執行時所使用之記憶體大小
而本系統所使用到的各式資料,其檔案大小列於下表中。
表 4-2-1:合成系統各項資料列表
名稱 用途 檔案大小
合成語料庫 語料庫音檔 1,045MB
音節位置表格 記載音檔之音節位置資訊 1,762KB
多字詞字元位置表格 記載多字詞之文章位置 2,764KB
單字詞字元位置表格 記載單字詞之文章位置 209KB
音調音節位置表格 記載同音字之文章位置 1,479KB
前詞綴表格 記載前詞綴之文章位置 3KB
後詞綴表格 記載後詞綴之文章位置 13KB
音節韻律訊息表格 記載各音節之韻律訊息 2,639KB
音節邊緣能量表格 記載各音節之邊緣平均能量 3,515KB
中文姓氏表格 記載中文姓氏之文章位置 6KB
音節相關前後文係數表格 記載各音節之前後文係數 4,391KB 411 音節子母音分類表 記載411 音節子母音分類 4KB
總大小 1,062MB
以上所列為架設系統所需之記憶體,至於系統實際執行時所佔用的記憶體,
系統初始化時為59MB,實際運作時所佔用之記憶體隨合成文句長度與搜尋結果 之大小而變化,合成文句越長與搜尋結果越多則所佔用之記憶體越大。
4.2.2 合成目標句系統所需之時間
在一開始架構此語音合成系統之時,我們採用將所有輸入文句合成後,才播 放給使用者的方式。然而由於以語料庫為基礎之合成系統的執行速度不如以往以 少量語料庫配合PSOLA 合成技術之系統快速,如此的作法會讓使用者的等待時 間過久。於是我們改用一邊合成一邊播放的方式來減少使用者的等待時間,大致 而言,每合成完一句目標句就立刻播放此句,利用播放此句的時間,系統同時合 成下一句,一篇文章之合成過程如下圖所示。
圖 4-2-1:多句目標句之合成流程示意圖
4.2.3 圖形化使用者輸出入介面
在本文中提出的語音合成系統,其輸入為BIG5 形式的中文字,而回應系統 使用者的語音輸出則為使用音效設備播放取樣率16 kHz 之 PCM 音檔,使用者使 用系統時所看到的介面如下圖所示。介面上共有四個輸出入方塊與三個按鈕,上 方的方塊為「合成內容輸入方塊」,使用者可在此輸入欲合成的文句,假設在此 輸入「認為有個人資料可能遭到誤用,」。按下下方中間的「TTS」按鈕,系統 即會以合成內容輸入方塊內之內容來合成,並將合成波形播放。下方有三塊輸出 入方塊,最左邊為「文字分析器輸出入方塊」,每當系統合成一段文句,此方塊 就會顯示此文句之文字分析結果,使用者也可直接由此方塊修改文字分析結果來 改變合成的聲音。下方中間的方塊為「語料庫搜尋結果輸出入方塊」,每當系統 合成一段文句,此方塊就會顯示此文句在語料庫中搜尋到的多字詞清單,同樣,
使用者也可直接由此方塊修改語料庫搜尋結果來改變合成的聲音。下方最右邊的 方塊為「挑選結果輸出方塊」,每當系統合成一段文句,此方塊就會顯示此合成 波形的組成(以空行分隔不同的合成單元)與實際挑選及預測的合成單元之韻律 訊息,排列訊息依序為「(實際合成單元音節長/預測目標句音節長 | 實際合成單 元能量/預測目標句能量 | 實際合成單元平均基頻/預測目標句平均基頻 | 合成 單元位於語料庫中之句編號 合成單元位於語料庫中之字元編號)」。
圖 4-2-2:合成系統之使用者介面外觀
由於當初發展系統時,希望能方便地觀察文字分析結果與多字詞搜尋結果對 輸出波形的影響,我們設計了可由指定的斷詞結果與多字詞搜尋結果來合成的方 式,「TTS(Specified)」按鈕即是此種合成方式。當按下「TTS(Specified)」按鈕,
系統會以目前「文字分析器輸出入方塊」與「語料庫搜尋結果輸出入方塊」的內 容來合成波形,也就是說,只要我們修改此兩方塊之內容,即可依照使用者的意 思合成音檔。在一些情況下,文字分析器未能正確依照文句意義斷詞,如上圖中,
斷詞結果為「認為 | 有個人 | 資料 | 可能 | 遭到 | 誤用」,其中「 | 」代表詞
邊界,所以挑選單元選擇了一個三字詞「有個人」。然而實際上輸入文句中並沒 有「有個人」的意思,我們手動更改斷詞結果為「認為 | 有 | 個人 | 資料 | 可 能 | 遭到 | 誤用」,如下圖,並按下「TTS(Specified)」按鈕,發現挑選單元此 次選擇了較為自然的「個人」二字詞。於是,我們可以藉由此介面直接修改斷詞 結果,以避免錯誤的斷詞結果影響合成文句的自然度,甚至我們可以直接修改語 料庫搜尋結果輸出入方塊中的內容,來指定要由哪一個多字詞合成。
圖 4-2-3:利用手動修改斷詞結果的範例