系統效能評估

第四章系統設定與系統效能評估

4.2 系統效能評估

4.2.1 系統執行時所使用之記憶體大小

而本系統所使用到的各式資料，其檔案大小列於下表中。

表 4-2-1：合成系統各項資料列表

名稱用途 檔案大小

合成語料庫語料庫音檔 1,045MB

音節位置表格記載音檔之音節位置資訊 1,762KB

多字詞字元位置表格記載多字詞之文章位置 2,764KB

單字詞字元位置表格記載單字詞之文章位置 209KB

音調音節位置表格記載同音字之文章位置 1,479KB

前詞綴表格記載前詞綴之文章位置 3KB

後詞綴表格記載後詞綴之文章位置 13KB

音節韻律訊息表格記載各音節之韻律訊息 2,639KB

音節邊緣能量表格記載各音節之邊緣平均能量 3,515KB

中文姓氏表格記載中文姓氏之文章位置 6KB

音節相關前後文係數表格記載各音節之前後文係數 4,391KB 411 音節子母音分類表記載411 音節子母音分類 4KB

總大小 1,062MB

以上所列為架設系統所需之記憶體，至於系統實際執行時所佔用的記憶體，

系統初始化時為59MB，實際運作時所佔用之記憶體隨合成文句長度與搜尋結果之大小而變化，合成文句越長與搜尋結果越多則所佔用之記憶體越大。

4.2.2 合成目標句系統所需之時間

在一開始架構此語音合成系統之時，我們採用將所有輸入文句合成後，才播放給使用者的方式。然而由於以語料庫為基礎之合成系統的執行速度不如以往以少量語料庫配合PSOLA 合成技術之系統快速，如此的作法會讓使用者的等待時間過久。於是我們改用一邊合成一邊播放的方式來減少使用者的等待時間，大致而言，每合成完一句目標句就立刻播放此句，利用播放此句的時間，系統同時合成下一句，一篇文章之合成過程如下圖所示。

圖 4-2-1：多句目標句之合成流程示意圖

4.2.3 圖形化使用者輸出入介面

在本文中提出的語音合成系統，其輸入為BIG5 形式的中文字，而回應系統使用者的語音輸出則為使用音效設備播放取樣率16 kHz 之 PCM 音檔，使用者使用系統時所看到的介面如下圖所示。介面上共有四個輸出入方塊與三個按鈕，上方的方塊為「合成內容輸入方塊」，使用者可在此輸入欲合成的文句，假設在此輸入「認為有個人資料可能遭到誤用，」。按下下方中間的「TTS」按鈕，系統即會以合成內容輸入方塊內之內容來合成，並將合成波形播放。下方有三塊輸出入方塊，最左邊為「文字分析器輸出入方塊」，每當系統合成一段文句，此方塊就會顯示此文句之文字分析結果，使用者也可直接由此方塊修改文字分析結果來改變合成的聲音。下方中間的方塊為「語料庫搜尋結果輸出入方塊」，每當系統合成一段文句，此方塊就會顯示此文句在語料庫中搜尋到的多字詞清單，同樣，

使用者也可直接由此方塊修改語料庫搜尋結果來改變合成的聲音。下方最右邊的方塊為「挑選結果輸出方塊」，每當系統合成一段文句，此方塊就會顯示此合成波形的組成（以空行分隔不同的合成單元）與實際挑選及預測的合成單元之韻律訊息，排列訊息依序為「（實際合成單元音節長/預測目標句音節長 | 實際合成單元能量/預測目標句能量 | 實際合成單元平均基頻/預測目標句平均基頻 | 合成單元位於語料庫中之句編號合成單元位於語料庫中之字元編號）」。

圖 4-2-2：合成系統之使用者介面外觀

由於當初發展系統時，希望能方便地觀察文字分析結果與多字詞搜尋結果對輸出波形的影響，我們設計了可由指定的斷詞結果與多字詞搜尋結果來合成的方式，「TTS(Specified)」按鈕即是此種合成方式。當按下「TTS(Specified)」按鈕，

系統會以目前「文字分析器輸出入方塊」與「語料庫搜尋結果輸出入方塊」的內容來合成波形，也就是說，只要我們修改此兩方塊之內容，即可依照使用者的意思合成音檔。在一些情況下，文字分析器未能正確依照文句意義斷詞，如上圖中，

斷詞結果為「認為 | 有個人 | 資料 | 可能 | 遭到 | 誤用」，其中「 | 」代表詞

邊界，所以挑選單元選擇了一個三字詞「有個人」。然而實際上輸入文句中並沒有「有個人」的意思，我們手動更改斷詞結果為「認為 | 有 | 個人 | 資料 | 可能 | 遭到 | 誤用」，如下圖，並按下「TTS(Specified)」按鈕，發現挑選單元此次選擇了較為自然的「個人」二字詞。於是，我們可以藉由此介面直接修改斷詞結果，以避免錯誤的斷詞結果影響合成文句的自然度，甚至我們可以直接修改語料庫搜尋結果輸出入方塊中的內容，來指定要由哪一個多字詞合成。

圖 4-2-3：利用手動修改斷詞結果的範例

在文檔中以語料庫為基礎之中文文句翻語音系統實現 (頁 67-72)

第四章 系統設定與系統效能評估

4.2 系統效能評估

第四章系統設定與系統效能評估