實驗四：修改語料庫&人名、構詞規則所構出的詞，以較長的短詞取代

第五章語音辨認後處理之改良

5.4 實驗四：修改語料庫&人名、構詞規則所構出的詞，以較長的短詞取代

詞取代_辨識效能

表 5-5 實驗三-辨識結果

Deletion Substitution Insertion Accuracy Total count

word 辨識率 5.22% 24.54% 2.10% 68.13% 19182

character 辨識率 1.15% 21.15% 0.32% 77.36% 31412

syllable 辨識率 1.16% 12.46% 0.33% 86.03% 31412

從上述可知，把人名及構詞規則所構出的詞，使用較長subword 取代，使辨認率上升，詞和詞之間的不確定性降低，估算詞和詞之間的機率更加準確。長詞拆成較長的subword，可降低連續一字詞的辨認錯誤。由實驗三和實驗四比較，

實驗三是以較短的短詞取代，實驗四是以subword 取代，可知長詞以 subword 取代的辨識率有提升。實驗三和實驗四的比較結果，從下表格得知，辨識率都有上升的趨勢。

表 5-6 實驗三實驗四的辨識率比較

word accuracy character accuracy syllable accuracy

實驗三：辨識率 67.56% 77.04% 85.85%

實驗四：辨識率 68.13% 77.36% 86.03%

辨識率分別提升 0.57% 0.32% 0.18%

下表格以構詞規則所構出的詞來討論：

表 5-7 構詞規則所構的詞結果比較

Number of Word Number of Character

TCC300 測試語料_構詞規則所構出的詞 592 1,652

實驗二辨識結果_構詞規則所構出的詞 587 1,539

實驗三辨識結果_構詞規則所構出的詞 548 1,434

實驗四辨識結果_構詞規則所構出的詞 572 1,522

實驗三跟實驗四比較，實驗四多辨認出來 24 88

下表格以人名來討論：

表 5-8 人名結果比較

Number of Word Number of Character

TCC300 測試語料_人名 245 723

實驗二辨識結果_人名 93 268

實驗三辨識結果_人名 64 182

實驗四辨識結果_人名 106 308

實驗三跟實驗四比較，實驗四多辨認出來 42 126

由上兩表可知，把人名拆成姓和名，會增加詞和詞之間的可信度，不會因為一字詞的錯誤，造成前後詞的錯誤。構詞規則所構出的詞，也是同樣的道理，只是本階段的拆解是針對數字的部分，把數字拆解成subword。

實驗三 word 的辨識率，辨識出來的 word 是較沒意義的短詞。我們語音辨識的最終目標，是辨識結果有愈多有意義的長詞，所以我們把辨識答案跟較有意

義的長詞做辨認。結果如下表：

表 5-9 實驗四-辨識結果跟較有意義的長詞比較 Outside test：Total 18034 words

Deletion Substitution Insertion Accuracy 3.83% 28.64% 6.88% 60.64%

實驗一：原語料庫。

實驗二：原語料庫經修改、刪除。

實驗三：原語料庫經修改、刪除，並且把有意義的長詞(人名、構詞規則所構出的詞)用短詞取代。

實驗四：原語料庫經修改、刪除，並且把有意義的長詞(人名、構詞規則所構出的詞)用較長的短詞取代(subword)。

由於實驗三有意義的長詞被拆成較短的詞，實驗三word 的辨識率跟實驗二的辨識率比較，word 的辨識率下降 1.91%。針對結果是有意義的長詞做辨認，

當然 word 的辨識率也是下降的，而實驗四則把有意義的長詞，以較長的短詞 (subword)取代，實驗四 word 的辨識率跟實驗三的辨識率比較，提升了 0.57%，

由此可知，有意義的詞拆成較長的subword，有較好的辨識結果。

實驗四是針對數字的部分，把數字拆解成較長的subword，而人名則是拆成姓和名。若未來把有意義的詞(構詞規則所構的詞)，拆解的更好、更有意義，相信對辨識率會有可觀的提升。

第六章結論與展望

在文檔中中文連續語音辨認後處理之進一步研究 (頁 49-52)

實驗四：修改語料庫&人名、構詞規則所構出的詞，以較長的短詞取代

第五章 語音辨認後處理之改良

5.4 實驗四：修改語料庫&amp;人名、構詞規則所構出的詞，以較長的短詞取代

詞取代_辨識效能

第六章 結論與展望

第五章語音辨認後處理之改良

5.4 實驗四：修改語料庫&人名、構詞規則所構出的詞，以較長的短詞取代

第六章結論與展望