• 沒有找到結果。

實驗四:修改語料庫&人名、構詞規則所構出的詞,以較長的短詞取代

第五章 語音辨認後處理之改良

5.4 實驗四:修改語料庫&人名、構詞規則所構出的詞,以較長的短詞取代

詞取代_辨識效能

表 5-5 實驗三-辨識結果

Deletion Substitution Insertion Accuracy Total count

word 辨識率 5.22% 24.54% 2.10% 68.13% 19182

character 辨識率 1.15% 21.15% 0.32% 77.36% 31412

syllable 辨識率 1.16% 12.46% 0.33% 86.03% 31412

從上述可知,把人名及構詞規則所構出的詞,使用較長subword 取代,使辨 認率上升,詞和詞之間的不確定性降低,估算詞和詞之間的機率更加準確。長詞 拆成較長的subword,可降低連續一字詞的辨認錯誤。由實驗三和實驗四比較,

實驗三是以較短的短詞取代,實驗四是以subword 取代,可知長詞以 subword 取 代的辨識率有提升。實驗三和實驗四的比較結果,從下表格得知,辨識率都有上 升的趨勢。

40

表 5-6 實驗三實驗四的辨識率比較

word accuracy character accuracy syllable accuracy

實驗三:辨識率 67.56% 77.04% 85.85%

實驗四:辨識率 68.13% 77.36% 86.03%

辨識率分別提升 0.57% 0.32% 0.18%

下表格以構詞規則所構出的詞來討論:

表 5-7 構詞規則所構的詞結果比較

Number of Word Number of Character

TCC300 測試語料_構詞規則所構出的詞 592 1,652

實驗二辨識結果_構詞規則所構出的詞 587 1,539

實驗三辨識結果_構詞規則所構出的詞 548 1,434

實驗四辨識結果_構詞規則所構出的詞 572 1,522

實驗三跟實驗四比較,實驗四多辨認出來 24 88

下表格以人名來討論:

表 5-8 人名結果比較

Number of Word Number of Character

TCC300 測試語料_人名 245 723

實驗二辨識結果_人名 93 268

實驗三辨識結果_人名 64 182

實驗四辨識結果_人名 106 308

實驗三跟實驗四比較,實驗四多辨認出來 42 126

由上兩表可知,把人名拆成姓和名,會增加詞和詞之間的可信度,不會因為 一字詞的錯誤,造成前後詞的錯誤。構詞規則所構出的詞,也是同樣的道理,只 是本階段的拆解是針對數字的部分,把數字拆解成subword。

實驗三 word 的辨識率,辨識出來的 word 是較沒意義的短詞。我們語音辨 識的最終目標,是辨識結果有愈多有意義的長詞,所以我們把辨識答案跟較有意

41

義的長詞做辨認。結果如下表:

表 5-9 實驗四-辨識結果跟較有意義的長詞比較 Outside test:Total 18034 words

Deletion Substitution Insertion Accuracy 3.83% 28.64% 6.88% 60.64%

實驗一:原語料庫。

實驗二:原語料庫經修改、刪除。

實驗三:原語料庫經修改、刪除,並且把有意義的長詞(人名、構詞規則所構出 的詞)用短詞取代。

實驗四:原語料庫經修改、刪除,並且把有意義的長詞(人名、構詞規則所構出 的詞)用較長的短詞取代(subword)。

由於實驗三有意義的長詞被拆成較短的詞,實驗三word 的辨識率跟實驗二 的辨識率比較,word 的辨識率下降 1.91%。針對結果是有意義的長詞做辨認,

當然 word 的辨識率也是下降的,而實驗四則把有意義的長詞,以較長的短詞 (subword)取代,實驗四 word 的辨識率跟實驗三的辨識率比較,提升了 0.57%,

由此可知,有意義的詞拆成較長的subword,有較好的辨識結果。

實驗四是針對數字的部分,把數字拆解成較長的subword,而人名則是拆成 姓和名。若未來把有意義的詞(構詞規則所構的詞),拆解的更好、更有意義,相 信對辨識率會有可觀的提升。

42

第六章 結論與展望

相關文件