• 沒有找到結果。

第六章 結論與未來展望

6.2 未來展望

由於目前具有的老人語音資料庫只有三萬多個音節數,導致分析出來的結果之 可靠性不足,希望未來在擴充語料量之後,可以對上述的結果進行更詳盡的分析;

討。

論文中採用的VTLN方法為piecewise warping,由於目前老人聲道長度對語音特 性改變之相關研究,仍無法明確指出老人語音特性具有何種變化規則,而VTLN有 另一種方法為bilinear warping,未來可以試著由bilinear warping來得到更符合老人語 音特性的warping curve。

參考文獻 參考文獻 參考文獻 參考文獻

【1】吳光明,”呼吸氣流對發音特徵與模型影響之研究”,台灣科技大學,中華民國 九十四年七月

【2】P.B. Denes and E.N. Pinson,"The Speech Chain", 1993, W.H. Freeman New York, p.5

【3】http--www.telecom.tuc.gr-~ntsourak-tutorial_acoustic.htm

【4】An Xue, Jack Jiang, Emily Lin and Peter B. Mueller,"Age-related changes in human vocal tract configurations and the effects on speakers' vowel formant frequencies: a pilot study",Ohio University, Athens, OH, Northwestern University Medical School, Chicago, IL, Kent State University, Kent OH, USA,Log Phon Vocol 1998; 24:

132–137

【5】Linville SE, Fisher HB. "Acoustic characteristics of women’s voices with advancing age." J Gerontol 1985; 40:324–30.

【6】Rastatter MP, Jacques RD. "Formant frequency structure of the aging male and female vocal tract." Folia Phoniatr 1990; 42: 312–9.

【7】Association for Computational Linguistics and Chinese Language Processing Institute of Information Science, Academia Sinica,"MAT-2000" and "MAT-2500"

【8】Heidi Christensen, Ove Andersen, Borge Lindberg, "Speaker Adaptation of Hidden Markov Models using Maximum Likelihood Linear Regression" Aalborg University, 1996

【9】Steve Young, Gunnar Evermann, Mark Gales, etc. "The HTK Book (for HTK Version 3.4)", Cambridge University Engineering Department, 2001-2006

【10】梁振豊,"台語語音辨識及智慧型口語對話汽車導航系統",國立交通大學,

中華民國九十五年八月

【11】張隆勳,"國語廣播新聞語音基本系統之建立",國立交通大學,中華民國九 十四年六月

【12】Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, "Spoken Language Processing, A guide to Theory,Algorithm, and System Development," Prentice-Hall, Inc.

【13】王小川,"語音訊號處理",全華科技圖書,中華民國九十三年

【14】陳克巽,"非監督式快速語者調適演算法研究",國立中央大學,中華民國八 十九年六月

【15】X. Huang and K.F. Lee, "On Speaker-Independent, Speaker-Dependent, and Speaker-Adaptive Speech Recognition." IEEE Trans. on Speech and Audio Proc., Vol. 12, pp. 150–157, April 1993

【16】Puming Zhan and Alex Waibel, "Vocal Tract Length Normalization for Large Vocabulary Continuous Speech Recognition", CMU-CS-97-148, May 1997

附錄一

年紀 腔調 偶發的背景音 錄音品質 # of filler # of noise # of b.s.n 錄音 環境

m008 66 台灣國語 一般 室內

m009 62 台灣國語 優良 4 1 室內

m010 71 一般國語 優良 2 1 室內

m011 66 一般國語 優良 1 室內

m012 63 一般國語 人聲 一般 室內

m013 67 一般國語 人聲 一般 3 室內

m014 68 台灣國語 一般 3 8 室內

m015 63 一般國語 優良 室內

m016 60 一般國語 優良 2 室內

m017 78 外省腔調國語 鳥叫聲 一般 3 3 室外

m018 78 一般國語 鳥叫聲 一般 1 14 室外

m019 66 台灣國語 鳥叫聲 低劣 6 3 室外

m020 71 一般國語 優良 室內

m021 81 外省腔調國語 優良 3 室內

m022 67 台灣國語 優良 5 室內

m023 63 台灣國語 優良 1 室內

m024 67 一般國語 優良 1 3 室內

m025 80 一般國語 車聲、鳥叫聲 低劣 6 室外

m026 60 一般國語 車聲 一般 室外

m027 70 台灣國語 人聲、鳥叫聲 一般 室外

m028 71 台灣國語 優良 6 22 1 室內

m029 76 外省腔調國語 人聲 一般 1 5 室內

m030 73 一般國語 人聲 低劣 5 1 室外

m031 67 一般國語 人聲 一般 6 13 5 室外

m032 65 台灣國語 優良 10 6 室內

m033 81 外省腔調國語 優良 室內

m034 64 台灣國語 優良 室內

m035 74 一般國語 人聲 一般 2 9 室內

註解:錄音品質的區分是根據整體的背景雜訊而定,低劣的錄音品質中可能包含了 大量的 noise、background speaker noise(b.s.n.),但由於這些雜訊過多,所以不將這 些雜訊額外統計於倒數第二與第三欄中。

附錄二

# Waveform parameters SOURCEFORMAT=ALIEN HEADERSIZE=4096 SOURCERATE=625.0

# Coding parameters TARGETKIND=MFCC_E

# MFCC parameters SOURCEFORMAT=HTK

#new variable can replace the varFloor VARFLOORPERCANTILE = 20 Configuration of Feature Extraction Configuration of Training

附錄三 附錄三 附錄三

附錄三 修改過後的 修改過後的 修改過後的 phone table 修改過後的

音碼 注音 漢語拼音 子音拼音 母音拼音

64 ㄝ ㄝ ㄝ ㄝ eh INULL_e eh

102 ㄘㄡ ㄘㄡ ㄘㄡ ㄘㄡ cou c_o ou

103 ㄙㄡ ㄙㄡ ㄙㄡ ㄙㄡ sou s_o ou

109 ㄋㄡ ㄋㄡ ㄋㄡ ㄋㄡ nou n_o ou

408 ㄧㄛ ㄧㄛ ㄧㄛ ㄧㄛ yo INULL_y yo

412 各種語言現象各種語言現象 各種語言現象各種語言現象 filler filler

註解:此附錄在一般常見的 411 音碼表(省略)中增加(黑粗體字)了 filler,並且刪除(灰 階斜體字)了具有 c_o, n_o, s_o, eh, yo 這五個 sub-syllable 的 syllable,因此老人語音 辨識器所使用的 syllable 為 406 個。

附錄四

speaker warping

factor f002 0.9 -30154.06 -29899.16 254.9052 0.9 -28681.6 -27066.63 1614.97 f003 0.9 -31776.64 -31434.58 342.0534 0.9 -28742.39 -27564.77 1177.617 f004 0.92 -26616.6 -26395.48 221.1223 0.92 -23625.99 -23383.04 242.9419 f005 0.95 -32390.39 -32338.21 52.17372 0.95 -28385.98 -27832.12 553.8558 f006 0.94 -32751.5 -32499.23 252.263 0.94 -29532.24 -28603.47 928.7704 f007 0.95 -33504.35 -33400.81 103.5351 0.94 -30361.2 -29340.02 1021.187 f008 0.95 -30206.3 -30130.29 76.01388 0.94 -26989.47 -26103.79 885.6781 f009 0.9 -32459.61 -31223.97 1235.639 0.9 -30033.24 -28620.26 1412.983 f010 0.94 -30073.81 -29881.23 192.587 0.95 -27194.23 -26498.21 696.0112 f011 0.9 -29145.6 -29037.56 108.044 0.9 -27418.07 -26031.04 1387.031 f012 0.94 -29110.73 -29012.34 98.38758 0.94 -26341.85 -25675.24 666.6157 f013 0.95 -27838.19 -27716.45 121.7349 0.94 -25407.8 -24723.66 684.1453 f015 0.94 -26914.12 -26767.53 146.5967 0.94 -24578.74 -23794.87 783.8749 f016 0.9 -31865.48 -31549.09 316.39 0.9 -30255.18 -27967.82 2287.356 f017 0.9 -28126.4 -28055.74 70.65582 0.9 -26077.99 -24749.91 1328.078 f018 0.95 -30211.18 -30131.94 79.23372 0.94 -27066.87 -26221.54 845.3296 f019 0.9 -32506.01 -32197.88 308.1324 0.9 -29828.26 -28169.08 1659.174 m001 1.02 -30938.94 -30907.97 30.96549 1.02 -27429.66 -27301.8 127.8671 m004 1.18 -32195.57 -31649.98 545.5945 1.02 -27333.27 -26996.24 337.0355 m005 1.04 -32466.78 -32445.43 21.34227 1.04 -28970.13 -28611.63 358.5053 m006 1.02 -27738.07 -27689.11 48.95851 1.02 -24790.83 -24691.11 99.72026 m007 0.94 -28339.52 -28241.11 98.41373 0.94 -26142.73 -25653.25 489.4796 m008 1.02 -36161.63 -36120.36 41.26611 1.02 -32744.29 -32617.65 126.6381 m009 1.02 -34482.81 -34429.34 53.46401 1.02 -30354.58 -30156.17 198.4119 m010 0.99 -24541.36 -24538.19 3.169024 0.99 -22122.08 -22120.87 1.211983 m011 1.05 -29728.04 -29694.7 33.33838 1.05 -27303.37 -26828.2 475.1746

1st VTLN 2nd VTLN speaker warping

factor m013 1.12 -35976.37 -35031.02 945.3471 1.12 -33749.46 -31509.36 2240.104 m014 0.99 -31061.39 -31057.73 3.659202 0.99 -28849.81 -28836.53 13.28258 m015 0.96 -34863.58 -34678.58 185.001 0.96 -31553.79 -31147.57 406.2244 m016 1.08 -30635.69 -30290.5 345.19 1.08 -28798.68 -27439.96 1358.72 m017 1.05 -35736.41 -35489.07 247.3386 1.05 -31339.87 -30646.69 693.1862 m018 0.96 -24672.65 -24640.79 31.86196 0.96 -21748.02 -21531.32 216.7003 m019 1.06 -32293.58 -32153.92 139.6659 1.06 -28683.81 -28112.53 571.2827 m020 1.02 -33346.36 -33316.59 29.77238 1.02 -29230.89 -29134.91 95.98081 m021 1.08 -35538.34 -35166.61 371.7323 1.08 -31060.73 -29904.81 1155.919 m022 1.02 -31516.72 -31483.43 33.28325 1.02 -27830.47 -27708.47 122.0026 m023 1.01 -37135.5 -37121.42 14.08222 1.01 -32209.7 -32128.78 80.91806 m024 1.01 -32521.4 -32467.41 53.99497 1.02 -28206.64 -27958.37 248.2781 m025 0.96 -27125.52 -27108.39 17.13185 0.96 -23583.32 -23319.21 264.1079 m026 1.05 -28807.6 -28753.31 54.2909 1.05 -26363.7 -25769.62 594.0773 m027 1.05 -26551.16 -26409.58 141.5769 1.05 -23230.69 -22894.77 335.9277 m028 1.08 -28480.22 -28283.07 197.15 1.08 -25696.33 -24821.27 875.0649 m029 1.08 -27930.47 -27664.8 265.6737 1.08 -24482.17 -23577.07 905.1042 m030 1.14 -21878.47 -21673.71 204.7597 1.14 -19787.72 -18837.12 950.6068 m031 1.12 -32763.54 -32383.5 380.0494 1.12 -30393.19 -28343.35 2049.85 m032 1.05 -27954.03 -27900.99 53.03667 1.05 -24348.33 -23922.26 426.0686 m033 1.18 -30348.82 -30044.09 304.7296 1 -26505.12 -26505.12 0 m034 1.1 -29388.86 -29005.19 383.6699 1.1 -27090.02 -26019.96 1070.066 m035 1.06 -31927.26 -31627.58 299.6789 1.06 -28682.63 -27854.2 828.428

註解:當中的1st VTLN為使用老人訓練語料對TCC-300 acoustic model進行force alignment 所 計 算 出 來 的 likelihood 與 warping factor , 而 2nd VTLN 是 對 ( 第 一 次 VTLN+MLLR調適所產生出來的)新聲學模型進行force alignment,進而計算出上列 數值。

相關文件