• 沒有找到結果。

利用潛在語言空間模型及增量貝氏資訊準則於語言轉換偵測

N/A
N/A
Protected

Academic year: 2022

Share "利用潛在語言空間模型及增量貝氏資訊準則於語言轉換偵測"

Copied!
2
0
0

加載中.... (立即查看全文)

全文

(1)

成大研發快訊 - 文摘

1 of 2

成大研發快訊 第三十卷 第三期 - 2016年三月四日

[ http://research.ncku.edu.tw/re/articles/c/20160304/4.html ]

利用潛在語言空間模型及增量貝氏資訊準則於語言轉換 偵測

吳宗憲*、沈涵平、許純珊

國立成功大學資訊工程學系 [email protected]

IEEE/ACM Trans. Audio, Speech, and Language Processing, Vol. 22, No. 10, October 2014, pp.1558- 1570.

研究提出了一基於潛在語言空間模型和增量貝氏資訊準則於語言轉換偵測。在

所提出的方法中,首先計算出每個狀態音段中聲學特徵和發音參數之機率,並且通過 使用主成分分析將其轉換為在特徵空間的主成分(特徵向量)。通過潛在語義分析建 造一個矩陣來模擬在特徵徵空間中每個語言單元音的發音參數和各主成分的重要性。

將主成分分析轉化的特徵值表示的單元音(或發音參數)之間的空間關係用來建構一 個潛在語言空間模型來表示語言特性。基於這種概念,在檢測階段,一個輸入語音經 識別後的單元音的聲學特徵(或發音參數)可表示為主成分分析轉化到特徵空間所形

成的單元音(或發音參數)所表示的子潛語言空間模型。我們可將每個輸入語音的潛語言空間模型與目標 語言的潛語言空間模型做比較。此外,對於語言轉換檢測,增量貝氏資訊準則用於估計兩個連續視窗之間 的差異的分割能力表現出令人滿意之結果。因此增量貝氏資訊準則被採用來計算在輸入語音中語言的每個 潛在的變化點。為了避免在所有的變化的點的窮盡搜索,從自動語音識別器識別出的單音邊界被視為潛在 的語言變化點。最後,利用動態規劃算法確定基於從潛在語言空間模型和增量貝氏資訊準則估計的相似的 最可能的語言序列。圖1示出所提出的語言轉換的系統框架。

(2)

成大研發快訊 - 文摘

2 of 2

圖一 系統架構圖

為了進行評估, 以支持向量機、 高斯混合模型及人工神經網絡為基礎的方法進行了比較。這些方法被用 於將輸入語音標記化到語言序列。圖2表示所有利用這些方法所獲得的結果。評量結果顯示,所提出的方 法在精確度,召回率及調和平均和語音長度方面均優於其他三種方法。

圖二 所提方法與支持向量機、 高斯混合模型及人工神經網絡為基礎的方法之效能比較

參考文獻:

[1] H. Y. Su, “Code-switching between Mandarin and Taiwanese in three telephone conversation: The negotiation of interpersonal relationships among bilingual speakers in Taiwan,” in Proc. The Symposium about Language and Society, Apr 2001.

[2] C. Chen, “Two types of code-switching in Taiwan,” in Proc. Sociolinguistics Symposium 15 (SS15), Newcastle upon Tyne, United Kingdom., Apr 2004.

[3] H. Halmari, Government and Code-Switching: Explaining American Finnish. Amsterdam: John Benjamins, 1997.

[4] J. Weiner, N. T. Vu, D. Telaar, F. Metze, T. Schultz, D.-C. Lyu, E.-S. Chng and H. Li, “Integration Of Language Identification Into A Recognition System For Spoken Conversations Containing Code-Switches,” in Proceedings of The third International Workshop on Spoken Languages Technologies for Under-resourced Languages (SLTU'12), 2012.

[5] A. Hanani, “Human and Computer Recognition of Region Accents and Ethnic Groups from British Speech,”

PhD Thesis, The University of Birmingham, March 2012.

[6] C.-H. Wu and C.-H. Hsieh, “Multiple change-point audio segmentation and classification using an MDL-based Gaussian model,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 2, pp. 647–657, Mar 2006.

[7] C.-H. Wu, H.-P. Shen and Y.-T. Yang, “Chinese-English Phone Set Construction for Code-Switching ASR Using Acoustic and DNN-Extracted Articulatory Features,” IEEE/ACM Trans. Audio, Speech, and Language Processing, Vol. 22, No. 4, April 2014, pp. 858-862.

參考文獻

相關文件

畫分語言範疇(language categories),分析學者由於對語言的研究,發現

請聽到鈴(鐘)聲響後再翻頁作答.. Chomsky)將人類語言分成兩種層次,一是人類普遍存在的潛 力,一是在環境中學習的語言能力。他認為幼兒有語言獲得機制( Language Acquisition Device 簡稱

¾ 80% of teachers think that the students can do reflection after each lesson through the spoken words or written words.. 策略/工作 時間表 成功準則 評估方法

✓learning contextualized word embeddings specifically for spoken language. ✓achieves better performance on spoken language

Gershman, "Leveraging Behavioral Patterns of Mobile Applications for Personalized Spoken Language Understanding," in Proc.. ▪ Task: user

A dual coordinate descent method for large-scale linear SVM. In Proceedings of the Twenty Fifth International Conference on Machine Learning

Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and

[3] Haosong Gou, Hyo-cheol Jeong, and Younghwan Yoo, “A Bit collision detection based Query Tree protocol for anti-collision in RFID system,” Proceedings of the IEEE