結論與未來展望 - 正弦音長調整在網路語音封包播放時序之應用

5.1 結論

本篇論文對現今 VoIP 環境中所面臨到的問題：網路延遲、延遲顫動及封包漏失率，做了一些初步的介紹，並針對網路延遲特性

-Spike造成的原因做了說明，進而針對這些現象來改進語音通訊的品

質。當中提到的三種播放演算法皆為了改進網路顫動所造成通話品質的影響，由實驗結果中，可得到其中 NLMS 演算法最能適應網路的變動情形，並能最有效地使緩衝延遲及漏失率降低。

我們使用的語音封包音長比例調整方法，是採用正弦轉換編碼的方式來得到語音特徵參數，針對我們要的音長調整參數ρ來做適當的調整，使播放的語音能保持其連續性。也由於正弦轉換編碼的特性，

每個封包間的獨立關係，即使前後封包漏失，也不影響其播放的品質。由實驗結果可觀察到以諧波正弦來做音長比例調整下，並不會因為調整個別封包的長度而改變原有語音的特性。讓使用者在不察覺語音品質有所變化的情形下，利用音長調整降低其平均緩衝延遲及封包漏失率，使整體效能提高。

5.2 未來展望

在本論文提到的演算法中，是假設在每個封包都能順利被接收到的情形下，沒有考慮到因網路傳輸而漏失的情形。也就是說若之前的封包沒有被接收到，也就無法得知其網路延遲的情形，因此如何適度的改善演算法以面對這種情形，是一項值得未來發展的課題。

現今演算法在偵測spike 時，都是設定一個臨界值來判斷起始點，

而此臨界值的設定又受網路環境的影響很大，因此在臨界值的設定上也是另一門學問。而在第四章中也又簡單比較 spike 偵測機制的不同，但由於網路環境的影響太大，要如何客觀的比較每個 spike 偵測機制的好壞也是值得探討的地方。

在前人相關的演算法研究中，我們發現在網路延遲上，有的研究是以實際傳送封包而得到延遲數據，有的則是如本論文中以網路模型來得到延遲數據。前者的優點是採用實際的延遲數據，後者則是模擬的結果；但相對來講，前者的缺點則是每得到一組數據就需要花費大量的時間，而後者則可無限制的得到想要的數據。但無論是哪一種方式，都是屬於 off-line 的實驗結果，因此如何使整個演算法系統，包含音長比例調整機制，能實現在整個即時語音通訊上，是最主要的方向。

以上我們做的研究皆是針對 VoIP 來討論，而現在無線網路的普

及，而在無線網路上面臨的延遲及封包漏失的情形也有所不同，如何面對不同的網路情形而適當調整類似的演算法，也是另一個有趣且值得研究的發展方向。

參考文獻

[1] R. Ramjee, J. Kurose, D. Towsley, and H. Schulzrinne, “Adaptive playout mechanisms for packetized audio applications in wide area networks,” in Proc. IEEE Infocom Conf. Comp. Commun., vol. 2, (Toronto, Canada), pp. 680-688, June 1994.

[2] S. B. Moon, J. Kurose, and D. Towsley, “Packet audio playout delay adjustment: Performance bounds and algorithm,” ACM/Springer Multimedia Systems, vol. 5, pp. 17-28, Jan. 1998.

[3] Y. J. Liang, N. Färber, and B. Girod, “Adaptive playout scheduling and loss concealment for voice communications over IP networks,”

IEEE Trans. Multimedia, vol. 5, pp. 532-543, Dec.2003.

[4] P. DeLeon and C. Sreenan, “An adaptive predictor for media playout buffering,” in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, vol. 6, (Phoenix, AZ), pp. 3097-3100, Mar. 1999.

[5] A. Shallwani and P. Kabal, “An adaptive playout algorithm with delay spike detection for real-time VoIP,” in Proc. IEEE Canadian Conf.

Elec. Comp. Eng., (Montreal, Canada), May 2003.

[6] Y. J. Liang, N. Färber, and B. Girod^,”Adaptive playout scheduling using time-scale modification in packet voice communications,” in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP), vol. 3, Salt Lake City, UT, May 2001, pp. 1445-1448.

[7] F. Liang, J. Kim and C.-C. J. Kuo, “Adaptive delay concealment for Internet voice applications with packet-based time-scale modification,” in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP), pp. 1461-1464, 2001.

[8] C. A. Rødbro and S. H. Jensen, "Time-scaling of Sinusoids for Intelligent Jitter Buffer in Packet Based Telephony", 2002 IEEE Speech Coding Workshop Proceedings, October, 2002, pg. 71-73

[9] J.-C. Bolot, "Characterizing end-to-end packet delay and loss in the

Internet," J. High-Speed Networks, vol. 2, no. 3, pp. 289-298, Dec.

1993.

[10] J.-C. Bolot and A. Vega-Garcia,” The case for FEC-based error control for packet in the internet,” ACM Multimedia Systems, 1997.

[11] Lee, Chen-Long / Chang, Wen-Whei / Chiang, Yuan-Chuan (2004):

"Application of voice conversion to hearing-impaired Mandarin speech enhancement", In INTERSPEECH-2004, 1829-1832.

[12] 楊雅茹, 「聲韻轉換及其在中文口語訓練之應用」, 國立交通

大學碩士論文，民國九十二年。

在文檔中正弦音長調整在網路語音封包播放時序之應用 (頁 61-65)