緒論 - 正弦音長調整在網路語音封包播放時序之應用

網路的時代已經來臨，網際網路的快速發展，將資訊交流推向另一個高峰。以往網路的應用只限於網路資料的查詢，以及一些網路資料傳送，而傳送的資料所重視的是可否能完整傳送到接收端，而不需考慮資料何時傳送到接收端。但是隨著網路快速的發展與研究，在網路上傳送即時(Real-time)的多媒體資料將是一個發展重點，其中更以語音為發展重點。語音(Voice)資料大小遠比影像(Video)資料來的小，應用到網際網路上更能減低資料在網路上的延遲(Delay)，相較之下，在網路上傳送語音比影像更能達到即時的效果。

多媒體資料在有即時性的考慮下，就不能單單考慮資料能否完整的傳送到接收端，還要考慮資料是否能在限定的時間內到達接收端。

如果資料在預定播放的時間之後才到達的話，則視為無用的資料。

VoIP(Voice over IP)就是在網際網路上利用這樣的即時觀念而發展出來的。

VoIP 顧名思義就是利用網際網路來即時的傳送語音資料，由於目前長途電話或國際電話的費用仍然非常的昂貴，所以一些業者就利用免費的網際網路來提供長途或國際電話服務，因為它只需要付給當地電信業者(ISP)一些上網線路費用，與長途或國際電話無關。所以費

用比傳統電話(Public Switched Telephone Network, PSTN)費用便宜很多，並提供傳統電話所不能提供的加值服務(如傳送文件、顯示通話端的影像等等)。因此近年來 VoIP 以成為許多公司及學校努力發展的重點技術，而其成效也日益成熟。

1.1 研究動機與方向

在網路網路上，通常在語音即時通訊上最主要關心的課題就是服務品質(Quality of service, QoS)的問題。然而現今網際網路的不可靠及不定性，導致封包網路傳輸的延遲(delay)不固定甚至會有漏失 (loss)的情形，嚴重影響服務品質。傳輸延遲、延遲顫動(delay jitter)，

及漏失這三項因素是現今即時語音通訊中所面臨最主要的課題。在通訊架構中各不同的層級皆嘗試做大量的改進以期能使延遲降低、顫動更平穩且回復漏失的封包。

一個具體可行的方式為在接收端的應用層(application layer)中控制每個語音封包的播放時間(playout time)。在語音封包播放前，先暫存在一播放緩衝器(playout buffer)中以吸收延遲顫動的影響。當使用這個技巧，語音封包在接收後並不會立即被播放出去，而是會被暫存在緩衝器中直到排定的播放時間為止。雖然這種方式會導致早到封包的額外延遲，但也使得晚到封包被順利播放的機率提高了。因此，語

音封包在緩衝器暫存的時間(buffering delay)及因為晚到而被視為漏失的比率(late loss rate)之間，面臨了一個權衡取捨的問題。若排定一個較晚的播放時間，將會提高更多封包播放的機率而得到較低的封包漏失率，但這就會導致有較高的緩衝延遲；反之亦然，要減少緩衝延遲，很難在不增加漏失率下達到。通常在一般的語音對話中，語音封包從傳送端產生至接收端播放出來的延遲在 400ms 內及漏失率最高到 5%之內是可被容忍的。

在本論文中，我們介紹三種不同的播放時序演算法 (playout scheduling algorithm)，其中兩種是對每個獨立的封包都做播放時間的調整，以適應網路在話務(talkspurt)中間變動的情形。為了保持語音播放的連續性，必須配合使用一種音長比例調整 (time-scale modification)的技術，可以明顯的降低延遲及漏失率進而增加整體的效能。

1.2 章節概要

第二章介紹三種不同的播放緩衝時序演算法，第三章則介紹利用諧波正弦(sinusoidal)語音轉換機制來做音長比例的調整，第四章則先介紹一種網路延遲模型，並進而客觀比較三種演算法的效能分析和主觀比較聽覺品質上的差異。

在文檔中正弦音長調整在網路語音封包播放時序之應用 (頁 10-13)