聽覺最佳化的適應性播放排程設計最佳化的適應性播放排程設計最佳化的適應性播放排程設計最佳化的適應性播放排程設計

第第

第三三三章三章章章聽覺

聽覺聽覺

聽覺最佳化的適應性播放排程設計最佳化的適應性播放排程設計最佳化的適應性播放排程設計最佳化的適應性播放排程設計

近年來，廣受歡迎的網路電話(VoIP)發展迅速，因為能讓使用者節省可觀的長途或國際電話費。但網路電話仍存在諸多問題，常見的問題為整體延遲(end-to-end delay)、延遲擾動(delay jitter)、封包漏失(packet loss)、以及回音(echo)等。聲音在網路上傳送通常是被切割成一個個封包，所以封包到達接收端時的延遲和漏失，被視為評估網路電話品質好壞的準則。在傳送端，語音信號會以固定的音框間隔依序來產生封包，並透過網際網路傳送到接收端。其網路延遲會取決於行走的路徑及該路徑上路由器(Router)的擁塞程度而有所不同，而這些網路延遲的差異即為延遲擾動。為降低延遲擾動在接收端的影響，接收封包在播放前會先被暫存在緩衝器一小段時間。嚴重晚到的封包，即封包在排定的播放時間後才到達，則被視為晚到漏失 (late loss)。藉由增加緩衝器延遲(buffer delay)，晚到漏失的封包將會減少，然而這將增加封包的整體延遲。針對這個議題，本章節的研究將結合第二章的音質預測模型，因應 MD 傳輸中的網路變動情形，來動態設計其適應性的播放排程機制。

3.1 3.1

3.1 3.1 播放緩衝器播放緩衝器播放緩衝器播放緩衝器

在網路語音傳輸系統中，傳送端以固定的音框間隔 T^p產生封包並經由網路傳送，而由於網路本身的特性，每個封包延遲並不會固定，

導致有些封包會在接收端預定的播放時間之後才到達。圖 3.1(a)說明了延遲擾動所造成的問題，在缺乏播放緩衝器的情形下，封包會在被接收到的同時隨即被播放出去，第一個封包抵達時間即為其開始播放時間，接下來的第 i 個封包將以和第一個封包的播放時間間隔 (i-1)T^p作為播放時間。然而，較大的網路延遲會造成晚到的封包(如圖中第四個封包)無法順利播出，導致部分的封包漏失而降低通話品質。加入播放緩衝器之後，封包抵達後將暫存於緩衝器一小段時間再播放，如圖 3.1(b)。此方法可大幅減少封包因晚到而漏失的機率，

但整體延遲將從原本的網路延遲擴大為網路延遲與緩衝延遲的總合。

T^p

[1st] [2nd] [3rd] [4th]

傳送端 time

接收端 time

播放 time

T^p T^p T^p

圖 3.1(a)未加入緩衝延遲

T^p

[1st] [2nd] [3rd] [4th]

傳送端 time

接收端 time

播放 time network buffer T^p T^p T^p

delay delay

圖 3.1(b)引入緩衝延遲(buffer delay)機制

圖 3.1 播放緩衝器的影響

因此如何在封包漏失及播放延遲之間取得平衡點，進而設計一個能因應網路時變特性的播放排程機制，是網路語音傳輸系統中一項重要的議題。針對播放排程的問題，近年來已有學者提出聽覺最佳化的原則，針對每個封包調整播放延遲(per-packet adjustment)[17]，

亦即每個封包的播放延遲相異。問題是這種基於封包調整的播放排程機制雖可迅速因應網路延遲的動態擾動，卻衍生更棘手的不連續播放問題。假如當第 i 個封包的播放延遲大於或小於第 i+1 個封包播放延遲時，則將會造成聲音在播放時突然產生空白或扭曲。為了解決此封包播放不連續的問題，常見的做法是在接收端引入音長調整 (Time-Scaling)[18]。而其機制主要是針對個別封包對應的播放延遲來調整其封包長度，透過拉長或縮小封包長度，來填補封包間的時間

空格或避免兩兩封包播放時間相互衝突(例如當要播放第 i+1 個封包時，而第 i 個封包卻還沒完成播放)。雖然這可解決播放不連續的問題，但是顯然地，封包長度的拉長或縮短將造成聲音突然加速或是減慢的情況。縱使如此靈敏的播放調整機制可大幅降低封包晚到的漏失比例，但是過度的音長調整仍有可能造成音質降低甚至無法辨認。

有別於上述基於封包的調整機制，另一種作法是在相鄰話務間調整其靜音 (silence) 區段時間的播放排程機制 (per-talkspurt adjustment)[15] 。在語音通話中，一段聲音的傳輸包括了話務 (talkspurt)及靜音。以「No, they could kill him just as easy right now. 」為例，這段話包含 10 個話務，每個話務本身是由數個甚至數十個封包所組成，其餘的則為 silence。調整播放延遲的做法就是在每個話務開始之前，一次決定其所屬封包的播放延遲。因此當設定完播放延遲後，每段話務裡的所有封包其播放延遲皆相同，也就是當接收端在播放此話務時，每個封包將依序播放出來。相較於每個封包長度的調整機制，基於話務的調整機制確實不能及時反應網路延遲情況，但是這種退而求次的方法，至少避免掉使用音長調整而造成額外的音質損害。

本論文探討主題是在每段話務之間調整其播放延遲，雖然降低封包晚到漏失的比例不如封包調整機制。但由於我們是著重於 MD 傳輸

系統之下，設計適應性播放排程演算法以調整話務之間靜音區段的長

在文檔中整合前向錯誤控制於多重敘述語音播放排程設計之研究 (頁 42-47)

聽覺最佳化的適應性播放排程設計 最佳化的適應性播放排程設計 最佳化的適應性播放排程設計 最佳化的適應性播放排程設計

第 第

第三 三 三章 三 章 章 章 聽覺

聽覺 聽覺

聽覺最佳化的適應性播放排程設計 最佳化的適應性播放排程設計 最佳化的適應性播放排程設計 最佳化的適應性播放排程設計

3.1 3.1

3.1 3.1 播放緩衝器 播放緩衝器 播放緩衝器 播放緩衝器

聽覺最佳化的適應性播放排程設計最佳化的適應性播放排程設計最佳化的適應性播放排程設計最佳化的適應性播放排程設計

第第

第三三三章三章章章聽覺

聽覺聽覺

聽覺最佳化的適應性播放排程設計最佳化的適應性播放排程設計最佳化的適應性播放排程設計最佳化的適應性播放排程設計

3.1 3.1 播放緩衝器播放緩衝器播放緩衝器播放緩衝器