服務品質參數的估算

第二章網路品質量測平台

2.3 服務品質參數的估算

當 VoIP 封包經由此量測系統傳送，其相對應的 interarrival 時間會紀錄於傳送端與接收端終端機中。本節將描述如何利用在傳送接收兩端所蒐集之資料檔案來估測封包漏失與時間延遲擾動等品質評估參數。

在上一節中，經由 Sniffer 軟體分別在傳送端與接收端所蒐集的記錄檔案皆含有每個封包的識別碼(ID number)以及 interarrival 時間等資訊。若整個實驗環境時脈一致，則時間延遲擾動可以非常容易利用上述資訊計算獲得。然而，實驗所使用的兩組量測用電腦有十分穩定卻不一致的時脈，特別是如果它們為一般個人電腦。實驗顯示這些電腦間的差別量測所發生的一點點改變，但是卻會在絕對計時上顯現出很大的差距。而由於此一測量系統是判定一個封包到達所需花費的時間，每次累加的 interarrival 時間必須反映正確的絕對計時。舉例而言，一測量顯示時脈差別為 0.138 毫秒/秒(ms/s)，這表示三十秒的語音之後，量測結果將會有高達 4.14 毫秒的誤差，因此如何克服此一問題是很重要的。幸運的是，此一類型的誤差十分線性而且穩定，因此不論是否為傳送序列的第一個或是最後一個封包，都可以去除此種誤差所造成的影響並使得最後每個封包量測的準確度在 50 微秒

(microsecond)之內。圖 2.2 表示所採用有效去除誤差的品質評估參數估測演算法流程圖。

TX Delta File

RX Delta File

Sort Interarival Sequence and Detect Lost

Packets

Integrate and subtract

Record Lost Packet Times

Estimate and Compensate Clock Error

Produce Delay Jitter Plot and Histogram

圖 2.2 品質參數估算流程圖

其詳細演算過程描述如下：

1. 首先此一演算法分別累加接收與傳送的 interarrival 表內的 interarrival 時間以獲得每個封包相對於接收/傳送第一個封包的累加時間。

2. 接著利用接收資訊中的識別碼(利用 16 位元片段識別碼計數器產生)，即可將接收封包與其相對應的累加時間依正確順序排列。然後在將每個傳送序列識別碼與排序完成的接收序列識別碼進行比對，依此方法找出的漏失封包及其對應的傳送時間資訊則轉移到另外一個獨立的檔案列表中。

3. 再將已排除漏失封包的傳送端與接收端之封包序列識別碼重新查

驗，以確保兩端資訊對應正確。若發生識別碼不匹配的狀況則表示有不正確的資料存在。

4. 將重新排序的傳送與接收序列之累加 interarrival 時間相減，獲得累加相差時間，再利用其與累加封包數目的近似線性關係進行線性逼近(linear regression)，所求得的斜率再除以平均接收封包 interarrival 時間即為平均估測延遲與誤差時間在接收封包 interarrival 時間所佔的比例。

5. 最後將每個接收封包的 interarrival 時間先扣除平均估測延遲與誤差時間所佔的部分，再減去對應傳送封包的 interarrival 時間即可獲得每個封包的時間延遲擾動。而由於整個封包延遲時間串是相關於第一個封包從傳送端到接收端傳送的時間長短，因此有些數值可能會出現負值。但是封包不可能在開始傳送之前到達—此延遲必須大於零。因此最後的時間延遲擾動數值串需至少往上平移到使其最小值為零。

此外，將於圖 2.3 舉一實例詳細說明此演算法計算過程，我們可以發現，若不針對時脈誤差進行修正，傳統演算法所估測的延遲擾動皆會受到時脈誤差干擾，無法獲得準確的品質評估參數。

圖 2.3 演算法計算過程詳細說明實例 2.4 系統模擬與討論

接著，以乙太網路(Ethernet)環境進行量測，考慮三種不同的傳輸狀況，分別敘述如下：

狀況一：傳送端與接收端皆位於交通大學光復校區工程四館 812A 實驗室，使用配備相同的測量用電腦(Pentium IV 2.4GHz)。

狀況二：傳送端與接收端皆位於交通大學工程四館 812A 實驗室，但使用配備不同的測量用電腦(傳送端為 Pentium II 350MHz，接收端為 Pentium IV 2.4GHz)。

狀況三：傳送端位於交通大學博愛校區宿舍網路，接收端位於交通大學工程四館 812A 室，使用配備相同的測量用電腦 (Pentium IV 2.4GHz)。

圖 2.4、2.5 以及 2.6 分別為狀況一、二以及三的測量數據與時間延遲擾動曲線圖。由圖 2.5 的累加相差時間曲線圖可以發現，狀況二的曲線斜率較大，雖然網路傳輸環境相同，但配備不同的電腦所造成的延遲與時脈誤差較大所造成的。而由圖 2.6 的累加相差時間曲線圖可以看出，其曲線斜率非常小，這是因為狀況三的封包傳輸是不同建築物

間的長距離傳輸，傳輸時間差所造成的影響會比延遲與時脈誤差影響為大。另外，在時間延遲擾動曲線時間圖中，也可以發現長距離的傳輸時間延遲擾動的變化較短距離為劇烈。狀況一與二的傳輸距離較短，封包傳送時間也較為穩定，因此累加相差時間主要是受延遲與時脈誤差影響所造成的。

圖 2.4 狀況一之測量數據與延遲擾動曲線圖

圖 2.5 狀況二之測量數據與延遲擾動曲線圖

圖 2.6 狀況三之測量數據與延遲擾動曲線圖

2.5 網路電話(VoIP) QoS 之應用

在能夠準確地計算時間延遲擾動與封包漏失等重要的統計資訊之後，本節將描述如何利用此資訊有效應用於 VoIP 通訊系統的 QoS(quality of service)評估中。

在網路傳輸過程中，發生封包時間延遲擾動會嚴重影響 VoIP 的通訊品質，因此其機率分布，特別是標準差對於 VoIP 網路基準統計資訊而言十分有用。由於接收端的 interarrival 時間是代表接收封包間的時間差，即為該封包傳送 interarrival 時間與時間延遲擾動時間的總和。當已知或是可以模擬出傳送端 interarrival 分布之後，有了描述延遲特性快速移動部分的 delay jitter 時間，就可以測定接收端 interarrival 分布。因此除了分析網路狀況之外，網路時間延遲擾動估算技術也能有效提昇 VoIP 系統效能評估的準確性，特別是非固定常數的 interarrival 時間。

VoIP 的通訊品質是取決於延遲與漏失，然而兩者卻無法兼顧。因此 VoIP 通訊系統通常會採用擾動補償緩衝器技術就此兩項品質量測取得折衷。在網路傳輸時，一旦任何封包到達接收端延遲的時間大於擾動補償緩衝器長度時，則被視為一丟棄封包。若此緩衝器長度較小，則延遲較短，但漏失封包的比率會增加；若此緩衝器長度較大，

則延遲較長，但漏失封包的比率會降低。因此如何決定一適當的擾動

補償緩衝器長度以符合個別的網路環境需求是非常重要的。而我們可以利用上一小節所求得的延遲擾動時間串進行統計，即可畫出擾動補償曲線圖，如圖 2.7、2.8 所示。經由此曲線圖，即可以在已知系統可允許最高封包丟棄率(<10 %)的情況下決定出適當的擾動補償緩衝器長度，使 VoIP 通訊系統能夠有最佳的效能。有鑑於實驗進行的距離還不夠遙遠，所需的補償長度顯得微不足道，隨著距離的增加，延遲擾動的效應較明顯，因此需要較長的擾動補償。

圖 2.7 狀況一的延遲擾動補償與封包漏失關係

圖 2.8 狀況三的延遲擾動補償與封包漏失關係

第三章通話品質預測模型

近年來由於網際網路電話(VoIP)低廉的通話費用以及更有效率的網路運用等種種優點，人們對於聲音能利用網路當傳輸媒介的接受度因而逐年增加。然而大眾已經習慣於傳統有線電話與行動電話優越的通話品質(toll quality) ，因此在享受網路電話所帶來的好處之際勢必也會對通話品質做某種程度的要求，不過直至今日我們仍無法明確表示網際網路在語音品質這個部分可以達到何種程度。但是對於網路系統規劃者而言，就必須要有一個具體的音質評量指標供作參考，進而建構並調整系統關鍵元件參數之用﹐以確保使用者在通話中有較佳的語音品質且穩定的通話效能。所以我們必需去了解哪些因素會影響整體系統服務品質與效能，進而整合推導出一項能具體反應網際網路通話的音質評量指標模型。

3.1 主觀聽覺測試

傳統對於通話品質的界定，最直接的方式是以人類的主觀聽覺來判斷音質好壞，然而對於這種主觀音質的感受還是需要某種制定的量值用以區分程度差異。ITU 在標準規格[13,14]中制定了平均評分分數(Mean Opinion Score ，MOS) ，評分的等級從感覺最好的 5 分到最差的 1 分。然而主觀感受的等級劃分並非只針對聲音的品質，另

外還有許多判斷方式。依國際電信聯盟(International Telecommunica-tion Union , ITU)標準 P.800 列出以下不同形式的評量基準:

[1] 絕對分類評分(Absolute Category Rating，ACR) ﹕亦即不需要已知熟悉系統的評比分數來做比較，由於沒有參考值可供作比較，

因此這個方式純粹是測試者絕對的心裡感受而無法反應系統的好壞，例如當 MOS 為 4.3 時，我們可以把這樣的音質解釋成比一般品質還好一點，卻無法判斷是否極佳或是一般的系統，倘若有個不錯的系統的 MOS 為 4.1，就可以反應出這個系統音質為極佳，但若是有不錯的系統的 MOS 為 4.7，那我們反而認為這樣的系統音質稍差。它可以是依照整體音質來分等級 (Listening quality score) ，也可以是了解語義需要集中多少注意力來分等級 (Listening-effort score) ，也就是對詞句的辨識度。前者比較針對實驗用的評估，而後者則傾向測試者的心理層面，因為當聽到一串語句時，直覺的反應就是去辨識語句的內容。

[2] 衰減分類評分(Degradation Category Rating，DCR) ﹕當實驗因子對於測試用的語句所造成的音質損害甚小，導致無法利用絕對分類來分等級時，此時就搭配尚未做語音處理的參考音源來做比較並依據失真程度來加以評分，這種評分通常是用來找出系統整

在文檔中網路語音傳輸系統規劃之研究 (頁 19-0)

第二章 網路品質量測平台

2.3 服務品質參數的估算

第三章 通話品質預測模型

第二章網路品質量測平台

第三章通話品質預測模型