網路電話

第二章背景與相關研究

2.5 網路電話

t_RTO = TCP Retransmission Timeout 時間，單位為 second。

b = 單一個 TCP ACK 所確認的封包數量。

RTT(Round Trip Time)以及封包遺失率(Packet Loss Rate)等網路參數必須透過接收端回傳包含回饋訊息的封包給接收端才能到。TFRC 壅塞控制機制剛開始

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

15

端傳輸層接收到數據封包後，去除封包標頭後交由語音解碼器(Decoder)解壓縮還原成 PCM 語音格式的數位音訊，之後再透過數位/類比訊號轉換器轉換成類比訊號由喇叭播出，如圖 5 所示。

圖 5 VoIP 的語音封包產生流程

2.5.1 聲音取樣以及編碼

發話者震動聲帶產生音波，音波再經過口腔與鼻腔所構成的聲道產生共振而發岀聲音，電腦硬體透過麥克風收音，將收到的聲音透過不同強弱幅度變化的電壓訊號表示，必須再將類比的電壓訊號轉換為數位訊號。

為了減少網路頻寬的浪費以及加快傳輸的速度，通常會將所轉換的初步數位訊號透過編碼壓縮後，才傳送到網路。每次的編碼壓縮過程，會從依序取得一段數位音訊訊號，再透過編碼器編碼後，壓縮成較小的訊框(Frame)，通常一個訊框是 10 到 30ms 的語音訊號。編碼類型可分為三種：波形編碼、參數編碼與混合編碼，如表 1 所示。常用於網路電話的 iLBC 編碼器以及此研究所使用的 Speex 編碼器都以混合編碼的 CELP 編碼方式為基礎。

依照不同編碼器所選擇的不同壓縮演算法，壓縮之後的語音品質以及訊框大小會有所差異。通常壓縮率越高，所產生的封包越小，但是音質較差，不過所需的頻寬也可較小。而壓縮率越低，所產生的封包越大，但是音質較佳，不過所需

‧

Predictive Coding)

CELP (Code-Excited Linear Prediction)

表 2 各種常見語音壓縮編碼的參數

Codec Sampling Rate Frame Size Bit-rate

G.723.1

8kHz 30ms 5.3/6.3Kbps

G.729

8kHz 10ms 8Kbps

iLBC

8kHz 30ms/20ms 13.3/15Kbps

Speex

8kHz/16kHz 20ms 2.15~44Kbps

2.5.2 語音封包

網路電話應用程式會將語音編碼編碼出的語音訊框封裝(Packetization)為封包，網路電話應用程式可能自行設計所需要加入的封包標頭，或是透過 RTP 等協定加入 RTP 等協定制定的標頭後，才傳給傳輸層交由傳輸層傳遞。網路電話

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

17

在傳輸層通常是使用 UDP 做為傳輸協定，在加入 UDP 標頭後，再傳給網路層。

透過 IP 協定包裝為 IP 封包後，透過 IP 資訊可在網路傳送到達目的位置。

2.5.3 影響語音品質的因素

語音品質和通話設備、編碼器或網路狀況等因素有關。不同的通話設備會因為設備的好壞而造成語音品質之差異，而喇叭發出聲音後也有可能再被同一端的麥可風收入產生回音。不同的編碼演算法，也會造成編碼解碼後不同程度的語音失真。因為網路電話是透過網路傳輸，網路的狀況並不像一般電話線路這麼穩定，可能會有封包延遲(Packet Delay)、封包遺失(Packet Loss)、Jitter 等狀況，

因為網路的不同狀況也會對於語音有不同程度的影響並降低語音品質。

在文檔中利用多層編碼配合DCCP形成與TCP友善的網路電話 - 政大學術集成 (頁 25-28)

第二章 背景與相關研究

2.5 網路電話

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

15

2.5.1 聲音取樣以及編碼

‧

Codec Sampling Rate Frame Size Bit-rate

G.723.1

G.729

iLBC

Speex

2.5.2 語音封包

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

17

2.5.3 影響語音品質的因素

第二章背景與相關研究

立政治大學

立政治大學