網路的時代已經來臨,網際網路的快速發展,將資訊交流推向另 一個高峰。以往網路的應用只限於網路資料的查詢,以及一些網路資 料傳送,而傳送的資料所重視的是可否能完整傳送到接收端,而不需 考慮資料何時傳送到接收端。但是隨著網路快速的發展與研究,在網 路上傳送即時(Real-time)的多媒體資料將是一個發展重點,其中更以 語音為發展重點。語音(Voice)資料大小遠比影像(Video)資料來的 小,應用到網際網路上更能減低資料在網路上的延遲(Delay),相較 之下,在網路上傳送語音比影像更能達到即時的效果。
多媒體資料在有即時性的考慮下,就不能單單考慮資料能否完整 的傳送到接收端,還要考慮資料是否能在限定的時間內到達接收端。
如果資料在預定播放的時間之後才到達的話,則視為無用的資料。
VoIP(Voice over IP)就是在網際網路上利用這樣的即時觀念而發展出 來的。
VoIP 顧名思義就是利用網際網路來即時的傳送語音資料,由於目 前長途電話或國際電話的費用仍然非常的昂貴,所以一些業者就利用 免費的網際網路來提供長途或國際電話服務,因為它只需要付給當地 電信業者(ISP)一些上網線路費用,與長途或國際電話無關。所以費
用比傳統電話(Public Switched Telephone Network, PSTN)費用便宜很 多,並提供傳統電話所不能提供的加值服務(如傳送文件、顯示通話 端的影像等等)。因此近年來 VoIP 以成為許多公司及學校努力發展的 重點技術,而其成效也日益成熟。
1.1 研究動機與方向
在網路網路上,通常在語音即時通訊上最主要關心的課題就是服 務品質(Quality of service, QoS)的問題。然而現今網際網路的不可靠 及不定性,導致封包網路傳輸的延遲(delay)不固定甚至會有漏失 (loss)的情形,嚴重影響服務品質。傳輸延遲、延遲顫動(delay jitter),
及漏失這三項因素是現今即時語音通訊中所面臨最主要的課題。在通 訊架構中各不同的層級皆嘗試做大量的改進以期能使延遲降低、顫動 更平穩且回復漏失的封包。
一個具體可行的方式為在接收端的應用層(application layer)中控 制每個語音封包的播放時間(playout time)。在語音封包播放前,先暫 存在一播放緩衝器(playout buffer)中以吸收延遲顫動的影響。當使用 這個技巧,語音封包在接收後並不會立即被播放出去,而是會被暫存 在緩衝器中直到排定的播放時間為止。雖然這種方式會導致早到封包 的額外延遲,但也使得晚到封包被順利播放的機率提高了。因此,語
音封包在緩衝器暫存的時間(buffering delay)及因為晚到而被視為漏 失的比率(late loss rate)之間,面臨了一個權衡取捨的問題。若排定一 個較晚的播放時間,將會提高更多封包播放的機率而得到較低的封包 漏失率,但這就會導致有較高的緩衝延遲;反之亦然,要減少緩衝延 遲,很難在不增加漏失率下達到。通常在一般的語音對話中,語音封 包從傳送端產生至接收端播放出來的延遲在 400ms 內及漏失率最高 到 5%之內是可被容忍的。
在 本 論 文 中 , 我 們 介 紹 三 種 不 同 的 播 放 時 序 演 算 法 (playout scheduling algorithm),其中兩種是對每個獨立的封包都做播放時間的 調整,以適應網路在話務(talkspurt)中間變動的情形。為了保持語音 播 放 的 連 續 性 , 必 須 配 合 使 用 一 種 音 長 比 例 調 整 (time-scale modification)的技術,可以明顯的降低延遲及漏失率進而增加整體的 效能。
1.2 章節概要
第二章介紹三種不同的播放緩衝時序演算法,第三章則介紹利用 諧波正弦(sinusoidal)語音轉換機制來做音長比例的調整,第四章則先 介紹一種網路延遲模型,並進而客觀比較三種演算法的效能分析和主 觀比較聽覺品質上的差異。