• 沒有找到結果。

主觀聽覺測試

第三章 通話品質預測模型

3.1 主觀聽覺測試

傳統對於通話品質的界定,最直接的方式是以人類的主觀聽覺來 判斷音質好壞,然而對於這種主觀音質的感受還是需要某種制定的量 值用以區分程度差異。ITU 在標準規格[13,14]中制定了平均評分分 數(Mean Opinion Score ,MOS) ,評分的等級從感覺最好的 5 分到 最差的 1 分 。然而主觀感受的等級劃分並非只針對聲音的品質,另

外還有許多判斷方式。依國際電信聯盟(International Telecommunica-tion Union , ITU)標準 P.800 列出以下不同形式的評量基準:

[1] 絕對分類評分(Absolute Category Rating,ACR) ﹕亦即不需要已 知熟悉系統的評比分數來做比較,由於沒有參考值可供作比較,

因此這個方式純粹是測試者絕對的心裡感受而無法反應系統的 好壞,例如當 MOS 為 4.3 時,我們可以把這樣的音質解釋成比一 般品質還好一點,卻無法判斷是否極佳或是一般的系統,倘若有 個不錯的系統的 MOS 為 4.1,就可以反應出這個系統音質為極 佳,但若是有不錯的系統的 MOS 為 4.7,那我們反而認為這樣的 系 統 音 質 稍 差 。 它 可 以 是 依 照 整 體 音 質 來 分 等 級 (Listening quality score) ,也可以是了解語義需要集中多少注意力來分等級 (Listening-effort score) ,也就是對詞句的辨識度 。前者比較針 對實驗用的評估,而後者則傾向測試者的心理層面,因為當聽到 一串語句時,直覺的反應就是去辨識語句的內容。

[2] 衰減分類評分(Degradation Category Rating,DCR) ﹕當實驗因 子對於測試用的語句所造成的音質損害甚小,導致無法利用絕對 分類來分等級時,此時就搭配尚未做語音處理的參考音源來做比 較並依據失真程度來加以評分,這種評分通常是用來找出系統整 合後的最佳化。

[3] 比較分類評分(Comparison Category Rating,CCR) ﹕。這個方 式基本上與 DCR 是很相似的,DCR 在聲音撥放程序上,首先聆 聽的部分是尚未處理過的語音,接下來再去聆聽經過一些技術處 理過的聲音再去分等級。而 CCR 的程序上則比 DCR 多出一 種即先聆聽處理過後的語句再去聆聽未處理過的。聆聽者根據第 二次聆聽的感覺再與第一次做比較。CCR 比 DCR 多一項好處也 就是可以評斷經過語音處理過後的語音品質是否提升或是下 降。原理在於語音編碼處理會抑制或是消除背景雜音,因此對於 編碼過後的音質很有可能會比原有的音質來的好,例如雜音消除 系統,在這樣的情況,這種的評分就相當的有用。

表 3.1,3.2 與 3.3 分別說明了 MOS 與上述評比方式的對應關係。接 下來描述主觀聽覺測試的過程,測試者是經由特定條件挑選出來的,

處在特別設計過的房間,裡頭的噪音以及其他重要的環境因子皆被控 制在某一種適合測試的程度來進行聆聽實驗。欲測試語句會預先在另 外一間週遭噪音也是控制在相當低的層級下進行錄音,由於考量測試 的準確度,每一段的語句大約會維持 2 到 3 秒,當然這些語句彼此沒 有明顯的關聯性。經過語音編碼處理後再改變網路模擬用的參數因 子,包括輸入不同語音能量層級(Speech input levels)、聆聽的能量層 級(Listening levels) 、隨機或叢發性錯誤、背景雜訊 、編碼連結、不

同語音編碼方式的相容性等傳輸因子。所有測試者去聆聽撥放出來的 聲音,並針對欲評量的方式打上分數,最後統計平均所有測試者的分 數來當評比結果。從用戶角度看,通常認為 MOS 4.0~4.5 分為高品質,

達到長途電話網的音質要求。MOS 3.5 分左右稱作普通音質,這時聽 者能感覺到音質有所下降,但不影響正常的通話,可以滿足多數通信 系統使用要求。MOS 3.0 分以下常稱為合成音質,這種語音一般只有 足夠的可懂度,但是缺乏自然度,且不容易識別講話者。

由於所有的測試都是憑藉人耳的主觀聽覺來評分,往往會因為評 分者當時對於環境的感受以及態度而直接影響到整個評分結果,因此 難以達到一致且客觀的標準認定。更由於事前需詳盡準備各類測試用 的環境設定,測試耗時且需花費相當龐大的人事經費,對於例行性的 監控網路程序而言,這樣的評量方式就顯得沒有效率且不實際。另外 就系統設計規劃而言,上述的測試方案都沒有考量到網路層服務品質 的影響因素(延遲,擾動,漏失) ,因此無法就網路傳輸所造成的音 質損害問題加以處理改善。

極佳

相關文件