主觀聽覺測試

第三章通話品質預測模型

3.1 主觀聽覺測試

傳統對於通話品質的界定，最直接的方式是以人類的主觀聽覺來判斷音質好壞，然而對於這種主觀音質的感受還是需要某種制定的量值用以區分程度差異。ITU 在標準規格[13,14]中制定了平均評分分數(Mean Opinion Score ，MOS) ，評分的等級從感覺最好的 5 分到最差的 1 分。然而主觀感受的等級劃分並非只針對聲音的品質，另

外還有許多判斷方式。依國際電信聯盟(International Telecommunica-tion Union , ITU)標準 P.800 列出以下不同形式的評量基準:

[1] 絕對分類評分(Absolute Category Rating，ACR) ﹕亦即不需要已知熟悉系統的評比分數來做比較，由於沒有參考值可供作比較，

因此這個方式純粹是測試者絕對的心裡感受而無法反應系統的好壞，例如當 MOS 為 4.3 時，我們可以把這樣的音質解釋成比一般品質還好一點，卻無法判斷是否極佳或是一般的系統，倘若有個不錯的系統的 MOS 為 4.1，就可以反應出這個系統音質為極佳，但若是有不錯的系統的 MOS 為 4.7，那我們反而認為這樣的系統音質稍差。它可以是依照整體音質來分等級 (Listening quality score) ，也可以是了解語義需要集中多少注意力來分等級 (Listening-effort score) ，也就是對詞句的辨識度。前者比較針對實驗用的評估，而後者則傾向測試者的心理層面，因為當聽到一串語句時，直覺的反應就是去辨識語句的內容。

[2] 衰減分類評分(Degradation Category Rating，DCR) ﹕當實驗因子對於測試用的語句所造成的音質損害甚小，導致無法利用絕對分類來分等級時，此時就搭配尚未做語音處理的參考音源來做比較並依據失真程度來加以評分，這種評分通常是用來找出系統整合後的最佳化。

[3] 比較分類評分(Comparison Category Rating，CCR) ﹕。這個方式基本上與 DCR 是很相似的，DCR 在聲音撥放程序上，首先聆聽的部分是尚未處理過的語音，接下來再去聆聽經過一些技術處理過的聲音再去分等級。而 CCR 的程序上則比 DCR 多出一種即先聆聽處理過後的語句再去聆聽未處理過的。聆聽者根據第二次聆聽的感覺再與第一次做比較。CCR 比 DCR 多一項好處也就是可以評斷經過語音處理過後的語音品質是否提升或是下降。原理在於語音編碼處理會抑制或是消除背景雜音，因此對於編碼過後的音質很有可能會比原有的音質來的好，例如雜音消除系統，在這樣的情況，這種的評分就相當的有用。

表 3.1，3.2 與 3.3 分別說明了 MOS 與上述評比方式的對應關係。接下來描述主觀聽覺測試的過程，測試者是經由特定條件挑選出來的，

處在特別設計過的房間，裡頭的噪音以及其他重要的環境因子皆被控制在某一種適合測試的程度來進行聆聽實驗。欲測試語句會預先在另外一間週遭噪音也是控制在相當低的層級下進行錄音，由於考量測試的準確度，每一段的語句大約會維持 2 到 3 秒，當然這些語句彼此沒有明顯的關聯性。經過語音編碼處理後再改變網路模擬用的參數因子，包括輸入不同語音能量層級(Speech input levels)、聆聽的能量層級(Listening levels) 、隨機或叢發性錯誤、背景雜訊、編碼連結、不

同語音編碼方式的相容性等傳輸因子。所有測試者去聆聽撥放出來的聲音，並針對欲評量的方式打上分數，最後統計平均所有測試者的分數來當評比結果。從用戶角度看，通常認為 MOS 4.0~4.5 分為高品質，

達到長途電話網的音質要求。MOS 3.5 分左右稱作普通音質，這時聽者能感覺到音質有所下降，但不影響正常的通話，可以滿足多數通信系統使用要求。MOS 3.0 分以下常稱為合成音質，這種語音一般只有足夠的可懂度，但是缺乏自然度，且不容易識別講話者。

由於所有的測試都是憑藉人耳的主觀聽覺來評分，往往會因為評分者當時對於環境的感受以及態度而直接影響到整個評分結果，因此難以達到一致且客觀的標準認定。更由於事前需詳盡準備各類測試用的環境設定，測試耗時且需花費相當龐大的人事經費，對於例行性的監控網路程序而言，這樣的評量方式就顯得沒有效率且不實際。另外就系統設計規劃而言，上述的測試方案都沒有考量到網路層服務品質的影響因素(延遲，擾動，漏失) ，因此無法就網路傳輸所造成的音質損害問題加以處理改善。

極佳

在文檔中網路語音傳輸系統規劃之研究 (頁 30-35)

第三章 通話品質預測模型

3.1 主觀聽覺測試

第三章通話品質預測模型