國際電信聯盟標準化部門(ITU-T)之標準

第四章高斯混合模型下的語音品質判斷

4.1 評測模型

4.1.2 國際電信聯盟標準化部門(ITU-T)之標準

PESQ(Perceptual Evaluation of Speech Quality)[18](2001)

PESQ 為 2001 年國際電信聯盟標準化部門所提出之語音品質測量方法，

此測量方式為｢侵入式客觀語音品質測量｣ (Intrusive-Objective Speech Quality Measurement)，測量適用於窄頻通訊(3.1khz handset telephony and narrow-band speech codec)，參考了 1998 年提出的 PSQM 的聽覺模型，運用了梅爾倒頻譜參數(mfcc)，

以及參照英國電訊所 PAMS(Perceptual Analysis Measurement System)的時間對位法 (time-alignment algorithm)，由於主要是用於語音編碼(speech codec)的評測，並著重於單傳輸失真(one-way speech distortion)及外加噪音(noise on speech quality) 的影響，因此有需多因素無法有效測量，例如，回音(echo)，響度失真(loudness loss) 等，又由於時間對位法的不準確性，使得語音訊號稍有時間上的位移(shift)，即無法準確評分。

PESQ，為目前｢侵入式客觀語音品質測量｣的標準，由於其評分效果與實際的平均意見分數(MOS)有高達百分之九十以上的相關性，因此在侵入式測量中仍常拿來使用。(下圖附錄 PESQ 之基本流程)

圖 4.1 PESQ 概觀流程圖(先將失真訊號及原始訊號做時間軸上對準，再以感知模型做轉換，最後用時、頻域的相異程度做為差距，最後階段則以此差距評分)

附表: PESQ 目前已知可測試的影響變因

經實驗證實可以由 PESQ 分數估得可以接受的準確度:

Test factors:

Speech input levels to a codec Transmission channel errors

Packet loss and packet loss concealment with CELP codecs Bit rates if a codec has more than one bit-rate mode Transcodings

Environmental noise at the sending side

Effect of varying delay in listening only tests Short-term time warping of audio signal

Long-term time warping of audio signal Coding technologies

Waveform codecs, e.g. G.711; G.726;

G.727CELP and hybrid codecs ≥4 kbit/s, e.g. G.728, G.729, G.723.1 Other codecs: GSM-FR, GSM-HR, GSM-EFR, GSM-AMR, CDMA-EVRC, TDMA-ACELP, TDMA-VSELP, TETRA

Application Codec evaluation Codec selection

Live network testing using digital or analogue connection to the network Testing of emulated and prototype networks

表 4-1 PESQ 可測試之變因

經實驗證實由 PESQ 分數無法準確測量的變因:

Test factors

Listening levels (See Note.) Loudness loss

Effect of delay in conversational tests Talker echo

Sidetone

Coding technologiesReplacement of continuous sections of speech making up more than 25% of active speech by silence (extreme temporal clipping)

Applications

In-service non-intrusive measurement devices Two-way communications performance

表 4-2 PESQ 無法測試之變因

圖 4.2 PESQ 感知模型[18]

圖 4.2 為 PESQ 之感知模型，前階段先將對準的語音檔之第 n 個音框通過漢明窗 (Hamming Window)，接著轉至頻域軸做頻濾扭曲(frquency warping)，下一步則將人耳基本的心理聲學反應，如響度門檻(loudness threshold)加入訊號中，最後將原始語音與失真語音的頻譜相減得到差距，Asymmetry processing 則將差距做一非線性轉換(由於差距值不能線性對應至語音品質)，最後階段則是做非語音部分的補償。得到的 DAⁿ及 Dⁿ，必須對時間軸上多個音框做累計，最後才能求出整句語音檔的品質差距。

P.563[33](2004)

P.563 為 2004 年國際電信聯盟標準化部門所提出之語音品質測量方法，此測量方式為｢非侵入式客觀語音品質測量｣ (Non-intrusive Objective Speech Quality Measurement)，品質測量分三部份，一為特殊失真(distortion-specific)的測量,包含時間軸的不連續(temporal clipping)及噪音(noise)估計等；二為語音重建及對照模型 (speech reconstruction and full-reference perceptual models) ，將失真訊號 (degraded signal)做一個粗估的比對；三為音高同步(pitch synchronous)、口腔模型與線性預估係數分析(vocal track model & LPC)。將以上的三部分做綜合性的考量，

並給予分類(classification)及權重(weighting)，最後對應到平均意見分數(MOS)。

在文檔中感知訊號非侵入式客觀語音品質測量 (頁 53-58)

第四章 高斯混合模型下的語音品質判斷

4.1 評測模型

4.1.2 國際電信聯盟標準化部門(ITU-T)之標準

第四章高斯混合模型下的語音品質判斷