• 沒有找到結果。

國際電信聯盟標準化部門(ITU-T)之標準

第四章 高斯混合模型下的語音品質判斷

4.1 評測模型

4.1.2 國際電信聯盟標準化部門(ITU-T)之標準

PESQ(Perceptual Evaluation of Speech Quality)[18](2001)

PESQ 為 2001 年國際電信聯盟標準化部門所提出之語音品質測量方法,

此 測 量 方 式 為 「 侵 入 式 客 觀 語 音 品 質 測 量 」 (Intrusive-Objective Speech Quality Measurement),測量適用於窄頻通訊(3.1khz handset telephony and narrow-band speech codec),參考了 1998 年提出的 PSQM 的聽覺模型,運用了梅爾倒頻譜參數(mfcc),

以及參照英國電訊所 PAMS(Perceptual Analysis Measurement System)的時間對位法 (time-alignment algorithm),由於主要是用於語音編碼(speech codec)的評測,並著 重於單傳輸失真(one-way speech distortion)及外加噪音(noise on speech quality) 的影響,因此有需多因素無法有效測量,例如,回音(echo),響度失真(loudness loss) 等,又由於時間對位法的不準確性,使得語音訊號稍有時間上的位移(shift),即無法 準確評分。

PESQ,為目前「侵入式客觀語音品質測量」的標準,由於其評分效果與實際的平均意 見分數(MOS)有高達百分之九十以上的相關性,因此在侵入式測量中仍常拿來使用。(下 圖附錄 PESQ 之基本流程)

圖 4.1 PESQ 概觀流程圖(先將失真訊號及原始訊號做時間軸上對準,再以感知模型做 轉換,最後用時、頻域的相異程度做為差距,最後階段則以此差距評分)

附表: PESQ 目前已知可測試的影響變因

經實驗證實可以由 PESQ 分數估得可以接受的準確度:

Test factors:

Speech input levels to a codec Transmission channel errors

Packet loss and packet loss concealment with CELP codecs Bit rates if a codec has more than one bit-rate mode Transcodings

Environmental noise at the sending side

Effect of varying delay in listening only tests Short-term time warping of audio signal

Long-term time warping of audio signal Coding technologies

Waveform codecs, e.g. G.711; G.726;

G.727CELP and hybrid codecs ≥4 kbit/s, e.g. G.728, G.729, G.723.1 Other codecs: GSM-FR, GSM-HR, GSM-EFR, GSM-AMR, CDMA-EVRC, TDMA-ACELP, TDMA-VSELP, TETRA

Application Codec evaluation Codec selection

Live network testing using digital or analogue connection to the network Testing of emulated and prototype networks

表 4-1 PESQ 可測試之變因

經實驗證實由 PESQ 分數無法準確測量的變因:

Test factors

Listening levels (See Note.) Loudness loss

Effect of delay in conversational tests Talker echo

Sidetone

Coding technologiesReplacement of continuous sections of speech making up more than 25% of active speech by silence (extreme temporal clipping)

Applications

In-service non-intrusive measurement devices Two-way communications performance

表 4-2 PESQ 無法測試之變因

圖 4.2 PESQ 感知模型[18]

圖 4.2 為 PESQ 之感知模型,前階段先將對準的語音檔之第 n 個音框通過漢明窗 (Hamming Window),接著轉至頻域軸做頻濾扭曲(frquency warping),下一步則將人耳 基本的心理聲學反應,如響度門檻(loudness threshold)加入訊號中,最後將原始語音 與失真語音的頻譜相減得到差距,Asymmetry processing 則將差距做一非線性轉換(由 於差距值不能線性對應至語音品質),最後階段則是做非語音部分的補償。得到的 DAn 及 Dn ,必須對時間軸上多個音框做累計,最後才能求出整句語音檔的品質差距。

P.563[33](2004)

P.563 為 2004 年國際電信聯盟標準化部門所提出之語音品質測量方法,此測量方式 為 「 非 侵 入 式 客 觀 語 音 品 質 測 量 」 (Non-intrusive Objective Speech Quality Measurement),品質測量分三部份,一為特殊失真(distortion-specific)的測量,包含 時間軸的不連續(temporal clipping)及噪音(noise)估計等;二為語音重建及對照模型 (speech reconstruction and full-reference perceptual models) , 將 失 真 訊 號 (degraded signal)做一個粗估的比對;三為音高同步(pitch synchronous)、口腔模型 與線性預估係數分析(vocal track model & LPC)。將以上的三部分做綜合性的考量,

並給予分類(classification)及權重(weighting),最後對應到平均意見分數(MOS)。

相關文件