5. 實驗
6.3 支援 MPEG-7 之電影 AC-3 環場音效內涵描述工具
6.3.1 AC-3 音效特徵值計算模組
MPEG-7 定義了一套標準的多媒體內容描述介面[2]。針對多媒體的內容,
MPEG-7 對視訊以及音訊都規範了特徵值的涵義與以及語法,作為多媒體的標準 描述方式。遵循這套標準,使用者在交換或搜尋多媒體時,能夠在同一個描述平 台上進行,使得原本因人而異描述方式,因為 MPEG-7 而規範為一套標準的描 述方式。
我們由許多音訊分類的相關研究中,收集了各種不同的特徵值,並結合了國 際規範 MPEG-7 中的音效描述子,整理出如表 8 所示之特徵值列表,表中特徵 值名稱右下角的(CH)符號代表的是六個環繞聲道編號,這是因為AC-3 有六個聲道 的關係。不過由於AC-3 的低頻聲道(LEF) 所負責的頻率範圍較窄,且集中在較 低頻率的位置,因此表8 中的部份特徵並不涵蓋 AC-3 的低頻聲道。
在表8 中,M[i][k]表示第 k 個框架中的第 i 條頻率線的修正式離散餘弦轉換 係數;為了避免不同錄製環境所產生的音量大小不同的問題,某些音效描述子的 修正式離散餘弦轉換係數必須經過正規化的程序,正規化後以N[i][k]表示之。
音訊總能量 M[i][k]
N[i][k] = (10)
6.3.2 系統實作
我們使用Microsoft Visual Studio .NET 開發環境來實作 AC-3 音效特徵值計 算工具,有興趣者可聯絡作者取得。此工具之使用方式說明如下:首先,先開啟 預備分析的AC-3 檔案,如圖 44 所示。接下來針對開啟的 AC-3 音效檔案進行特 徵值擷取與計算的工作,並將擷取的特徵值存入檔案與資料庫中,以便重複利 用。如圖45 所示,擷取特徵值後,我們會將特徵值還原成 MDCT 係數,以便進 一步計算音效特徵描述子。在工具畫面中,我們繪出AC-3 音效在時間軸的能量 分布概況,畫面右下角則會簡單地描述AC-3 檔案特性。
圖44 AC-3 音效特徵描述工具
圖45 AC-3 頻譜與音效特徵值
畫面左方的六個按鈕分別表示AC-3 的六個聲道,根據使用者按下的聲道按 鈕,畫面右方的音效特徵值列表將隨之改變。在特徵值列表中,我們進一步將音 效特徵值區分為「時間特徵」、「頻譜特徵」、「能量特徵」、「頻率特徵」以 及「頻率能量特徵」五大類型。
由於XML 可適用於不同平台,具有便於資料交換的優點,以及具備自我定 義標籤的特性,因此MPEG-7 的核心描述定義語言的基本架構是利用 XML 來呈 現。針對 AC-3 音效特徵值,我們也可將其輸出為 XML,以便與其他 MPEG-7 工具互相支援,如圖46 所示。
圖46 AC-3 音效描述子之 XML 範例檔(片段) 表8 AC-3 音效特徵值列表
音效特徵描述子 涵義說明 計算方式
FrameNumber 框架數,即音效檔的長度 K
AveSpectralCentroid(CH) 平均頻譜質量中心
K Cframe lCentroid
AveSpectra
N[i][k]
iN[i][k]
Cframe
1 K
∑
0∑ ∑
−
=
=
AveSpectralRollOff(CH) 平均頻譜偏斜
K lRollOff Rmin
AveSpectra min R
[k]
M[i]
0.85 M[i][k]
1 K 0 Rmin
0
255 0
∑
∑ ∑
−
=
≥
符合此公式之最小值 為
其中,
AveSpectralFlux(CH)
平均頻譜通量,即256條頻 率線的個別通量
1 K
F[k][i]
lFlux[i]
AveSpectra
N[i][k]
1]
N[i][k F[i][k]
2 K 0
= −
− +
=
∑
−AverageFlux(CH) 總平均頻譜通量
256
lFlux[i]
AveSpectra x
AverageFlu
255
∑
0=
AveNZFlux(CH) 平均非零頻譜通量
) 0 lFlux[i]
AveSpectra Count(
lFlux[i]
AveSpectra
AveNZFlux 255
0 255 0
∑
∑
= >
AveRMS(CH) 平均均方根
K RMS[k]
AveRMS
256 ) (M[i][k]
RMS[k]
1 K 0
255 0
2
∑
∑
−
=
=
AveFeatureVariance(CH) 平均特徵變動量
( )
K FV[k]
Variance AveFeature
256
1][k]
N[i N[i][k]
FV[k]
1 K
∑
0∑
−
=
−
= −
AveNegPower(CH) 平均負能量比
256 K
) 0 M[i][k]
Count(
r AveNegPowe
1 K 0
×
=
∑ ∑
− <AveIntensity(CH) 平均絕對能量強度
K
) M[i][k]
ty ( AveIntensi
1 K 0
∑ ∑
− 2=
AvePower(CH)
平均絕對能量,即絕對音
量 K
) M[i][k]
AvePower (
1 K
∑ ∑
0−=
AveLowEnergy(CH) 平均低能量比
K LE[k]
AveSR
N[i][k]
AveP 0.3
N[i][k]
LE[k]
1 K
∑
0∑ ∑
−
=
×
= ≤
AveMidEnergy(CH) 平均中能量比
K ME[k]
gy AveMidEner
N[i][k]
AveP 5.5
[k]
N[i]
AveP ME[k] 4.5
1 K
∑
0∑ ∑
−
=
×
≤
≤
= ×
AveHigEnergy(CH) 平均高能量比
K HE[k]
gy AveHigEner
N[i][k]
AveP 0.7
N[i][k]
HE[k]
1 K
∑
0∑ ∑
−
=
×
= ≥
AveEnergySequences(CH)
平均能量序列,能量差大 於0.7倍的平均能量的次數 比
K ES[k]
equences AveEnergyS
256
AveP) 0.7
1][k]
M[i [k]
Count(M[i]
ES[k]
1 K
∑
0−=
×
≥
−
= −
AvePercentage of Low-Energy 平均低能量框架比 Count( K 1RMS<0.5×AveRMS)
=
∑
−AveBandwidth(CH) 平均頻寬
K
frameBW[k]
th AveBandwid
MDCT
minL
MDCT maxL
93.75 minL)
(maxL frameBW[k]
1 K
∑
0−=
×
−
=
係數線 最小的
為
係數線 最大的
為
, 其中
AveFeq(CH) 平均頻率,即平均音高
K
] frameFeq[k AveFeq
i 0 N[i][k]
line
) 0 N[i][k]
Count(
93.75 ] line
frameFeq[k
1 f
∑
0∑ ∑
−
=
>
>
= ×
值 時的 為
其中
AveMaxPfeq(CH) 平均最大能量之頻率
係數線 之最大
量 最大能
每個框架中擁有 為
其中,
MDCT maxL
f
K
93.75) (fmaxL
AveMaxPfeq
1 K
∑
0− ×=
AveLowFeqPower(CH)
平 均 低 頻 能 量 比 , 低 於 200Hz頻率所佔之能量比
K ower low
AveLowFeqP
N[i][k]
N[i][k]
low[k]
1 K 0 255
0 3 0
∑
∑ ∑
−
=
=
AveMidLowFeqPower(CH)
平均中低頻能量比,200Hz 到500Hz頻率所佔之能量 比
K
midlow[k]
eqPower AveMidLowF
N[i][k]
N[i][k]
midlow[k]
1 K 0 255
0 6 3
∑
∑ ∑
−
=
=
AveMidFeqPower(CH)
平均中頻能量比,500Hz 到1kHz頻率所佔之能量比
K mid[k]
ower AveMidFeqP
N[i][k]
N[i][k]
mid[k]
1 K 0 255
0 11 6
∑
∑ ∑
−
=
=
AveMidHigFeqPower(CH)
平均中高頻能量比,1kHz 到2kHz頻率所佔之能量比
K H[k]
eqPower mid AveMidHigF
N[i][k]
N[i][k]
midH[k]
1 K 0 255
0 22 11
∑
∑ ∑
−
=
=
AveHigFeqPower(CH)
平 均 高 頻 能 量 比 , 高 於 2kHz頻率所佔之能量比
K ower H[k]
AveHigFeqP
N[i][k]
N[i][k]
H[k]
1 K 0 255
0 255 22
∑
∑ ∑
−
=
=