• 沒有找到結果。

支援 MPEG-7 之電影 AC-3 環場音效內涵描述工具

在文檔中 中 華 大 學 (頁 53-58)

5. 實驗

6.3 支援 MPEG-7 之電影 AC-3 環場音效內涵描述工具

6.3.1 AC-3 音效特徵值計算模組

MPEG-7 定義了一套標準的多媒體內容描述介面[2]。針對多媒體的內容,

MPEG-7 對視訊以及音訊都規範了特徵值的涵義與以及語法,作為多媒體的標準 描述方式。遵循這套標準,使用者在交換或搜尋多媒體時,能夠在同一個描述平 台上進行,使得原本因人而異描述方式,因為 MPEG-7 而規範為一套標準的描 述方式。

我們由許多音訊分類的相關研究中,收集了各種不同的特徵值,並結合了國 際規範 MPEG-7 中的音效描述子,整理出如表 8 所示之特徵值列表,表中特徵 值名稱右下角的(CH)符號代表的是六個環繞聲道編號,這是因為AC-3 有六個聲道 的關係。不過由於AC-3 的低頻聲道(LEF) 所負責的頻率範圍較窄,且集中在較 低頻率的位置,因此表8 中的部份特徵並不涵蓋 AC-3 的低頻聲道。

在表8 中,M[i][k]表示第 k 個框架中的第 i 條頻率線的修正式離散餘弦轉換 係數;為了避免不同錄製環境所產生的音量大小不同的問題,某些音效描述子的 修正式離散餘弦轉換係數必須經過正規化的程序,正規化後以N[i][k]表示之。

音訊總能量 M[i][k]

N[i][k] = (10)

6.3.2 系統實作

我們使用Microsoft Visual Studio .NET 開發環境來實作 AC-3 音效特徵值計 算工具,有興趣者可聯絡作者取得。此工具之使用方式說明如下:首先,先開啟 預備分析的AC-3 檔案,如圖 44 所示。接下來針對開啟的 AC-3 音效檔案進行特 徵值擷取與計算的工作,並將擷取的特徵值存入檔案與資料庫中,以便重複利 用。如圖45 所示,擷取特徵值後,我們會將特徵值還原成 MDCT 係數,以便進 一步計算音效特徵描述子。在工具畫面中,我們繪出AC-3 音效在時間軸的能量 分布概況,畫面右下角則會簡單地描述AC-3 檔案特性。

44 AC-3 音效特徵描述工具

45 AC-3 頻譜與音效特徵值

畫面左方的六個按鈕分別表示AC-3 的六個聲道,根據使用者按下的聲道按 鈕,畫面右方的音效特徵值列表將隨之改變。在特徵值列表中,我們進一步將音 效特徵值區分為「時間特徵」、「頻譜特徵」、「能量特徵」、「頻率特徵」以 及「頻率能量特徵」五大類型。

由於XML 可適用於不同平台,具有便於資料交換的優點,以及具備自我定 義標籤的特性,因此MPEG-7 的核心描述定義語言的基本架構是利用 XML 來呈 現。針對 AC-3 音效特徵值,我們也可將其輸出為 XML,以便與其他 MPEG-7 工具互相支援,如圖46 所示。

46 AC-3 音效描述子之 XML 範例檔(片段) 8 AC-3 音效特徵值列表

音效特徵描述子 涵義說明 計算方式

FrameNumber 框架數,即音效檔的長度 K

AveSpectralCentroid(CH) 平均頻譜質量中心

K Cframe lCentroid

AveSpectra

N[i][k]

iN[i][k]

Cframe

1 K

0

∑ ∑

=

=

AveSpectralRollOff(CH) 平均頻譜偏斜

K lRollOff Rmin

AveSpectra min R

[k]

M[i]

0.85 M[i][k]

1 K 0 Rmin

0

255 0

∑ ∑

=

符合此公式之最小值 為

其中,

AveSpectralFlux(CH)

平均頻譜通量,即256條頻 率線的個別通量

1 K

F[k][i]

lFlux[i]

AveSpectra

N[i][k]

1]

N[i][k F[i][k]

2 K 0

= −

− +

=

AverageFlux(CH) 總平均頻譜通量

256

lFlux[i]

AveSpectra x

AverageFlu

255

0

=

AveNZFlux(CH) 平均非零頻譜通量

) 0 lFlux[i]

AveSpectra Count(

lFlux[i]

AveSpectra

AveNZFlux 255

0 255 0

= >

AveRMS(CH) 平均均方根

K RMS[k]

AveRMS

256 ) (M[i][k]

RMS[k]

1 K 0

255 0

2

=

=

AveFeatureVariance(CH) 平均特徵變動量

( )

K FV[k]

Variance AveFeature

256

1][k]

N[i N[i][k]

FV[k]

1 K

0

=

= −

AveNegPower(CH) 平均負能量比

256 K

) 0 M[i][k]

Count(

r AveNegPowe

1 K 0

×

=

∑ ∑

<

AveIntensity(CH) 平均絕對能量強度

K

) M[i][k]

ty ( AveIntensi

1 K 0

∑ ∑

2

=

AvePower(CH)

平均絕對能量,即絕對音

K

) M[i][k]

AvePower (

1 K

∑ ∑

0

=

AveLowEnergy(CH) 平均低能量比

K LE[k]

AveSR

N[i][k]

AveP 0.3

N[i][k]

LE[k]

1 K

0

∑ ∑

=

×

= ≤

AveMidEnergy(CH) 平均中能量比

K ME[k]

gy AveMidEner

N[i][k]

AveP 5.5

[k]

N[i]

AveP ME[k] 4.5

1 K

0

∑ ∑

=

×

= ×

AveHigEnergy(CH) 平均高能量比

K HE[k]

gy AveHigEner

N[i][k]

AveP 0.7

N[i][k]

HE[k]

1 K

0

∑ ∑

=

×

= ≥

AveEnergySequences(CH)

平均能量序列,能量差大 於0.7倍的平均能量的次數 比

K ES[k]

equences AveEnergyS

256

AveP) 0.7

1][k]

M[i [k]

Count(M[i]

ES[k]

1 K

0

=

×

=

AvePercentage of Low-Energy 平均低能量框架比 Count( K 1RMS<0.5×AveRMS)

=

AveBandwidth(CH) 平均頻寬

K

frameBW[k]

th AveBandwid

MDCT

minL

MDCT maxL

93.75 minL)

(maxL frameBW[k]

1 K

0

=

×

=

係數線 最小的

係數線 最大的

, 其中

AveFeq(CH) 平均頻率,即平均音高

K

] frameFeq[k AveFeq

i 0 N[i][k]

line

) 0 N[i][k]

Count(

93.75 ] line

frameFeq[k

1 f

0

∑ ∑

=

>

>

= ×

值 時的 為

其中

AveMaxPfeq(CH) 平均最大能量之頻率

係數線 之最大

量 最大能

每個框架中擁有 為

其中,

MDCT maxL

f

K

93.75) (fmaxL

AveMaxPfeq

1 K

0 ×

=

AveLowFeqPower(CH)

平 均 低 頻 能 量 比 , 低 於 200Hz頻率所佔之能量比

K ower low

AveLowFeqP

N[i][k]

N[i][k]

low[k]

1 K 0 255

0 3 0

∑ ∑

=

=

AveMidLowFeqPower(CH)

平均中低頻能量比,200Hz 到500Hz頻率所佔之能量 比

K

midlow[k]

eqPower AveMidLowF

N[i][k]

N[i][k]

midlow[k]

1 K 0 255

0 6 3

∑ ∑

=

=

AveMidFeqPower(CH)

平均中頻能量比,500Hz 到1kHz頻率所佔之能量比

K mid[k]

ower AveMidFeqP

N[i][k]

N[i][k]

mid[k]

1 K 0 255

0 11 6

∑ ∑

=

=

AveMidHigFeqPower(CH)

平均中高頻能量比,1kHz 到2kHz頻率所佔之能量比

K H[k]

eqPower mid AveMidHigF

N[i][k]

N[i][k]

midH[k]

1 K 0 255

0 22 11

∑ ∑

=

=

AveHigFeqPower(CH)

平 均 高 頻 能 量 比 , 高 於 2kHz頻率所佔之能量比

K ower H[k]

AveHigFeqP

N[i][k]

N[i][k]

H[k]

1 K 0 255

0 255 22

∑ ∑

=

=

在文檔中 中 華 大 學 (頁 53-58)

相關文件