• 沒有找到結果。

調變頻譜分析於音樂曲風及樂器音色之自動分類辨識之研究

N/A
N/A
Protected

Academic year: 2023

Share "調變頻譜分析於音樂曲風及樂器音色之自動分類辨識之研究"

Copied!
46
0
0

加載中.... (立即查看全文)

全文

在自动分类方面,我们进行了利用八度音程对比(OSC)频谱图和调制频谱分析来自动分类和识别音乐风格和乐器音色的研究。

MFCC 聲譜圖

MPEG-7标准中的NASE将每个声音帧的ASE系数转换为分贝标度单位,然后进行形式化操作。然而,对于一段音乐,信号可能包含很多声音帧,因此我们将所有声音帧进行转换。帧中的 NASE 系数沿时间轴连接起来,形成称为 NASE 谱图的二维图像图。我们取所有声音帧的NASE系数值(NASE(b), 0 ≤ b ≤ B+1)和RMS值(R(b)),并沿时间轴将它们合并,形成二维图像,称为 NASE 声谱。

調變頻譜分析 (modulation spectral analysis)

其中,Mt(m,d)表示第t个分析窗口的调制频谱,m表示调制频率指数值。然后我们将调制频谱划分为 J 个对数间隔的调制子带(调制子带)。各调制子带的调制频率分布范围可参见表2(J=8)。然后我们从每个调制子带开始。从调制子带中提取5个调制谱特征值:调制谱能量(modulation subband energy,MSE)、调制谱平滑度(modulation Spectrum Flatness,MSF)、调制谱质心(modulation Spectrum Centroid,MSCEN)、调制谱谷(MSV) ) 和调制光谱对比度 (MSC)。其中,Φj,l和Φj,h分别表示j的下限频率指标。调制子带值和上限频率索引值。因此,每个函数向量的所有调制谱对比度值、调制谱谷值、调制谱平滑度、调制谱质心和调制谱能量值可以形成五个D×J。每个矩阵可以认为是一个二维图像,统称为调制谱图。然后使用主轴向量分析算法选择合适的调制谱特征值并降低特征向量的维数,然后使用多个特征向量来表示相同的音乐风格,最后使用线性差异分析算法或非参数差异分析识别输入音乐文件属于哪种类型的音乐流派的算法。

主軸向量分析演算法 (principal component analysis, PCA)

PCA首先计算所有训练数据的特征向量的均值变异矩阵E[XXT]的特征值和特征向量[22],并以特征向量为基础进行线性变换,然后根据特征值的大小可以确定对应的特征向量。转换 属性所持有的信息量。特征值越大,数据经过线性变换后特征的变化值就越大。变异数的大小表示分布的宽度。数据越宽越大,即如果使用特征值较大的特征向量作为线性变换的基础,则变换后的特征的分布范围会比用特征向量较小的特征向量变换后的分布范围更大。 PCA的步骤如下:一般情况下,从同一类别的音乐中提取的特征向量表现出极其不同的变化,因此我们需要使用多个特征向量来充分表示同一类别的音乐。在本项目中,我们将使用c-means分组算法将属于同一音乐类别的所有训练特征向量划分为小组K。所有小组的组中心形成给定音乐类别的所有代表特征向量。所以它们都有K×C代表特征向量,C是音乐类别的数量。

線性區別分析演算法 (linear discriminant analysis, LDA)

其中,SW和SB分别表示同一类的散布矩阵(类内散布矩阵)和不同类的散布矩阵(类间散布矩阵),同类散布矩阵定义如下:而 xij 代表类别 j 中的第 i 个特征向量,μj 是类别 j 的均值向量,C 是类别数,Nj 是类别 j 中的特征向量数。各个类别的散布矩阵的定义如下:

非參數區別分析演算法 (nonparametric discriminant analysis, NDA)

转换成低维向量,通过这种转换我们可以提高不同类别之间的差异性。最常用的变换矩阵主要是根据Fisher准则JF得到的。其中,xil代表第i个类别的第l个特征向量,w(i,l)为其权函数值,mj(xil))代表k,与xil类似。特征向量的平均值:其中NNp(xil, j)表示与xil的第p个特征向量接近的第j个类别中的特征向量。

李等人。导出了多类非参数判别分析(MNDA)中的两类 NDA 算法[24] 不同类别的分布矩阵定义如下:

實驗結果與討論

最终识别出的代表音乐类别代码可以通过以下公式确定:表6将我们提出的方法与2004年音乐流派分类竞赛的前五名参赛者进行了比较,表6对于2004年音乐流派分类竞赛的识别率进行了比较竞争的音乐数据库。

该项目完成了一个音乐流派的自动分类系统,可以根据音乐的性质将音乐曲目预先分类为不同的流派,有效管理庞大的音乐数据库,也可以用作音乐推荐系统。

表 六 、對於 2004 年音樂曲風分類競賽之音樂資料庫之辨識率比較
表 六 、對於 2004 年音樂曲風分類競賽之音樂資料庫之辨識率比較

Abstract - In this paper, we will propose an automatic music genre classification approach based on long-term modulation spectral analysis of spectral (OSC and MPEG-7 NASE) as well as cepstral (MFCC) features. Once the features are extracted from a music track, a classification will be used to determine the music genre of the given music track. Let the modulation spectral feature values ​​derived from the d (0 ≤ d < D) row of the MSC matrix be denoted uMSCrow (d) and σMSCrow (d).

Data used in the ISMIR2004 Music Genre Classification Contest [21] will be used for performance comparison. Rauber, “Evaluation of feature extraction and psycho-acoustic transformations for music genre classification,” in Proc. Lin, “Automatic music genre classification based on spectral analysis of spectral and cepstral feature modulation,” IEEE Trans.

Table III shows the comparison with the results from the  ISMIR2004 Music Genre Classification Contest as well as  other approaches [8, 9, 22] with the same experimental setup
Table III shows the comparison with the results from the ISMIR2004 Music Genre Classification Contest as well as other approaches [8, 9, 22] with the same experimental setup

2010/11/4~2010/11/6 日本-福岡

行政院国科委资助本地专家、研究人员参加国际学术会议报告。会议期间与不同国家的研究人员进行了深入的学术交流,非常有益。建议台湾尝试多举办国际学术研讨会,除了与各国学者广泛进行学术交流外,交流促进旅游业的发展。

在中国举办国际研讨会时,可以安排半日或一日游,让外国学者有更多机会了解台湾,或者在晚宴上安排具有台湾特色的表演,这都有可能有利于促进旅游业。

A 3D Model Retrieval System Based On The Cylindrical Projection Descriptor

  • INTRODUCTION
  • THE PROPOSED 3D MODEL RETRIEVAL METHOD
    • Radial Distance Descriptor(RDD)
    • The Cylindrical Projection Descriptor (CPD) The main steps for computing the cylindrical
    • Distance Computation
  • EXPERIMENTAL RESULTS
  • CONCLUSION
  • ACKNOWLEDGEMENT
  • REFERENCES

In this study, two descriptors including the radial distance descriptor (RDD) [21] and the cylindrical projection descriptor (CPD) are used for 3D model retrieval. In this study, two features, the radial distance descriptor (RDD) and the cylindrical projection distance (CPD), are combined for 3D model retrieval. Wang, "A 3D Model Retrieval Approach based on The Principal Plane Descriptor", Proceedings of The Second International Conference on Innovative Computing, Information and Control (ICICIC), pp.

Saupe, “3D Model Retrieval,” Proceedings of the Spring Conference on Computer Graphics and Its Applications (SCCG2000), p. Lee and C.H Chuang, “3D Model Retrieval System Based On The Derivative Radial Distance”, Proceedings 22th IPPR Conference On Computer Vision, Graphics and Image Processing (CVGIP) 2009. Wang, “3D Model Retrieval System Using Derivative Height and 3D- ART", Proceedings of the IEEE Asia-Pacific Services Computing Conference, (APSCC), p.

Fig. 1 The six views of 3D racing car model.
Fig. 1 The six views of 3D racing car model.

數據

表 六 、對於 2004 年音樂曲風分類競賽之音樂資料庫之辨識率比較
Table III shows the comparison with the results from the  ISMIR2004 Music Genre Classification Contest as well as  other approaches [8, 9, 22] with the same experimental setup
Fig. 2 The  PO , QO , and  RO represent the radial  distance from the 3D model surface to the mass center  O
Fig. 4 The cylindrical projection.
+6

參考文獻

相關文件

研究生:賴楷婷 Student: Kai‐Ting Lai  指導教授:黃志方 Advisor: Chih‐Fang Huang  國立交通大學 音樂研究所 音樂科技組 碩士論文