數據分析方法編寫說明

第三章研究方法

3.6 數據分析方法編寫說明

完成數據爬取後，需對數據進行分析與結果可視化導出。分析過程主要以 Python 為主，Excel 為輔助共同使用進行數據分析。代碼編寫只需引用計算機編寫語法即可完成，但此節對分析方法的基礎概念進行引述說明。

數據分析主要以分詞、詞頻統計、詞雲等等方式進行分析和可視化操作，

Python 主要以 jieba 庫和 worldcloud 庫為分析工具，進行簡單文本情感分析

9，即對歌詞、評論進行分析；Excel 主要完成整理數據及排序等基礎分析，

最後通過兩者配合，完成詞雲及圖表的可視化數據結果的導出。

在 Python 的用戶評論和歌詞的分析中，如要進行簡單本情感分析，分詞是對文本分析的前提。分詞的方法選擇對結果產生決定性影響，因此選擇正確分詞的方法，是對分析結果有意義的前提保證，本文選擇以編寫 jieba.analyse.extract_tags 的方法進行分析，其原理為 TF-IDF 算法( term frequency–inverse document frequency )，即 TF * IDF，TF 詞頻(Term Frequency)

指的是某壹個給定的詞語在該文件中出現的次數，公式為； IDF 反文檔頻率(Inverse Document Frequency)，是壹個詞語普遍重要性的度量，某壹特定詞語的 IDF，可以由總文件數目除以包含該詞語之文件的數目，庫的 jieba.analyse.extract_tags 命令語句就可實現 TF- IDF 算法提取重要的詞

9 夏玉芹，單雪微（2018）的研究提到簡單文本情感分析（意見挖掘），是指用自然語言處理、

文本挖掘以及計算機語言學等方法來識別和提取原素材中的主觀信息。特別 Python 編程語言具有集合 jieba 分詞庫與詞云（Wordcloud），可以進行完整詞頻分析，是利用文本數據分析用戶意見及關注熱度的一種高效方式，而且 Python 對中文編碼與支持更友好。

語或短語完成分析，因此本文主要以此方法提取關鍵詞並測量歌詞和用戶評論的熱度，歌單自定義標簽也通過詞頻統計的方式完成分析與視覺化，但不使用該方法，僅做普通詞頻統計。配合使用 Excel 的排序功能，可將採集的數據進行熱度排序，以歌曲評論數量為測量標準，排列出廣告音樂熱度排行，

配合 jieba 庫對評論數據及中文和英文的歌詞進行分詞，最後進行詞頻統計繪製出相應詞雲（Wordcloud）進行分析，最終實現結果導出。

分析過程需注意以下步驟：

1.剔除沒有歌詞的數據結果，導出時設置沒有歌詞的音樂標記為 None；

2.將爬取的數據分批次按歌曲 ID、歌手、評論、評論數量等數據分別合並；

3.利用 Excel 將歌曲分類為中文和英文分開排列，利用評論數排序，得出對應分類和排名結果；

4.校對歌曲類型、表現形式分類，最後統計歌手、發布時間等數據總量及中文與英文歌曲數據占比；

5、將爬取的全部數據進行歌詞、歌單自定義標簽以及用戶評論，進行詞雲繪制並進行文本分析。

綜上所述，通過 Python 與 Excel 分析工具整合，利用爬取到的用戶評論數、歌曲名、歌詞、評論內容、歌單標簽等數據進行分析完成數據可視化結果導出。

在文檔中廣告音樂歌詞與評論的商業性研究–Python的應用 (頁 51-54)

第三章 研究方法

3.6 數據分析方法編寫說明

第三章研究方法