第三章 研究方法
3.6 數據分析方法編寫說明
完成數據爬取後,需對數據進行分析與結果可視化導出。分析過程主要 以 Python 為主,Excel 為輔助共同使用進行數據分析。代碼編寫只需引用計 算機編寫語法即可完成,但此節對分析方法的基礎概念進行引述說明。
數據分析主要以分詞、詞頻統計、詞雲等等方式進行分析和可視化操作,
Python 主要以 jieba 庫和 worldcloud 庫為分析工具,進行簡單文本情感分析
9,即對歌詞、評論進行分析;Excel 主要完成整理數據及排序等基礎分析,
最後通過兩者配合,完成詞雲及圖表的可視化數據結果的導出。
在 Python 的用戶評論和歌詞的分析中,如要進行簡單本情感分析,分 詞是對文本分析的前提。分詞的方法選擇對結果產生決定性影響,因此選擇 正確分 詞的 方法 , 是對分 析結 果有 意 義的前 提保 證, 本 文選擇 以編寫 jieba.analyse.extract_tags 的方法進行分析,其原理為 TF-IDF 算法( term frequency–inverse document frequency ),即 TF * IDF,TF 詞頻(Term Frequency)
指的是某壹個給定的詞語在該文件中出現的次數,公式為 ; IDF 反文檔頻率(Inverse Document Frequency),是壹個詞語普遍重要性的度 量,某壹特定詞語的 IDF,可以由總文件數目除以包含該詞語之文件的數目, 庫的 jieba.analyse.extract_tags 命令語句就可實現 TF- IDF 算法提取重要的詞
9 夏玉芹,單雪微(2018)的研究提到簡單文本情感分析(意見挖掘),是指用自然語言處理、
文本挖掘以及計算機語言學等方法來識 別和提取原素材中的主觀信息。特別 Python 編程語言具 有集合 jieba 分詞庫與詞云(Wordcloud),可以進行完整詞頻分析,是利用文本數據分析用戶意 見及關注熱度的一種高效方式,而且 Python 對中文編碼與支持更友好。
語或短語完成分析,因此本文主要以此方法提取關鍵詞並測量歌詞和用戶評 論的熱度,歌單自定義標簽也通過詞頻統計的方式完成分析與視覺化,但不 使用該方法,僅做普通詞頻統計。配合使用 Excel 的排序功能,可將採集的 數據進行熱度排序,以歌曲評論數量為測量標準,排列出廣告音樂熱度排行,
配合 jieba 庫對評論數據及中文和英文的歌詞進行分詞,最後進行詞頻統計 繪製出相應詞雲(Wordcloud)進行分析,最終實現結果導出。
分析過程需注意以下步驟:
1.剔除沒有歌詞的數據結果,導出時設置沒有歌詞的音樂標記為 None;
2.將爬取的數據分批次按歌曲 ID、歌手、評論、評論數量等數據分別合 並;
3.利用 Excel 將歌曲分類為中文和英文分開排列,利用評論數排序,得 出對應分類和排名結果;
4.校對歌曲類型、表現形式分類,最後統計歌手、發布時間等數據總量 及中文與英文歌曲數據占比;
5、將爬取的全部數據進行歌詞、歌單自定義標簽以及用戶評論,進行 詞雲繪制並進行文本分析。
綜上所述,通過 Python 與 Excel 分析工具整合,利用爬取到的用戶評論 數、歌曲名、歌詞、評論內容、歌單標簽等數據進行分析完成數據可視化結 果導出。