• 沒有找到結果。

第四章 統計分析

4.1 B OKEH

4.1.2 Bokeh Chart and Models

4.1.2 Bokeh Chart and Models

Bokeh 提供在統計分析會使用到的各式圖表,也提供各式輔助函式用於美化以及 強化圖表,在圖表上常見的主要是:「Chart」,提供我們選擇合適的圖表,其中 包含了長條圖、折線圖、圓餅圖等等內容;「Plotting」,提供我們在圖表上進行 設計,除了簡單的顏色、造型設計外,也提供一些圖表細節部分的繪製功能;

「Modles」,Modles 中存有各種特殊模組,可以做出相當複雜的可視化圖表,也 能增加圖表的互動性。

在 Chart 的部分,我們主要選用了散佈圖(Scatter)、折線圖(Line)以及長 條圖(Bar)來呈現我們的資料,製作圖表前我們先將資料透過 Pandas 讀取轉換成 DataFrame 後,套用到 Chart 的套件中給予對應值。在套件中除了資料欄位設定 外,也可以進行一些簡單的設定,如顏色、圖表大小等,接著再透過 Bokeh 提供 的 output 函式輸出圖表。在 Chart 的套件中,僅能進行簡單的設定,如圖 8,

而比較複雜的設定或 Chart 函式中沒有提供的設定,則可以使用 Plotting 套件 來處理。

圖 8 Bokeh Chart 函式範例 - Bar

Plotting 的套件中提供我們各式的繪圖造型,讓我們可以任意變換圖表中 的圖示以及繪畫方式,而其中 Figure 函式提供我們為整個圖表的框架進行設 定,也就是上述提及 Chart 中沒有提供的設定,皆能夠在這裡解決。

Modles 的部分是 Bokeh 可視化以及互動化的核心,比起 Plotting 的功能更 加強大,在應用上我們使用了其中 Hover 的套件,透過設定 Hover 我們可以在圖 表上產生觸發事件,如圖 9 所示,我們將 KKBOX 榜單中的內容放入分佈圖,透過 點選便能夠呈現該歌曲的出現次數與名次。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

34

圖 9Bokeh Model-「Hover」呈現 4.2 統計分析

整理出的表單後,統計出於 2013 年 8 月至今這段時間,曾經進入排行榜的歌曲 總共有 875 首,而上榜過的歌手則有 218 人。無論是歌曲數量或是歌手數量,都 比起我們當初預期的要來得少,其原因我們透過單首歌曲入榜時間內的名次浮動 圖來推論並得到解釋。

歌手在發布專輯時,會將專輯的歌曲分成幾波主打進行推廣,而這些單曲會 率先提供於 KKBOX 平台提供點閱,也會透過 Facebook、電視煤體等等媒介來進 行傳播。在歌曲上榜初期,通常會有一段低潮期,是由於這段時間電視、網路的 宣傳還未達到效果,點擊率並不高,因此也不會躍升到排行榜的上位,但隨著點 擊率上升,名次也會越來越前面。以著名歌手張惠妹的歌曲「三月」為例,歌曲 於 2014 年 6 月 26 日放上 KKBOX 平台,2014 年 7 月 3 日正式發行,在這段期間 排行的名次不高,之後則在排行榜第一名待了一段時間才開始往下掉,如圖 10。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

35

圖 10 歌曲名次折線圖-張惠妹「三月」(入榜初期)

到了中後段時期,隨著時間拉長,名次會不太穩定的慢慢下滑,如圖 11,

有趣的事,有時候名次會出現大幅度的改變,這部分推論可能是受到電視節目與 時事的影響,使得名次再度躍升,以徐佳瑩的尋人啟事為例,如圖 12。在 2014 年六月發行專輯「尋人啟事」,在排行榜持續活躍到了 2014 年十一月後消失。2015 年 5 月 31 日,「Hito 流行音樂獎」的頒獎典禮,徐佳瑩上台演出曲目「尋人啟 事」,並於 2015 年六月底公布「金曲獎入圍名單」,讓歌曲的點擊率再次升高。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

36

圖 11 歌曲名次折線圖-張惠妹「三月」(入榜後期)

圖 12 歌曲名次折線圖-徐佳瑩「尋人啟事」

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

37

大多數歌曲都會受到推播的影響,在排行榜上停留一段時間,或許是數十 天,也或許會高達數百天。而能夠長時間停留在排行榜的歌曲大多是進入排行榜 前十的歌曲。由於這些歌曲的停留,也導致了這些歌手或歌曲會在排行榜長期佔 據名次,使得其他的歌曲沒有辦法進入排行榜,歌曲的數量以及歌手的數目也就 沒有預想得那麼高。經過我們的統計,如圖 13,大略有三分之一的歌曲只在排 行榜出現不到 20 次,之後便銷聲匿跡,其餘三分之二的歌曲則會上榜多次,而 大約四分之一的歌曲則能夠停留在排行榜上突破一百次。

圖 13 排行榜上所有歌曲出現次數統計

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

38

接著我們針對歌手的部分來進行分析,我們隨機選取了一些歌手去進行研 究,觀察他們進入排行榜的名次變化,發現名次的高低除了取決於新歌的發行 外,也會受到推播的影響,如果在這段期間 KKBOX 公布了一些演唱會或其他活動 資訊,那麼該歌手的排行名次便會受到影響,而如果許久沒有出現在螢光幕前,

則名次會隨著時間慢慢下滑。

每位歌手入選排行榜的歌曲不一定僅有一首,但能有許多歌曲入榜也並不容 易,經過統計後,我們發現在近期入榜歌曲高達十首歌以上的歌手,僅有 20 多 位,另外又以「五月天」與「周杰倫」的歌曲數目較高。圖 14 為出現次數較高 的前十名歌手。

圖 14 多首歌曲入榜的歌手統計圖

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

39

出現在排行榜的歌手有很多,但是在我們資料範圍的這段期間,持續出現的 歌手卻沒有想像中的多,原因包含上述所說歌曲會在排行榜流動並且保留其中一 段時間,另外也與圖 14 這些歌手佔據較多排行榜有關。出現次數超過數百的歌 手也十分的多,這些歌手大多是目前線上著名的歌手們,如圖 15。

圖 15 排行榜上所有歌手出現次數統計

接著我們將出現次數前 15 名的歌手與出現次數前 20 名的歌曲列舉出來,如 圖 16 以及圖 17。在歌手部分,我們可以清楚看到有四筆資料較為突出,依左至 右分別是「五月天」、「周杰倫」、「林俊傑」、「田馥甄」。其中五月天出現的次數 更超過五千次,從此圖便能夠能夠得知在近年極具影響力的歌手是哪些;而歌曲 部分,出現超過八百次的則有林俊傑的「修煉愛情」、五月天「傷心的人別聽慢

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

40

歌」、A Lin「幸福了 然後呢」、Kimberly「愛你」、周杰倫「有點甜」...等等。

圖 16 統計出現次數較多的歌手

圖 17 統計出現次數較多的歌曲

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

41

接下來是針對所有歌手以及歌曲製作交叉分佈圖,進行觀察。首先是歌曲發 行時間與排行之間的分佈關係,如圖 18。我們抓取資料的時間點為 2013 年八月,

在圖中 x 軸時間座標的「-12」(代表 2012)之後的歌曲數量較多。而 2012 之前 的歌曲也有零星的數目。

圖 18 歌曲發行日期與最高排行分布圖

依據圖 18 所示,可知在排行榜上的歌曲大多是在近期所發行的歌曲,而過 去的歌曲所佔數量不多。接著再對歌曲做了排行以及出現次數做了交叉分佈圖,

如圖 19,呈現指數型的分佈方式。觀察 Y 軸的排行名次,在近百名次的歌曲,

出現在排行榜的次數通常不高且集中;相反的,名次近前十的歌曲,出現在排行 榜的次數就十分的多,資料相對的比較分散。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

42

圖 19 歌曲排行與出現次數分布圖

從圖 19 可看出,最高排行較後面的歌曲,再次進入排行榜的機率不高,僅 有零星的歌曲,而隨著排行越來越前面,次數也會漸漸增加,也讓分布圖上的點 越來越分散。我們試著以「最高名次」去劃分資料,將名次分成「1-33」、「34-66」、

「67-100」等三個部分統計歌曲的數量,發現歌曲在各個名次區塊的數量其實是 差不多的,1-33 名的資料數量是 373,34-66 名的資料量是 274,而 67-100 名則 是 228。

最後我們做了歌手出現次數與歌曲上榜數目的分佈圖,如圖 20。從圖可以 明顯看出,歌手幾乎落在左下角的區域,也就是上榜的歌曲數量少且出現次數也 不多的部分;右上角則是上榜歌曲數目多且出現次數也較多的歌手,僅有零星的 數量。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

43

圖 20 歌手出現次數與歌曲數目分布圖 從上述的統計分析中,我們得到以下結論:

1. 榜上歌曲名次的浮動因素

名次的下滑主要與新進歌曲入榜有關,但從折線圖的浮動率來看,也受到新 聞媒體業的影響,這也證明了網路、媒體的推播在音樂的推廣上還是佔據極重要 的角色。

2. 近年最具影響力的歌曲與歌手

從「出現次數較多的歌手」、「榜中歌曲數較多的歌手」以及「歌曲出現次數 較高」可看出,近年來深受大眾喜愛也極具影響力的歌手是樂團「五月天」,不 論是榜上的出現率,抑或是歌曲的上榜率都是歌手之最,而周杰倫與林俊傑也是 次於五月天極具影響力的佼佼者。

本論文中所含有的資料是「KKBOX 排行榜」以及「KKBOX 臉書粉絲專頁」兩種,

排行榜的資料規格相同,屬於監督式資料(Supervised Data),在上一章節我們 進行了統計分析,來了解排行榜、歌手、歌曲近年來的各種變化,而臉書貼文的 資料多數為短篇幅的文章,與監督式資料不同,資料的特性模糊(Fuzzy),屬於 非監督式資料(Unsupervised Data),因此我們選用分群(Clustering)作為資料 分析的方法,欲透過分群處理呈現資料之間的相關性。

過去在分群的研究中,有著許多的文件分群(Document Clustering)的應 用,將分群應用在搜尋引擎上,將每一筆搜尋的結果經過處理後,再以文件分群 的演算法去進行分群,方便使用者能夠更快找到資料。如[9]即是將每一筆搜尋 結果當成是一個文件的內容,經過處理和過濾後,再透過[9]所提出的概念萃取 之文件分群方法進行分群,與關鍵字分群(Topic Keyword Clustering)進行比 較,得到顯著的成果。和[9]相同,[10]的研究中強調以詞做分群的重要性,單 Co-Clustering (雙分群演算法)同時對所有詞彙和貼文進行分群,將所有詞彙視 為等值去觀察其與貼文之間的差異以及所帶來的影響。