考慮權重 - 標籤探討 - 研究方法 - 臉書相片分類及使用者樣貌分析

第三章研究方法

3.3 標籤探討

3.3.2 考慮權重

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

所屬標籤的加總平均值當作門檻值，高於門檻值的標籤保留，而低於門檻值的則濾掉，

例如：如圖 3.32，若採用第一種方法且門檻值設值 0.3，則圖 3.32 (a)後面三項因為高於門檻值，所以會保留，但(b)後面 3 項則會被濾掉；若採用第二種方法，圖 3.32(b)的標籤信心分數加總平均值為 0.25，則低於此門檻值的後面四項會被濾掉。

（a）（b）

圖 3.32、過濾結果會依照過濾方式而有所不同

3.3.2 考慮權重

在分析結果時，標籤是個重要的指標，但有些標籤信心分數很低、影響力較小，

這時可能會造成結果上的誤差，因此除了原本的數量統計，另外還有考慮權重的統計，

計算方式為，原本是一個標籤若出現一次，該標籤累加值就加 1，但考慮權重後，則改為加上它信心分數的值。如圖 3.33 的“face”標籤，它在兩張圖中都有出現，但可以發現它的信心分數其實偏低，若採用原本的比重(如圖 3.33(c))，它對整體的影響會比實際還要多，但如果是考慮權重的方式(如圖 3.33(d))，該標籤的影響力會比較符合實際上的考量。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3.34、過濾的方式為前 7 個保留，後面 3 個若低於 0.05 就濾掉，左圖後面三項都有高於 0.05，所以都保留，但右圖後面三項都低於 0.05，所以都會濾掉

圖 3.35、過濾前無權重、過濾前加權重、過濾後無權重、過濾後加權重分別的結果

從結果來看，過濾前的前 50 項標籤與過濾後前 50 項標籤，經過比較後有 48 項一樣；而加權重前跟加權重後的前 50 項標籤，則有 40 項一樣，可以發現權重的影響比過濾大。

x x x o

o o

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3.3 合併意義相似的標籤(tag)項目

從標籤的結果來看，可以發現有些標籤的性質很接近，像是#woman、#female、#girl、

#lady 等(如圖 3.36)，或是#text、#font、#label、#word、#document 等(如圖 3.37)，因此可以將這些意思相似的標籤做合併再去分析。

圖 3.36、對於女性來說，有些標籤的性質很接近，像是#woman、#female、#girl 等

圖 3.37、對於文字類型來說，有些標籤的性質很接近，像是#text、#font、#document、

#letter、#word 等

針對標籤處理的部分(包括標籤分類以及標籤合併)，除研究員自行處理以外，另找二位研究生協同分類、合併。所有的標籤數量為 2119 個，經討論後，決定以總標籤的前 552 個項目(標籤出現次數大於等於 35 次)為母體，將標籤做先分類再合併的動作，分類的類別有：人物照、景物照、非寫實照、食物照、動物照、文字照、植物照、物品照、

以及其它，結果於附錄展示。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在正式分類前，會先進行相互同意度檢測，並根據王石番提出信度公式加以測量 [17]，相互同意度及信度計算公式如圖 3.38。

相互同意度 = 2 x 甲乙雙方完全同意之數目甲方應同意數目+乙方應同意數目

信度 = N x 平均相互同意度

1+(N−1) x 平均相互同意度，其中 N 為共同評定者人數

圖 3.38、相互同意度及信度計算公式

本研究共三位編碼員，在此以甲、乙、丙代稱，信度檢測結果如表 3.1，所以相互同意度為 P_甲乙= (2 ∗ 329)/(552 + 552) = 0.60、P_甲丙 = (2 ∗ 300)/(552 + 552) =

0.54、P_乙丙 = (2 ∗ 258)/(552 + 552) = 0.47，而平均相互同意度為P = (0.6 + 0.54 + 0.47)/3 = 0.54，所以本研究信度為3 x 0.54/{1 + [3 − 1]x0.54} = 0.78，因為不符合 0.90 信心水準以上，所以分類結果由三位編碼員共同討論後決定。

表格 3.1、信度檢測結果

編碼者甲同意數 編碼者乙同意數 編碼者丙同意數

編碼者甲 x x x

編碼者乙 329 x x

編碼者丙 300 258 x

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4. 用標籤將使用者分群是否會和用照片分類結果將使用者分群的結果一致?

5. 對於現有的資料，有何其他相關的應用?

希望透過這五個研究問題，對資料的統計結果有更深入的膫解。

4.1 使用者所張貼之相片，以哪種種類的相片最多?

首先由第一個問題開始，相片種類的定義範圍為“人物照”、“景物照”、“食物照”、

“動物照”、“主題照”、“文字照”、“非寫實照”以及“其他”，相片種類與範例圖片如表格 4.3。

表格 4.3、相片種類範例圖片

相片種類 範例圖片

人物照

景物照

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

食物照

動物照

主題照

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

文字照

非寫實照

其他

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

20 女 311 50 4 46 14 48 5

21 男 313 31 25 6 6 47 0

22 男 338 153 99 54 7 56 16

23 女 408 52 21 31 21 15 0

24 女 410 31 17 14 10 30 4

25 男 462 100 63 37 16 58 0

26 男 487 126 100 26 25 143 4

27 女 500 46 19 27 12 74 6

28 男 667 144 100 44 30 56 4

29 女 1136 304 63 241 115 389 19 30 女 1236 261 86 175 113 379 5 31 女 1240 306 105 201 134 428 5 32 男 1351 196 161 35 25 129 5

圖 4.3 為以表格 4.5 當作輸入資料所繪製的區域圖，從圖中可以發現，大多受測者的“個人照”或“小團體照”比例較高，再來是“異性照”，而“大團體照”則相對比例偏低，

這符合大眾直觀的預期，因為要拍“大團體照”可能會碰到一些問題，例如：通常是有特別的行程或活動，才有可能很多人聚在一起，然後因為人很多，所以拍照時會比平常花費更多的時間去協調、準備、就定位等等，而位置可能又是另一個問題，像要找到適合的背景、長官長輩要坐椅子、個子比較嬌小的要站前面等等，整體來說比自拍或與朋友拍照還要困難許多，故大團體照應會是比例相對低的子類別。

‧

1 2 3 4 5 6 7 8 9 1011121314151617181920212223242526272829303132 受測者編號

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

6 0 1 0 0 0 0 0 1 754

7 0 0 1 0 1 0 0 2 264

8 1 1 1 0 1 0 0 4 235

9 1 0 1 0 1 0 0 3 198

10 0 0 1 0 0 0 0 1 186

11 0 0 0 0 0 1 0 1 171

12 1 1 1 0 0 0 0 3 163

13 0 0 0 0 0 1 1 2 159

14 1 0 1 0 0 0 0 2 159

15 0 0 0 0 1 1 0 2 149

由表格 4.6 可以發現，排名第ㄧ的搭配是人物照加主題照的相片，第二為人物加景物，以及排名前十的搭配，幾乎都是相片分類比例較高的“人物照”、“景物照”、“主題照”、

“食物照”等交換搭配而成的組合，其中有“人物照”的搭配更是佔了六成，可以得知該群受測者的臉書相片，喜歡以人物為主，其他為輔。

4.2 男性、女性所張貼的相片內容，是否有所差異?

將表格 4.4，依照性別去做數量統計後，繪成折線圖如圖 4.6，可以發現整體的分佈趨勢差不多，但在“人物照”部分，女生張貼的數量比男性多。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.6、男性、女性分類結果比較折線圖(藍線為男性，紅線為女性)

從表格 4.5 也可以做一樣的動作，就是依照性別將“人物照”各子類別數量統計後，

繪成折線圖如圖 4.7，可以發現整體的趨勢差不多，一樣是個人照、小團體照居多，而異性照、大團體照較少，其中女性在人物照各子類別的張數都比男性多，以及女性的小團體照張貼的數量多於個人照，男性卻是個人照多於小團體照。

10%

15%

20%

25%

30%

35%

40%

人物照景物照食物照動物照主題照文字照非寫實照其他

男女分類結果比較

Female Male

‧

3 6 7 9 101113141619212225262832 個

數

受測者編號

男性使用者相片內性別數量加總

Male Female

0 500 1000 1500 2000

1 2 4 5 8 1215171820232427293031 個

數

受測者編號

女性使用者相片內性別數量加總

Male Female

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

由圖 4.8 折線圖可以用視覺分析很快發現，男性所張貼的照片裡，出現男性的數量幾乎多於女性數量(藍線普遍較高)；而女性所張貼的照片裡，出現女性的數量幾乎多於男性數量(紅線普遍較高)，且總數量也大於男性所張貼的照片，換句話說，此資料集可以間接驗證目前大學生活網絡，同性間相處仍然居多，故男性大多張貼與男性朋友照，

女性大多張貼與女性朋友照，因此同性的數量會大於異性。

4.3 如何依據資料內容，進行使用者樣貌分析?

此部分分成三個面向做探討，一為以相片的分類結果來將使用者做分群，並根據實驗結果分析每群的特性，第二個面向與第一個類似，只是就“人物照”部分去討論；第三則是以標籤的結果來將使用者做分群，並根據實驗結果分析每群的特性。

4.3.1 相片種類樣貌分析

可以藉由相片的分類結果來將使用者做分群，因為相片分類會將相片分成人物照、

景物照、食物照、動物照、主題照、文字照、非寫實照、以及其他類，那每張相片的分類結果加總，就可以當成該使用者的特徵之一(如圖 4.9)，接下來可以藉由 2.2.5 所提到的階層式分群演算法，將使用者分群，希望藉由群之間的特徵比較反映使用者的樣貌。

‧

群一 3.6.9.10.12.17.18.22.26.28.29.30.31 群二 1.2.5.8.11.20

群三 4.7.13.14.15.16.19.21.23.24.25.27.32

把各群資料加總，並繪製成折線圖如圖 4.10。

‧

群一 6.9.10.12.18.21.27.29.30.31

群二 1.2.3.4.5.8.13.16.19.20.24.25.26.32 群三 7.11.14.15.17.22.23.28

‧

clothing 2365 smile 2335 female 2320 people 2256 apparel 1728 leisure_

activities 1597 hair 1440 outdoors 1228

受測員

編號 face clothing smile female people apparel leisure_

activities hair outdoors text

1 46 15 15 9 12 11 6 2 2 24

‧

群二 17.22.3.8.20.2.5.11.18.29

群三 10.30.31.16.25.26.28.6.9.12.1.7.13.14.15.27.24.32 .4.21

face leisure_acti… graduation class party housing tree blossom night park umbrella dress dog fondue sea accessories diner

群1 群1

‧

此問題是想探討，由標籤這項第一手數據(Raw data)，將使用者分群結果，與經過分類、統計後的數據，以相片分類將使用者分群結果，是否一致。

藉由 2.2.5 所提到的階層式分群演算法，可以將使用者分群，並且可用階層架構數狀圖(dendrogram)將其表現出來，圖 4.15 為以標籤將使用者分群的階層樹狀圖，圖 4.16 為以相片分類結果將使用者分群的階層樹狀圖。若將使用者分為三群，從圖 4.15、4.16

0 5 10 15 20

face leisure_acti… graduation class party housing tree blossom night park umbrella dress dog fondue sea accessories diner

群2 群2

face leisure_acti… graduation class party housing tree blossom night park umbrella dress dog fondue sea accessories diner

群3 群3

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

可以發現分群結果不一樣，因為標籤跟分類結果是屬於不同層次的，另外，如果我們是將使用者分為五群，就我們資料集來看，多分出來的那兩群，因為群間的距離很接近，

所以結果可能不會有太大的差異，故我們只分三群，但如果蒐集的資料量夠大，切出來的結果或許會不一樣，這部分就會請做質性研究的人去解讀。

圖 4.15、以標籤為特徵將使用者分群的階層圖 分三群

分五群

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.16、以相片分類結果為特徵將使用者分群的階層圖

4.5 對於現有的資料，有何其他相關的應用?

本論文目前的實作結果是用網頁呈現(如圖 4.17)，最上面一排為該 FB 使用者所有的照片張數，以及人物照類別分別的張數，接下來為每張照片的分析結果，包括：照片內男性和女性的個數、如果有人物會顯示人物的性別以及所在的位置和大小、人物照類別（非人物照/個人照/異性照/小團體照/大團體照）、標籤以及標籤的信心分數。

分三群

分五群

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.17、本論文的實作結果

除此之外，可以利用現有的資料開發一個相片分類瀏覽系統網頁，並有自動過濾、

圖表呈現的功能，此網頁目的為協助質性研究員研究受測者之行為模式。在設計方面會參考臉書與 Instagram 等社群平台的呈現方法，以下對臉書與 Instagram 的呈現方法做簡單的說明。臉書是個很適合分享自己生活點滴的地方，也充滿許多的故事，對於照片的管理也有自己的一套模式，每位使用者會有三種相片分類：“有你在內的相片”、“你的相片”、“相簿” (如圖 4.18)。“有你在內的相片”，顧名思義，如果在相片上有出現自己的標記，便會出現在此類，“你的相片”為使用者上傳的相片，“相簿”為使用者按照事件關聯性所建立的相片集，相片呈現方式為方格狀排列，需要個別點進去才能看更詳細的資料。

人物照子類 別統計

男性、女性個數 &

人物照種類

Tag & Score

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.18、臉書的相片管理介面，目前所選的類別為“有你在內的相片”

在文檔中臉書相片分類及使用者樣貌分析 - 政大學術集成 (頁 48-0)

考慮權重

第三章 研究方法

3.3 標籤探討

3.3.2 考慮權重

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

男女分類結果比較

‧

男性使用者 相片內性別數量加總

女性使用者 相片內性別數量加總

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧

‧

‧

群1 群1

‧

群2 群2

第三章研究方法

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

男性使用者相片內性別數量加總

女性使用者相片內性別數量加總

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學