研究設計 - 透過資料探勘技術探討網路圖片正負情緒量詞色彩呈現之研究

根據以上研究動機與眾多文獻的討論，為了找出網路圖片色彩呈現與情緒量詞間的關係，針對實驗過程中會遇到的各種問題而設計了解決的辦法。本研究探究使用多個程度副詞搭配情緒量詞作資料探勘（網際網路圖片搜尋），再將搜尋結果組合成8x8 解析度為 1000x1000 的矩陣，接著透過色彩量化方法將組合好圖片的色彩量化，最後將組合圖片量化後的色彩資訊與色票書的配色建議比對，進而討論情緒量詞與網路圖片色彩呈現的關係，以下就分為「參數選擇」與

「主要實驗」兩部分進行說明。

一、 參數選擇

因為網際網路的圖片非常多，所以我們首先在主要的實驗前先針對中英文各三個情緒量詞，中文分別是“有趣”、“愉快“、“愉悅”，英文分別是happy, cheerful, pretty，程度副詞是中英文各 8 種，中文分別是“比較”、“好”、“有點”、“非常”、“很”、“相當”、“格外”、“稍微”，並控制圖片數量在搜尋網際網路圖片結果前30 張、60 張、100 張，以及圖片組合後解析度控制在 1000x1000、3000x3000、6000x6000、9000x9000，最後還嘗試過濾混濁的色彩從0-150，將以上條件作各種排列組合後，找出表現較好的組合來進行實驗，

判斷標準則是與配色書提供的色票做色差計算，統計數量較高者表示效果較佳。

以下針對每個部分進一步說明。

(1) 數量的控制：

透過下圖 23，可以看到中英文情緒量詞在不同數量的綜合表現，分別表示代表藍色30 張、橘色 60 張、灰色 100 張圖片，水平座標表示不同的過濾顏色規則，垂直座標表示與配色書提供的色票比對色差低於 100 的數量，透過圖片我們可以看到大部分60 張跟 100 張圖片所分析出來的效果差不多。

圖 23. 參數選擇：數量控制

下圖24 則是加總所有與色票書比對低於 100 的數量，並分別以中英文的角度來看控制不同數量後的差別，透過圖表我們可以看到，中文不論幾張圖片差別並不明顯，而英文的圖片搜尋結果前60 張圖片效果比較好。圖中藍色線表示加總結果、橘色線是英文、灰色現為中文表現

圖 24. 參數選擇：數量控制 2

(2) 解析度的控制：

下圖25 不同顏色的線條，分別表示當下載來的圖片組合後的解析度控制，

藍色表示解析度控制在300dpi 1000x1000 像素、橘色為 3000x3000、灰色為 6000x6000、黃色為 9000x9000，水平軸是不同的過濾數值，縱軸則表示在色差比對下，色差值總和小於100（平均誤差值小於 33）的數量統計。

圖 25. 參數選擇：解析度控制

圖26 則加總圖三的所有數量，從中文與英文的角度來看解析度控制的效果，

在中文3000x3000 的解析度稍微比 1000x1000 的解析度還要來得好一點，英文則是很明顯在1000x1000 的表顯上很突出，整理上來看 1000x1000 解析度表現是最好的。圖中藍色線表示加總結果、橘色線是英文、灰色現為中文表現。

圖 26. 參數選擇：解析度控制 2

(3) 混濁色彩的過濾：

當 RGB 數值彼此差距太小則會產生渾濁的顏色，所以我們試著分別過濾 RGB 數值彼此之間小於 0-150 並觀察不同過濾規則下的表現。下圖 27 中可以看到中英文各種過濾規則的表現，是加總所有排料組合後的結果，水平座標為過濾規則 0-150，縱座標為與配色書提供之色票的色差計算低於 100 的數量。觀察後發現，當過濾規則為RGB 彼此間同時都低於 120 的時候表現最好，這個結果是在中英文都同時發生的。英文（橘色線）在超過 120 後效果就開始下降，中文（灰色線）則是持續升高。

RGB 數值彼此之間小於 0-150 的意思是，例如有個色彩的 RGB 數值分別為，

R：150，G：100，B：30，這樣表示 R 與 G 的數值彼此之間差 50，而 G 與 B 的數值彼此之間差 70，如果是這樣的數值，在本研究中就會被過濾掉。另一個例子是，R：30，G：150，B：120，這表示 R 與 G 的數值彼此間相差 120，但 G 與B 的數值彼此間相差 30，這樣的數值還是會被過濾掉。在本研究中，必需要 R 與 G，G 與 B，R 與 B 三者都要相差 120 以上才是會被保留列入計算的色彩。

圖 27. 參數選擇：混濁色彩過濾

在下一頁圖中我們可以看到不同色票在不同過濾規則下的表現與統計結果，

圖的下方為針對某兩個色票的比對結果，可以看到一個色票在過濾數值為 140 時最佳，另一個色票則是在數值為80 時最佳，請參照下圖 28。而綜合所有色票的結果則得到最佳的結果在數值120，如上圖 27。

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 total 234 343 431 550 647 829 1165 1544 2132 2855 3983 4824 5428 5416 5482 5412 english 178 238 276 311 370 463 664 892 1202 1604 2207 2538 2785 2774 2703 2542 chinese 44 93 148 198 253 317 410 520 849 1099 1619 2009 2368 2639 2731 2811

0 1000 2000 3000 4000 5000 6000

過濾規則

total english chinese

圖 28. 參數選擇：混濁色彩過濾 2

(4) 一致性色差的設定：

我們將色差計算結果以數據與色彩對照的方式呈現，研究設計中排除誤差平均20 以上的配對結果（總誤差值 60 以上），色差平均高於 15 我們認為差異過大，請參考下表7：左方為配色書建議之配色與其 LAab 數值，右方為網路圖片色彩量化後的色彩與其 Lab 數值，CIE2000 數值為色差計算後左右兩個色彩之間的色差值。

表 7. 色彩差計算結果示意圖（色彩過濾前）

色票總誤差 L a b CIE2000 L a b 圖片

57.54463 76.44955 15.21766 52.13787 18.5491 64.49767 9.521008 13.93518 65.74657 -31.8176 -11.4157 2.609142 63.85116 -31.8586 -14.8369 44.45013 67.24355 56.458 36.38639 12.48013 2.874903 4.058581

57.57813 82.6867 -27.6445 69.3659 34.10333 63.65888 7.905185 9.305382 65.74657 -31.8176 -11.4157 2.423366 66.67207 -37.6537 -12.3354 28.80948 9.163022 -46.5315 21.05144 14.36263 -1.27143 -2.65133

58.72993 53.06923 62.0864 -5.55551 4.481905 53.61786 67.3792 2.689338 79.74408 -30.4267 73.26029 28.59637 82.39466 5.586415 11.34244 35.36445 -19.8542 -0.96186 25.65166 31.88322 3.769726 0.083703

59.70771 74.73363 -29.6724 11.13347 14.39902 72.68363 -8.23715 -0.03128 95.23058 1.99315 -0.34349 14.28684 80.6796 9.10759 10.54789 54.52816 13.48075 -31.9454 31.02185 26.6848 5.847991 0.19514

60.97338 28.80948 9.163022 -46.5315 22.5185 16.41169 -0.74506 -0.9867 94.66187 -14.7503 88.82236 35.40104 64.57304 5.373061 8.879625 62.22504 -37.2999 5.000532 3.053842 64.67182 -43.1346 3.983545

二、 主要實驗

本研究採用正負情緒量詞各六個（卓淑玲, et al.，2013）分別為：愉快、甜美、快樂、幸福、甜蜜、平靜、浮躁、哀愁、憂鬱、苦澀、寂寞、不安，並與9 個程度副詞組合（含單詞），分別為：比較、好、有點、非常、很、相當、格外、

稍微，形成共108 個組合，請參考表 1 所示。透過 Bing 圖片搜尋引擎，分別搜尋該程度副詞與情緒量詞的組合共108 組（程度副詞 9 個，情緒量詞 12 個），

取得並下載圖片搜尋引擎判定最佳搜尋結果的圖片進行研究。在搜尋結果的所有圖片中，排名越前面的圖片越符合搜尋結果，本研究將取前25 張圖片作為研究樣本。再將每個圖片搜尋結果25 張圖片分別組合成 5x5 的矩陣，以每張圖片為中心放入 5x5 方形的矩陣中其餘的部分切割掉，使得每張圖片的大小一致，

如此產生共108 個 5x5 的正方形圖片矩陣。接著把組合好的 108 個 5x5 的正方形圖片矩陣統一輸出成 1000x1000pixel 300dpi 的圖片共 108 張，使得每張圖片解析度一致，如此控制以確保色彩量化結果不被以上因素影響請。

表 8. 正負情緒量詞 12 個與 9 個程度副詞（含單詞）組合

情緒量詞

程度副詞 愉快甜美快樂幸福甜蜜平靜浮躁哀愁憂鬱苦澀寂寞不安

單詞 ^愉快 ^甜美 ^快樂 ^幸福 ^甜蜜 ^平靜 ^浮躁 ^哀愁 ^憂鬱 ^苦澀 ^寂寞 ^不安

比較 ^比較愉快 ^比較甜美 ^比較快樂 ^比較幸福 ^比較甜蜜 ^比較平靜 ^比較浮躁 ^比較哀愁 ^比較憂鬱 ^比較苦澀 ^比較寂寞 ^比較不安好 ^好愉快 ^好甜美 ^好快樂 ^好幸福 ^好甜蜜 ^好平靜 ^好浮躁 ^好哀愁 ^好憂鬱 ^好苦澀 ^好寂寞 ^好不安

有點 ^有點愉快 ^有點甜美 ^有點快樂 ^有點幸福 ^有點甜蜜 ^有點平靜 ^有點浮躁 ^有點哀愁 ^有點憂鬱 ^有點苦澀 ^有點寂寞 ^有點不安非常 ^非常愉快 ^非常甜美 ^非常快樂 ^非常幸福 ^非常甜蜜 ^非常平靜 ^非常浮躁 ^非常哀愁 ^非常憂鬱 ^非常苦澀 ^非常寂寞 ^非常不安很 ^很愉快 ^很甜美 ^很快樂 ^很幸福 ^很甜蜜 ^很平靜 ^很浮躁 ^很哀愁 ^很憂鬱 ^很苦澀 ^很寂寞 ^很不安

相當 ^相當愉快 ^相當甜美 ^相當快樂 ^相當幸福 ^相當甜蜜 ^相當平靜 ^相當浮躁 ^相當哀愁 ^相當憂鬱 ^相當苦澀 ^相當寂寞 ^相當不安格外 ^格外快樂 ^格外甜美 ^格外快樂 ^格外幸福 ^格外甜蜜 ^格外平靜 ^格外浮躁 ^格外哀愁 ^格外憂鬱 ^格外苦澀 ^格外寂寞 ^格外不安稍微 ^稍微快樂 ^稍微甜美 ^稍微快樂 ^稍微幸福 ^稍微甜蜜 ^稍微平靜 ^稍微浮躁 ^稍微哀愁 ^稍微憂鬱 ^稍微苦澀 ^稍微寂寞 ^稍微不安

(1) 下載並組合圖片：

第一步驟，我們透過網路爬蟲程式 Bulk Bing Image Downloader 來抓取網路圖片，該程式會模擬我們人類開啟瀏覽器輸入關鍵字做圖片搜尋，將搜尋結果頁面的程式碼全部抓下來分析，找出該頁面中含有圖片的網址並將圖片下載，如下圖29(a)，上方的色彩為該網頁圖片搜尋結果紀行色彩量化後的色彩呈現，由左而又是色彩比例的排名，最左邊為比例最高的色彩。接著，將下載的圖片組合成一整張圖片，如下圖29(b)，右方的色彩為該圖片組合進行色彩量化後所呈現的色彩比例最多的前10 名（由上至下，最上方為比例最高的色彩）。

(a) (b)

圖 29. 下載並組合圖片

(a)組合前(b)組合後

本研究要觀察不同程度副詞與情緒量詞組合後的差異，所以在資料探勘的過程中，嘗試每一種組合，例如：快樂，搭配本研究所準備的8 種程度副詞，例如：比較、好、有點、非常、很、相當、格外、稍微，組合後針對每一個組合在網際網路上做資料探勘，例如：比較快樂、好快樂、有點快樂。如下圖30 所示：

圖 30. 情緒量詞與程度副詞組合

針對每一個情緒量詞與程度副詞的組合後，本研究將每個組合所蒐集來的網路圖片在集合成一張圖片。目的是要統一圖片的規格、比例、解析度等，透過組集合成一張圖片，大家的大小、數量、解析度都會統一，避免掉因為某張圖片解析度特別大、顏色種類特別雜，而影響實驗結果。如圖所示，上一頁為網路搜尋頁面，可以看到圖片大小不等的問題，如下圖31 所示，可以看到為情緒量詞與程度副詞組合後統一規格合成後的組合圖片。

圖 31. 統一大小數量與解析度的情緒量詞與程度副詞圖片組合

(2) 網路圖片色彩量化與色彩過濾：

第二步驟是做色彩量化，將我們下載到的網際網路圖片色彩量化後，我們就可以針對色彩進一步的討論，在這步驟我們使用Color Thief 工具，他們採用的方法是修正後的Median Cut（Bloomberg, D. S.，2008.），將圖片中的色彩按照色彩的分布切割，把相近的色彩歸類在一起並統計，便可以得知該圖片比例最高的顏色為何，如下圖32 所示：

圖片來源：Debevec, P.，2006.

圖 32. 網路圖片色彩量化

圖33 為圖片經過色彩量化後的示意圖，右方數字為色彩量化後比例排名：

1 2 3 4 5 6 7 8 9 10

圖 33. 「快樂」網路圖片色彩過濾範例 1

藉由Color Thief 對圖片色彩擷取的功能，本研究將 Color Thief 應用在網路圖片的色彩擷取，也就是在前一步驟所提到，將網路圖片統一格式：大小、解析度等組合成一張圖片，如下圖34 所示，右方為 Color Thief 在組合圖片色彩量化後所擷取出來的前10 大比例的顏色，最上方為佔整張組合圖片比例最多的顏色：

圖 34. 網路圖片組合後色彩量化

如上圖34 所示，若直接對網路圖片色彩量化，所得到的顏色組成會有很多是黑色、灰色等混濁顏色，所以在第一個部分段環境設定有提到本研究所設定的

在文檔中透過資料探勘技術探討網路圖片正負情緒量詞色彩呈現之研究 (頁 52-0)