非監督式學習下高風險行為青少年探究 - 政大學術集成

全文

(1)國立政治大學統計學系研究所碩士學位論文. 立. 政治大. ‧ 國. 學. 非監督式學習下高風險行為青少年探討. ‧. Unsupervised Learning of Adolescent Risk-Taking Study. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授：周珮婷博士研究生：李承軒撰中華名國一○六年六月.

(2) 摘要本研究主要以非監督式學習的演算法，以兩種分群演算法，交叉探討青少年族群的高風險行為特徵。兩種分群演算法中，第一種為資料雲幾何樹，它具有溫度與時間兩個維度構面，透過溫度的篩選以及時間軸的自動偵測，提高群聚間的差異，另一種為聚合式階層分群法，它屬於簡潔明瞭、快速實用的方法。在此將風險行為資料分成連續型與類別型兩部分同時進行分群，並以檢定的方式來驗證是否滿足群間差異大。從顯著變數個數的比較中發現，階層式分群法的表現較佳，. 政治大. 推測其群間差異較大，而從一方面來看，從變異比的比較中發現，資料幾何雲樹. 立. 在特殊群聚下變異比較大，也就是群間差異大，反而階層式分群則只在第一次分. ‧ 國. 學. 群時群聚間差異較大，最後，計算特殊群聚與非特殊群聚的差異，發現特殊群聚. ‧. 的風險值較高，推測為高風險青少年，並從兩演算法下所得的特殊群聚中挑出重. y. sit. al. n. io. er. 料整理。. Nat. 複出現的觀測值，作為我們所要找的高風險青少年目標群，並針對目標群人口資. Ch. engchi. i n U. v. 關鍵字：非監督式學習、聚合式階層分群法、資料雲幾何樹、風險行為. i.

(3) Abstract The current study used the two clustering algorithms in unsupervised learning to explore adolescents’ risk-taking behaviors cross-culturally. The first algorithm was data cloud geometry tree, which considered two elements, temperature and time, in the algorithm. Through the filtering of temperature and the automatic detection of time axis, the differences between clusters were increased as temperature was lowered. The second algorithm was agglomerative hierarchical clustering, a simple and practical method. The risk-taking data were divided into two parts: numerical type. 政治大. and categorical type. Hypothesis tests were conducted to verify whether the. 立. differences between groups were significant. The results showed that the hierarchical. ‧ 國. 學. clustering method performed better. In addition, the findings showed that the group. ‧. differences in the special cluster were larger when using the data cloud geometry tree.. sit. y. Nat. Finally, the difference between the special group and the non-special group was. io. al. er. calculated, and the risk value of the special group was high, which identified the. n. potentially high-risk adolescents. The special clusters obtained from the two. Ch. engchi. i n U. v. algorithms were compared to get the repeated subjects, which served as our target. Also, demographic data of the target were discussed.. Keyword: unsupervised learning, agglomerative hierarchical clustering, data cloud geometry tree, risk-taking. ii.

(4) 謝辭. 這兩年在政大真的過得非常充實，很開心能夠成為政大人，未來我也會繼續. 以政大人為榮。首先我想要感謝政大統計系的老師，謝謝你們的教導與幫助，特別是周珮婷老師，感謝老師對我論文的指導以及在政大資料競賽的幫助，老師的高效率和善解人意也讓我十分佩服與感激，還有謝謝系辦兩位助教文敏與秋燕，時常麻煩他們很多瑣事，感謝統計所的同學們，因為你們，讓我的碩班生活更豐富與圓滿，謝謝便當學長在學校的照顧，另外，謝謝我生命中兩個貴人江老師與. 政治大在經濟上的支援，謝謝老媽在家事上的幫忙，還有姐姐跟猴子的消夜，沒有你們，立江媽，總是能在人生路上給我指引與幫助，最後，我想謝謝我的家人，謝謝老爸. ‧. ‧ 國. 學. 就沒有今天的我，在此由衷感恩。. n. er. io. sit. y. Nat. al. Ch. engchi. iii. i n U. v.

(5) 目次第一章緒論 .............................................................................. 1 第二章文獻探討 ...................................................................... 3 第三章資料敘述 ...................................................................... 5 第四章研究方法 ...................................................................... 9. 政治大第二節距離方式 ............................................................................................................... 14 立第三節檢定方式 ............................................................................................................... 15 第一節演算法 ..................................................................................................................... 9. ‧ 國. 學. 第五章研究過程與結果 ........................................................ 18. ‧. 第一節 DCG-TREE ............................................................................................................. 18. y. Nat. 第二節 HIERARCHICAL CLUSTERING ................................................................................. 26. sit. 第三節交互比較 ............................................................................................................... 33. al. er. io. 第四節群間變異比例 ....................................................................................................... 38. n. 第五節特殊群聚與非特殊群聚比較 ............................................................................... 43. i n U. Ch. v. engchi 第六章結論 ............................................................................ 50. 第一節研究結果 ............................................................................................................... 50 第二節研究討論與建議 ................................................................................................... 51. 第七章參考資料 .................................................................... 52. I.

(6) 表次表 1 各國籍、性別與年齡的資料概況。 ................................................................. 5 表 2 各因子下的變數個數。 ..................................................................................... 6 表 3 各類別的名稱與變數個數。 ............................................................................. 7 表 4 RT 在 DCG-tree 下的群聚個數。 .................................................................... 18 表 5 SS 在 DCG-tree 下的群聚個數。 .................................................................... 19 表 6 RT 原始資料與大群在 DCG-tree 下的群聚狀況。 ........................................ 21 表 7 SS 原始資料與大群在 DCG-tree 下的群聚狀況。 ........................................ 21 表 8 (左)RT 合併後的群聚個數、(右)SS 合併後的群聚個數。 ........................... 21 表 9 RT 在 DCG-tree 下的檢定結果。 ................................................................... 22. 政治大. 表 10 SS 在 DCG-tree 下的檢定結果。 .................................................................. 24 表 11 RT 在 HC 下的群聚個數。 ............................................................................ 26. 立. 表 12 SS 在 HC 下的群聚個數。 ............................................................................ 26. ‧ 國. 學. 表 13 RT 在 HC 下的檢定結果。 ............................................................................ 29 表 14 SS 在 HC 下的檢定結果。 ............................................................................ 31. ‧. 表 15 RT 特殊群聚在 HC 下的檢定結果。 ............................................................ 34 表 16 SS 特殊群聚在 HC 下的檢定結果。 ............................................................ 35. y. Nat. 表 17 RT 特殊群聚在 DCG-tree 下的檢定結果。 .................................................. 36. sit. 表 18 SS 特殊群聚在 DCG-tree 下的檢定結果。 .................................................. 37. er. io. 表 19 各資料集在兩演算法的特殊群聚中，皆有出現的觀測值。 ...................... 45. al. n. v i n Ch 表 21 在 RT 特殊群聚下，台灣大學生與台灣高中生的檢定結果。 ................... 49 engchi U 表 22 在 RT 下，特殊群聚與非特殊群聚的檢定結果。 ...................................... 49. 表 20 在 RT 特殊群聚下，美國大學生與台灣大學生的檢定結果。 ................... 48. 表 23 在 SS 下，特殊群聚與非特殊群聚的檢定結果。 ....................................... 49. II.

(7) 圖次圖 1 EW 數列圖。 ................................................................................................... 12 圖 2 樹狀圖結果與分群依據。 ............................................................................. 12 圖 3 ANOVA table。 ................................................................................................ 16 圖 4 RT 在 DCG-tree 下的分群結果。 .................................................................... 19 圖 5 SS 在 DCG-tree 下的分群結果。 .................................................................... 20 圖 6 (左)以 RT 在 DCG-tree 下的分群結果，看 MOM(左)和 DAD(右)群間差異。 .................................................................................................................................... 23 圖 7(左)以 SS 在 DCG-tree 下的分群結果，看 MOM(左)和 DAD(右)群間差異。 .................................................................................................................................... 25. 政治大. 圖 8 RT 在 HC 下的分群結果。 .............................................................................. 27 圖 9 SS 在 HC 下的分群結果。 .............................................................................. 27. 立. 圖 10 (左)以 RT 在 HC 下的分群結果，看 MOM(左)和 DAD(右)群間差異。 ... 30. ‧ 國. 學. 圖 11(左)以 SS 在 HC 下的分群結果，看 MOM(左)和 DAD(右)群間差異。 ..... 31 圖 12 RT 在 HC 的樹狀圖下，看 DCG-tree 的群聚情形。 .................................. 34. ‧. 圖 13 SS 在 HC 的樹狀圖下，看 DCG-tree 的群聚情形。 ................................... 35 圖 14 RT 在 DCG-tree 的樹狀圖下，看 HC 的群聚情形。 .................................. 36. y. Nat. 圖 15 SS 在 HC 的樹狀圖下，看 DCG-tree 的群聚情形。 ................................... 37. sit. 圖 16 以 MOM 來看，RT 在第一次分群結果下的變異比。 ................................ 38. er. io. 圖 17 以 MOM 來看，SS 在第一次分群結果下的變異比。 ................................ 39. al. n. v i n Ch 圖 19 以 DAD 來看，SS 在第一次分群結果下的變異比。 ................................. 40 engchi U 圖 20 以 MOM 來看，RT 特殊群聚在分群結果下的變異比。 ............................ 41. 圖 18 以 DAD 來看，RT 在第一次分群結果下的變異比。 ................................. 39. 圖 21 以 MOM 來看，SS 特殊群聚在分群結果下的變異比。 ............................ 41 圖 22 以 DAD 來看，RT 特殊群聚在分群結果下的變異比。 ............................. 42 圖 23 以 DAD 來看，SS 特殊群聚在分群結果下的變異比。 ............................. 42 圖 24 RT 在 DCG-tree 下，(左上)MOM 和 DAD 的大小群取平均，(右上)RT 的大小群取平均；SS 在 DCG-tree 下，(左下) MOM 和 DAD 的大小群取平均，(右下)RT 的大小群取平均。 .................................................................................................... 43 圖 25 RT 在 HC 下，(左上)對 MOM 和 DAD 的大小群取平均，(右上)對 RT 的大小群取平均；SS 在 HC 下，(左下) 對 MOM 和 DAD 的大小群取平均，(右下)對 RT 的大小群取平均。 .............................................................................................. 44 圖 26 RT 與 SS 人口資料特徵(國籍與受教狀況)。 ............................................... 46 圖 27 RT 與 SS 人口資料特徵(性別)。 .................................................................. 46. III.

(8) 圖 28 RT 與 SS 人口資料特徵(年齡)。 .................................................................. 47 圖 29 RT 與 SS 人口資料特徵(居住狀況)。 ........................................................... 47 圖 30 RT 與 SS 人口資料特徵(父母婚姻狀況)。 ................................................... 47 圖 31 RT 與 SS 人口資料特徵(母親最高教育程度)。 ........................................... 48 圖 32 RT 與 SS 人口資料特徵(父親最高教育程度)。 ........................................... 48. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. IV. i n U. v.

(9) 第一章緒論隨著計算科學的進步，資料的儲存空間不再是問題，更加速了資訊科學領域的發展。當資料量越來越大的同時，其複雜度也跟著提高，以往仰賴人力判別資料的作法，在講求速度、效率的時代中，更渴望由電腦運算代替人工判讀。如此一來，不僅在方法的選用上需格外留意，更考驗著內部演算法的精準度。因此，透過機器學習的方法，凸顯數據間的特徵進而提升學習的成效，將會是我們首要的目標。最後，當大數據的時代來臨時，是否容易陷入追求資料體愈大愈好，而. 治政稀釋掉一些重要資訊呢？而存在生活周遭中那些量體小的數據，如何將這些質量大立高的資料收集起來並加以對症下藥，這也是值得探討的課題。. ‧ 國. 學. 非監督式學習是對未標籤資料進行切割或聚集，結果取決於資料本身的特性. ‧. 與型態，透過給予特定的邏輯與方式，它會自己呈現初始的樣貌，在這學習過程. sit. y. Nat. 稱非監督式學習。然而，輸出的結果是較難預測，即使事前對過去模型的熟悉經. n. al. er. io. 驗，也無法具有相關的預測能力，可以知道的是，輸出的資料能呈現數據本身最. i n U. v. 原始的樣貌。由於學習的成效是不具有答案來驗證，因此，它需要藉由人工來進. Ch. engchi. 行標籤或命名，也會將其結果作為標籤資料集，可以是在分類時的前置作業，用來參考類別數，或者業界常應用在顧客分群，有助於了解客戶的特徵與消費習性等。在此，藉由風險行為資料的應用，我們希望能找到高風險的青少年族群，觀察其族群特性，了解高風險的可能因素，並盡早介入輔導及啟動預防措施，防止悲劇發生。本研究注重於了解在非監督式學習下不同演算法的結果比較，試圖找出青少年風險資料中屬於高風險之群體。比較的演算法有聚合式階層分群法（agglomerative hierarchical clustering）與資料幾何雲(data cloud geometry tree)，. 1.

(10) 對母體受試者進行分群後，利用分群結果作為依據，針對與父母控制有關的變數做變異數分析與Kruskal Wallis test，進而比較兩個演算法之間顯著項的差異，接著，觀察各變數的處理間平方和佔總變異平方和的比例，比較兩演算法之間是否有明顯差異。透過不同的演算法比較，凸顯數據間的特徵，加以確認辨別出高風險之青少年群體。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i n U. v.

(11) 第二章文獻探討在沒有先前資訊的情況下，透過非監督式學習的方式，如何將我們的資料有效地找出具有相同特徵的一群，並提出更有研究價值的成果，為我們研究的目標。Fushing & McAssey, (2010)所提出一非監督式學習方法『時間、溫度和資料雲幾何』的研究，以時間與溫度兩個維度構面，其中時間軸具有動態偵測的功能，可記錄下受調節隨機漫步的復發次數，藉由觀察兩高頻的節點得知群集成員的狀況；而溫度軸，藉著透過溫度的挑選，即可呈現資料雲最本質的幾何結構，對比. 政治大. 於一些熱門階層分群演算法，可能常見以下問題，其一當兩節點資料不相交等超. 立. 度量的情形發生時，往往過於仰賴一個合適的距離度量，其二當一個本質具有多. ‧ 國. 學. 尺度的資料，無法反映出應有的階層樣貌，舉例來說在三維空間下，群聚本身除. ‧. 了核心群聚（core cluster）外，如果能將本身不規則的群聚切割得更細緻，以致. sit. y. Nat. 空間上呈現凸面狀，將有助於凸顯各群聚間的差異，在此篇研究中，他們利用模. io. al. er. 擬資料將非凸面的群聚，有效地切割成核心群、內圈、外圈片段，使資料呈現出. n. 更多樣貌。另外，在挑選溫度時，在一定的溫度範圍內計算時間長度是可被控制. Ch. engchi. 的，可在多個處理器下利用平行運算提升效率。. i n U. v. 之後，Fushing, Wang, VanderWaal, McCowan, & Koehl, (2013)提出 DCG-tree 演算法，改良原本 DCG-tree 只考慮單一溫度下的分群。其具有兩個主要特色，一個為利用相似度測量數據間的幾何結構，並轉化到超度量空間，另一個為內部具有自動校正不同階層級別的成員，這兩個特點有助於解決多尺度特徵的問題，如遺傳學中破譯(decipher)基因密碼，此研究探討肯亞 Ol Pejeta 保護區觀察的母長頸鹿社會網路的空間和社會關係，空間和社會 DCG-tree 不僅顯示出相似的層次結構，在聚類配置中也表現出高度的對應關係，透過顏色編碼可視化，來表示. 3.

(12) 分群在社會 DCG-tree 同一群聚中的個體。相比之下，同一網絡構建的兩個 HC 樹狀圖卻顯示出相當不同的幾何，因此，藉由此 DCG-tree 的研究表現，我們將其研究應用在青少年高風險行為的資料，找出高風險特徵的族群。在 Abbas, (2008)所提出的研究中比較不同樣本數下 HC 演算法與其他分群演算法之間的差異。HC 演算法在小樣本下的分群結果較佳。由於我們資料集只有 760 個觀測值，樣本較小，因此選用 HC 作為我們的第二個分群演算法。 Murtagh & Legendre, (2011)提到 ward1 與 ward2 兩者計算距離的差異，並示範在 R 套件上的測試結果，可知 ward2 不需要再取平方，就可以得到組間最小. 治政大變異的結果，因此，我們將 ward2 應用在我們的研究方法。立 ‧ 國. 學. 距離選擇方面除了常見的歐式距離外，R.W. Hamming, (1950)由電腦科學的. 角度，藉由運用0和1使電腦做正確的判讀錯誤位置，並準確地改正錯誤，只考慮. ‧. 不是對就是錯。換個角度，如果這觀點從統計出發，要能精確估計誤差，又能輸. sit. y. Nat. 出真實的距離，以Hamming來算距離矩陣，以d維度呈現最多d個相異。我們的研. n. al. er. io. 究目標是找到高風險族群，屬於二分法的概念，所以使用Hamming距離作為我們類別資料的距離計算方式。. Ch. engchi. 4. i n U. v.

(13) 第三章資料敘述研究資料為 Dr. Chou 在加利福尼亞大學河濱分校和東南密蘇里州立大學的研究小組進行的青少年風險容忍數據。所取得的資料集共 760 筆觀測值，根據變數國籍和年紀，大致分成三組資料集，分別是 382 位美國大學生、156 位台灣大學生和 222 位台灣高中生，表 1 為受試者資料。表 1 各國籍、性別與年齡的資料概況。. 男性. 年紀平均治政大 31.9% 68.1% 18.53 立. 美國大學生. 382. 台灣大學生. 156. 34.6%. 65.4%. 18.94. 0.62. 台灣高中生. 222. 68.5%. 31.5%. 16.18. 0.70. 女性. 年紀標準差 0.53. ‧. ‧ 國. 人數. 學. 變數大致可歸類出幾個重要因子分成人口特性 (Demographic. Nat. sit. y. Characteristics)、雙親控制(Parental Control)、風險容忍度(Risk Tolerance)、行為情. n. al. er. io. 境(Risky Decision Making Scenarios)、風險接受者(Risking-Taker)、行為調查. i n U. v. (Risk-Taking Behavior)和風險知覺(Risk Involvement and Perception)，其中雙親控. Ch. engchi. 制(Parental Control)有分成母親和父親兩組變數，而經由各組的變數可分成心理控制(Psychological Control)與行為控制(Behavior Control)兩個因子，然而，隨著國籍與年紀的不同，針對受試者的問答題項也有所差異，如表2為受測者所對應的題項個數。. 5.

(14) 表 2 各因子下的變數個數。. 人口特性. 雙親控制. 心理. 風險. 行為. 風險. 行為. 風險. 容忍. 情境. 接受. 調查. 知覺. 9. 8. 54. 9. 8. 51. 8. 42. 行為度. 者. 控制控制. 美國大學. 10(identity). 38. 18. 8. 77. 生. 台灣大學. 10(finance). 生. ‧ 國. 10(finance). 38. 18. 8. 77. 0. ‧. 生. 立. 學. 台灣高中. 38. 治政 18 8 77 大. sit. y. Nat. io. al. er. 在美國大學生資料中，有一欄位「Identity」為詢問自我文化認同，多半未填. v. n. 答，考慮資料來源為美國的大學生，所以將未填答的部分填入 5（美國人），至. Ch. engchi. i n U. 於台灣的學生則無此欄位，而有一欄位「finance」為詢問經濟來源。依據 codebook 的題目類型，將變數分成八類如下表，其中 Behavior Survey and Risk 和 Involvement and Perception 兩類合併為一類（RB），此外，ELSE 中的變數為前面題項的組合變數。由於高中生仍未成年，所以 RT 的題項不會出現在台灣高中生的資料集中，將各類經整理後分成八類，如下表 3：. 6.

(15) 表 3 各類別的名稱與變數個數。類別名稱（簡稱）. 變數個數. General Background (GI). 10. Parenting: Mother (MOM). 29. Parenting: Father (DAD). 29. When is something too risky for you to do? (RT). 8. 政治大. Risky Decision Making Scenarios (SC). 77. 學. ‧ 國. 立. Are you a "risk-taker"? (SS). ‧. Behavior Survey and Risk ＆Involvement and Perception (RB). y. Nat. 62 52. er. al. n. io. sit. Combination of many variables (ELSE). 9. Ch. engchi. i n U. v. 本研究考量各資料集作答方式，以 RT 與 SS 兩筆資料為主，並在 ELSE 資料驗證分群狀況。SS 資料為類別資料（正整數 1 到 5），求距離矩陣時，我們以漢明距離（Hamming distance）計算類別變數間的關係，而 RT 的填答為 0-100 的值（百分比），我們選用歐式距離（Euclidean distance）計算。在 RT（760 筆）與 SS（538 筆）兩組資料集分別檢查各類別的資料是否有空值後，將有空值的觀測值刪除，其中 RT 刪除 6 筆，有 754 筆觀測值，SS 刪除 7 筆，有 531 筆觀測值。之後將於第五章進行檢定，用到 ELSE 資料集中的二十個變數，這些變數由 MOM 和 DAD 兩類別中的變數組合而成，分別代表著不同的意義，MOM 有 7.

(16) MConsVerExp、MInvaFeel、MPersAtt、MGuiltInd、MLoveWith、MDisresp、 MShame、MBehcontrolSum、MBehMonitorSum、MPsycontrolSum，而 DAD 有 FConsVerExp、FInvaFeel、FPersAtt、FGuiltInd、FLoveWith、FDisresp、FShame、 FBehcontrolSum、FBehMonitorSum、FPsycontrolSum，依序以編號 1 到 10 的形式呈現於表格中，最後分成兩組 MOM 和 DAD 進行探究。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 8. i n U. v.

(17) 第四章研究方法本研究欲使用此章第一節介紹之兩種方法對兩筆青少年資料（RT 與 SS 兩組資料集）分群，交叉比較後，利用檢定方法，找出較特殊的群體，並將群體的人口結構資訊表現出此群體特徵。此外，針對特殊群體，本研究將分別對美國大學生及台灣大學生做比較，及對台灣大學生及高中生做比較。使用之分群時的距離矩陣計算方法及檢定分群後各群關係的方法將分別在此章的第二節、第三節做介紹：. 立. 資料雲幾何樹(Data Cloud Geometry Tree). ‧ 國. 學. 一、. 政治大第一節演算法. 此機器學習之演算法為Fushing & McAssey, (2010) 所提出，並於Fushing,. ‧. Wang, VanderWaal, McCowan, & Koehl, (2013)改進。此非監督式學習的演算法主. sit. y. Nat. 要目的在找出事前資訊未知下之多維度結構，並取得資料的幾何特徵。運算方式. n. al. er. io. 主要以距離矩陣在多個不同尺度下找出資料的幾何結構，結合不同尺度下所得到. i n U. v. 的幾何結構資訊，描繪出最後的資料雲幾何樹。概略的流程如下：. Ch. engchi. （1）用相似性的量測方式對資料點作加權，生成可能有幾何結構的圖，（2）在不同的溫度尺度下，採用MCMC法，找出具有幾何結構的圖，（3）從多重的馬可夫漫步所收集而來的資訊，建立超度量空間，（4）將超度量空間以階層式樹圖呈現，稱為資料雲幾何樹。詳細的計算步驟如下：. 9.

(18) 1.. 首先將資料生成適當 n×n 距離矩陣. D = [d%& ] ，根據資料的種類，本研究. 會採用歐氏距離與漢明距離。設定溫度尺度 T 為一個大於0的調整變數，. )*+. e{- , } 且對角線設為0,. W 可視為一個. 因此，定義相似性矩陣 W = w$% 加權的圖，具有個節點. N = {N$ , … , N' } 和. !(!-$) &. 條邊界. E = {e%& |i, j = 1, … , n, i ≠ j} 。由此可知，隨著溫度. T 愈大，相似性. W 愈. 大，則不易區分出多群集，隨著溫度 T 愈接近0，相似性愈小，則易分出. 多群集。. ". D = diag{. + *,) w)*. + *,) w/*. * &+, w"& (T)/. * "+,. , … } 。所得. M" 經計算後，將收斂到穩態向. * &+, w"&. ‧. 量 π" T =. ,…,. M" = D-& W ，其中. 學. (Markovian transition probability matrix) ，即. ‧ 國. (T) 。由於收斂速度相當依賴給定. Nat. sit. y. T ，計算耗時費力，不易有效找出幾何結構的圖，因此，以下將改良. io. MCMC，稱作受調節隨機漫步（regulated random walk），將分兩部份說明。. n. al. er. 2.. 政治大使用 MCMC(Markov chain Monte Carlo)，計算 M 馬可夫轉移機率矩陣. 立. A.. Ch. engchi. i n U. v. 調整轉移矩陣的每個節點。每次隨機選出一個節點 i ，為避免節點. 選到的次數一樣多，當次數達到 N 次後，此節點會被移除，下次將. 挑選剩餘的節點，直到所有的節點都被選過後，將停止選取。本研究將 N 設定為5次。. B.. 記錄每個節點的次數，觀察兩個所移除節點間相繼的變化，隨機漫步的記錄將透露出群聚特徵。由於每群中第一個被選中和下一個被移除的節點皆是次數較多的，因此，將每一高頻率與到下一個高頻率之間的所有節點歸類為同一群，如此一來可分群，並計算一個矩. 10.

(19) 陣 M = [m%& ] ，當第. i 個節點與第. j 個節點在同一群，則. mij 為1，. 反之為0。. 3.. 反覆計算1000次受調節隨機漫步,將這1000個矩陣加總後除以1000，則求得同群機率矩陣 K = [k %& ] ，元素 k "# 表示第. i 個節點與第. j 個節點同群的. 機率。透過矩陣 K 選擇溫度尺度，以及判定資料所需的群聚數。. 4.. 設 Din 為對角項矩陣，其對角項元素為同群機率矩陣. K 每一行加總後開. 根號。設矩陣 Lsy = In-Din*K*Din ， ! 為資料樣本數，以. Lsy 矩陣的特. 徵值. 政治大 EW 數列，其中. EW = 11, 2, . . . , n) 產生. 立. = (. /. 1 ，由. ‧ 國. 學. 大到小排序並觀察其平穩狀態，平穩前的個數作為該組的群數，如圖1。再將矩陣內元素全為1的矩陣減去同群機率矩陣 K 得矩陣. L ，將. L 矩陣. ‧. 做為距離矩陣用於階層式分群法畫出分群樹，如圖2。以圖1與圖2為例，. y. Nat. io. sit. 觀察特徵值排序後前兩點後趨近平穩且分群樹也能依圖2所切高度能分2. n. al. er. 群，依此類推則可判定不同尺度下的各個群數。. 5.. Ch. engchi. i n U. v. 由步驟4判斷所有不同尺度下的群數,根據所有不同尺度與其對應的群數，得出最後畫出的資料雲幾何樹,為此演算法所求目的。. 11.

(20) 圖 1 EW 數列圖。. 圖 2 樹狀圖結果與分群依據。. 學. ‧ 國. 立. 政治大. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 12.

(21) 二、. 階層式分群法(Hierarchical Clustering Algorithms). 階層式分群演算法是一種常用的分群方式，主要分成聚合法（agglomerative algorithm）跟分裂法（divisive algorithm），透過階層架構，將資料一層層進行聚合或分裂，最後產生樹狀圖，並決定所需的群聚數。 1.. 首先，算出距離矩陣，依照資料的類型，本研究將在連續型的資料使用歐氏距離與類別型的資料使用漢明距離。. 2.. 本研究採聚合式，也就是將每一筆資料視為一個群聚，並將距離相近的兩個群聚合而為一，直到群聚數目達到所需的為止。使用華德法(Ward’s method). 治政大定義群聚間距離的計算方式，各點到合併後的群重心（以平均數表示）的距立離平方和。. 將分群的結果以樹狀圖呈現，選擇適當的群數。. 4.. 最後，測量在資料集下分群結構間的強韌度。. ‧. ‧ 國. 學. 3.. sit. y. Nat. 其優點為簡單易懂、運算快速且過程自動化，藉由兩資料點間的距離可以迅. n. al. er. io. 速得到資料的幾何結構，不需要資料點實際的座標位置。但其缺點在於，僅適用. i n U. v. 在資料量小，當資料量過大時，不易獲取資料的幾何結構。. Ch. engchi. 13.

(22) 第二節距離方式在資料探勘與機器學習等領域中，常會用到一些像分群、分類、推薦系統等方法來解決實際問題，因此，距離的量測將會扮演重要的角色，一般而言，根據演算法本身的需要以及資料的測度來決定。以下將會介紹兩種距離方式:. 一、. 歐氏距離. 在統計上，歐氏屬於常見的距離計算方式，多半將它應用在連續型的資料上。在歐幾里得空間中，有一資料集 X = (x% , … , x( ) ，共 n 筆觀測值，其中任兩. 政治大. 資料點 x" = (x"% , … , x"( ) 和 x" = (x"% , … , x"( ) 之間的歐氏距離為. 立. D x# , x% =. ). ). + ⋯ + x#, -x%,. . ‧ 國. 學. 二、. x#' -x%'. 漢明距離. ‧. 對於離散型的資料，漢明距離是一種直接且廣泛被應用的距離方式，它具有. sit. y. Nat. 簡單、運算快速的特性，主要考慮兩類別變數之間的差異，也就是看其非相似性. io. n. al. er. (dissimilarity)。假定有一資料集 X = (x% , … , x( ) ，共 n 筆觀測值，所包含的類別. v. 變數有 A" , … , A% 共有 d 個維度，x" = (x"% , x"' , … , x") )+，. x" x"# ∈ domain A# ，與 x" 兩觀測值的距離為. Ch. engchi. D x# , x% =. ) (*+ δ. i n U. x#( , x%(. . 其中. δ x#$ , x&$ =. 1, 0,. 14. if x#$ ≠ x&$ if x#$ = x&$.

(23) 第三節檢定方式本研究將先用前章所介紹的演算法對資料進行分群，並對分群結果進行檢定，確認分群結果符合研究要求，其中假說檢定是統計方法中常見的檢驗過程，目的是從樣本證據來判定假說真偽，以下將會介紹四個所使用到的檢驗方法:. 一、. 強韌度. 凝聚係數(agglomerative coefficient)，用來測量數據集的群聚結構，也可以被視為旗幟圖(banner plot)的平均寬度。其計算為將第 i 個觀測值與第一群合併時. 政治大 1. 的不相似性，除以其與最後一群合併時的不相似性所得 m" ，算式如下 . AC =. n. (*+. 1 − m( . 學. ‧ 國. 立. ). 可知當 AC 愈大，代表此群聚結構較為集中不至於太過分散。. 變異數分析. ‧. 二、. sit. y. Nat. 變異數分析（analysis of variance, ANOVA）檢定 k 個獨立母體期望值間是. io. n. al. CRD）的模型 Y"# = µ + α" + ε"#. er. 否有差異之檢定方法。採用一因子變異數分析完全隨機化設計（One-way ANOVA. v. Y"# 為第. µ" + ε"#， i = 1, … k, j = 1, … , n) ，其中. Ch. engchi. i n U. i 個處理中第. j 個樣本的觀測值，. µ 為 k 個獨立處理的總平均，. µ" 為第. i 個處. 理的母體平均數，α" 為第 effect），ε"# 為第. i 個處理的處理效應（treatment. i 個. 處理中第 j 個樣本的誤差效應（error effect），ε"# 須滿足常態性、獨立性、同質. 變異之假設。檢定方法為先建立 ANOVA 表如圖 3，在虛無假設為真下服從自由度 k − 1 , n − k 的 ! 分佈，首先建立假說：. H" : µ% = µ( = ⋯ = µ* H" : µ" , µ& , … , µ(. 15. .

(24) 計算 ANOVA table，如下圖 3 ANOVA table。. 變異來源. SS. DF. MS. 處理. SSTR. k-1. MSTR =. 誤差. SSE. n-k. MSE =. 總和. SSTO. n-1. 其中 SSTO = SSE =. . %,-. / &-.. *+ &,-. +, '-.. *. / &-.. = Y&' -Y.. , SSTR. 立. F=. MSTR. MSE. SSE. n−k. Y&. -Y.. ), . #$%& #$'. ℱ k − 1, n − k . 學. ‧ 國. SSTR. k−1. 政治大. ). Y%& -Y%. 。 . 檢定統計量：在 H0 下，F =. *+ ,-.. F. 拒絕域：RR = {F ≥ ℱ' (k − 1, n − k)} . ‧. 當檢定統計量大於臨界值時，則表示母體期望值間有顯著差異。. Nat. y. Kruskal Wallis test. sit. 三、. n. al. er. io. 檢定 k 個獨立母體中位數或母體分配位置是否有差異之無母數檢定方法。. i n U. v. 先將各組樣本混合並排序，數值由小排到大標記並排序分數，再將排序分數放回. Ch. engchi. 原各組內，分開加總各組之排序分數得 R" , R $ , … , R &，其中 k 為 3 以上。H 機率分布為自由度 k − 1 之卡方分布並用以檢定是否各組統計量完全相等。首先建立. 假說： H" : η% = η( = ⋯ = η* , k ≥ 3 H" : η" , η& , … , η( 不完全相等. 檢定統計量：在 H0 下，H =. #$ %(%'#). +. 5 )* 67# %. *. -3 n + 1 ~χ$ (k − 1) . 拒絕域：RR = {H ≥ χ(' (k − 1)} 當檢定統計量大於臨界值時，則表示母體中位數間有顯著差異。. 16.

(25) 四、. 杜奇真實顯著性差異. 當樣本證據顯示，k 個獨立母體期望值不完全相等，想進一步了之間的大小. 關係，則會把 k 個獨立母體進行兩兩比較，稱多重比較。杜奇真實顯著性差異. (Honestly Significant Difference, HSD)是多重比較法之一。杜奇檢定的公式：. HSD =. q& (k, n − k) 2. 1 1 + ) n1 n3. MSE(. 當任兩個平均差取絕對值大於 HSD，則表示兩母體平均在統計上有顯著差異。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 17. i n U. v.

(26) 第五章研究過程與結果第一節 DCG-tree 本節選用 RT 與 SS 兩組資料集，各別進行 DCG-tree 演算法，以下將分三部分討論：. 一、. 強韌度. 由於資料形態的不同，RT 與 SS 在算距離矩陣時，分別採用歐式距離與漢明距離，以歐氏距離計算連續型的資料較為常見，而漢明距離計算離散型資料較常. 治政見。接著，從各個 EW 數列圖中選出適當的溫度，在大RT 的部分，挑選了三個溫立. 度，在 SS 的部分則挑選了五個溫度，進行 DCG-tree 演算法，根據樹狀圖的結果，. ‧ 國. 學. 決定將 RT 分成五群，SS 分成六群，並觀察各群人數，發現有些群人數特別少，. ‧. 其中 RT 第三群人數只有兩個人，而 SS 的第五群跟第六群分別都只有一人，另. sit. y. Nat. 外，兩資料集有個共通處為分群後皆有一個群組的人數特別多，分別佔其全部人. n. al. er. io. 數的 0.93 及 0.85，因此，認為大群的特徵較為相近，對 RT 與 SS 兩組資料集的. i n U. v. 大群，再做 DCG-tree 演算法當作檢驗，是否大群中仍有單獨一群的觀測值。如. Ch. engchi. 圖 4 在 RT 下，變數分群的部分，依作答情形，可發現 1,3,4 題整體作答題項較相近，另外 2, 5, 7, 8 題較相近。如圖 5 在 SS 下，變數分群的部分，依作答情形，可發現 SSG1,SS1 題整體作答題項較相近，另外 2, 3, 4, 5, 6, 7, 8 題較相近。強韌度分別為 0.614(RT)及 0.798(SS)。表 4 RT 在 DCG-tree 下的群聚個數。. 組別 1. 2. 3. 4. 5. 個數 702. 28. 2. 11. 11. 18.

(27) 表 5 SS 在 DCG-tree 下的群聚個數。. 組別 1. 2. 3. 4. 5. 6. 個數 452. 26. 35. 16. 1. 1. 圖 4 RT 在 DCG-tree 下的分群結果。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 19. i n U. v.

(28) 圖 5 SS 在 DCG-tree 下的分群結果。. 立. 政治大. 對大群進行二次分群. sit. y. Nat. 二、. ‧. ‧ 國. 學. n. al. er. io. 以 RT 大群作為新的資料集，選用歐式距離作為距離矩陣，進行 DCG-tree. i n U. v. 演算，從 EW 數列圖中，同樣挑選了三個溫度，根據樹狀圖的結果，分成六個群. Ch. engchi. 聚並對各群人數進行觀察，發現有些群聚只分到一個觀測值，也就是仍然有一個群聚裡面只有一個觀測值的情況，因此，推估此大群仍為特徵較相近的一群，因此，故以原始資料作為比較基準。以 SS 大群作為新的資料集，選用漢明距離的方式，進行 DCG-tree 演算，根據樹狀圖的結果，發現有兩群只存在單一觀測值。為加強 SS 資料集的數據間的差異，將其關係放大 100 倍，並使用歐式距離計算，進行 DCG-tree 演算後，根據樹狀圖的結果分了五群，其中單獨一群的觀測值，在 100 倍的資料上有出現一群。因此，以漢明的原始資料作為比較基準。以上結果整理於表 6-7。. 20.

(29) 表 6 RT 原始資料與大群在 DCG-tree 下的群聚狀況。. RT. Euclidean. 群數. 原始資料. 大群. 5. 6 304. 一個群聚內，只分到一個的觀測（33,591）值或只分到兩個的觀測值. 政治大. 表 7 SS 原始資料與大群在 DCG-tree 下的群聚狀況。. io. 一個的觀測值. 原始資料. 5. 6. 336. 424.195. y. sit. Nat. 一個群聚內，只分到. 100 倍. al. n. ‧. 群數. Hamming. er. Euclidean. 學. SS. ‧ 國. 立. Ch. engchi. i n U. v. 針對觀測值個數小於五的群聚，我們將根據樹狀結構，往上一階層考慮，使這些過小的群聚與鄰近的群聚合併，讓每組個數均大於五，以利後續的檢定。合併後如表 8 所示。表 8 (左)RT 合併後的群聚個數、(右)SS 合併後的群聚個數。. 組別 1. 2. 3. 4. 組別 1. 2. 3. 4. 個數 704. 28. 11. 11. 個數 454. 26. 35. 16. 21.

(30) 三、. 檢定以連續型資料分群後的群間差異. 接著，根據 RT 的 DCG-tree 分群結果，從 ELSE 資料集中挑選出變數，檢定各變數下的群間差異，其中十個變數是由 MOM 資料集的變數線性組合而成的新變數，另外十個變數是由 DAD 資料集的變數線性組合而成的新變數。二十個組合變數各別對分群結果做 ANOVA test 和 K-W test。檢定結果如下表 9，發現 MOM 的顯著變數明顯較 DAD 的顯著變數多，而且在對十個 MOM 的組合變數做 K-W 時，多達六個顯著變數。從 ANOVA 來看，可以發現在 MOM 的變數下，具顯著差異的變數有 MPersAtt 、 MShame 、 MBehcontrolSum 、 MBehMonitorSum 、. 治政大 MPsycontrolSum，而在 DAD 的變數下，具有顯著差異的變數有 FShame、立 ‧ 國. 學. FBehcontrolSum、FBehMonitorSum，其中在 MOM 和 DAD 皆有出現的有 shame、. BehcontrolSum、BehMonitorSum，因此，推測這三個變數在此分群結果下群間差. ‧. 異較大。另外，對 ANOVA 的結果做 Tukey HSD，如表 9，在 MOM 下，可以發. y. sit. io. 表 9 RT 在 DCG-tree 下的檢定結果。. n. al. er. Nat. 現第一群與其他群有顯著差異。在 DAD 下，第一群與二及三群有顯著差異。. i n U. v. RT 在 DCG-tree 下，共分四個群聚. Ch. engchi. 檢定的資料集. MOM 的組合變數. 檢定. ANOVA. 顯著的變數. (3,7,8,9,10) (3,6,7,8,9,10) (7,8,9). Tukey HSD. 3. 4vs1. 7. 3vs1. 7. 3vs1. 8. 2vs1. 8. 2vs1. 9. 2vs1. 9. 1vs2,3. K-W. 10 4vs1. 22. DAD 的組合變數 ANOVA. K-W (7,8,9).

(31) 接著以熱圖呈現其差異如圖 6，x 軸為變數，y 軸為觀測值且由下而上代表第一到第四群，但由熱圖可知第一群與其他群間差異並不大，造成檢定顯著極可能是因為此群數量多於它群。另外編號 8、9、10 的變數，因尺度較大，所以此熱圖未一併畫出。圖 6 (左)以 RT 在 DCG-tree 下的分群結果，看 MOM(左)和 DAD(右)群間差異。. 立. ‧. ‧ 國. 學. 四、. 政治大. 檢定以類別型資料分群後的群間差異. sit. y. Nat. SS 的 DCG-tree 分群結果如下表，發現 K-W 顯著項與 ANOVA 的顯著項兩. n. al. er. io. 者差異不大，針對 DAD 變數下做 ANOVA 和 K-W test，皆有高達八個顯著變數，. i n U. v. MOM 變數下，也有七個顯著變數。從 ANOVA 結果來看，在 MOM 下，兩檢定. Ch. engchi. 具有顯著的變數有 MInvaFeel 、 MLoveWith 、 MDisresp 、 MShame 、 MBehcontrolSum、MBehMonitorSum、MPsycontrolSum，在 DAD 下兩檢定具顯著的變數有 FInvaFeel 、 FLoveWith 、 FDisresp 、 FShame 、 FBehcontrolSum 、 FBehMonitorSum、FPsycontrolSum，其中 InvaFeel、LoveWith、Disresp、Shame、 BehcontrolSum、BehMonitorSum、PsycontrolSum 在 MOM 和 DAD 皆為顯著變數，可知在此分群結果下，以這六個變數作為反應變數，其群間差異較大。進一步對 ANOVA 做 Tukey HSD，如表 10。發現例如 MShame（編號 7）中，第四群與第一群及第三群有顯著差異，而在 DAD 可以發現在 FConsVerExp、FPersAtt、. 23.

(32) FLoveWith、FBehMonitorSum、FPsycontrolSum（編號 1、3、5、9、10）下第一群與第二群及第三群有顯著差異。表 10 SS 在 DCG-tree 下的檢定結果。. SS 在 DCG-tree 下，共分四個群聚 MOM 的組合變數. DAD 的組合變數. 檢定. ANOVA. ANOVA. 顯著的變. (2,5,6,7,8,9,10) (2,5,6,7,8,9,10) (1,3,5,6,7,8,9,10). 檢定的資料集. K-W. 立. 數. (1,2,3,5,6,7,9,10). 1vs2,3. 5. 1vs3. 3. 1vs2,3. 4vs1,3. 5. 1vs2,3. 1vs2,3. 6. 1vs2. io. 9. 1vs2. 10. 1vs4. al. n. 8. Ch. 9. engchi 10. er. 7. sit. 1. y. ‧ 國. 1vs3. Nat. 2. ‧. Tukey HSD. 政治大. 學. (Hamming). K-W. i n U. v. 1vs2,3 1vs2,3. 接著以熱圖呈現其差異如圖 7，無論是 MOM 或 DAD 的熱圖，並無法看出明顯的群間差異。. 24.

(33) 圖 7(左)以 SS 在 DCG-tree 下的分群結果，看 MOM(左)和 DAD(右)群間差異。. 治政大以 DCG-tree 演算法對 RT（連續型）與 SS（離散型）分群，可以發現 SS 的立. ‧ 國. 學. 顯著項較 RT 來得多，而在 RT 中，皆有顯著的變數有編號 7、8、9 為主，在 SS 中，皆有顯著的變數有編號 5、6、7、9、10 為主。因此變數 7 與 9 可能為主要. ‧. 影響青少年風險行為原因。. n. er. io. sit. y. Nat. al. Ch. engchi. 25. i n U. v.

(34) 第二節 Hierarchical Clustering 本節以 RT 與 SS 兩個資料集進行階層式分群演算法，距離矩陣分別選用歐氏距離和漢明距離，並以華德法作為聚合的方式，最後，根據樹狀圖的結果選擇適當的群數。過程將分兩部份進行討論：. 一、. 強韌度. 主要目的是跟 DCG-tree 的演算法結果比較，因此在同個資料集下，HC 的群聚數將挑選與 DCG-tree 的群聚數相似，其中 RT 與 SS 分別分成五個與六個群聚如圖 8 在 RT 下，變數分群的部分，依作答情形，可發現 1, 3, 4 題整體作答題項. 治政大較相近，另外 2, 5, 7, 8 題較相近。如圖 9 在 SS 下，變數分群的部分，依作答情立 ‧ 國. 學. 形，可發現 SSG1,SS1 題整體作答題項較相近，另外 2, 3, 4, 5, 6, 7, 8 題較相近。如下表 11-12，RT 與 SS 各自的分群下，其各組人數與 DCG-tree 人數相比較均勻。. ‧. 強韌度分別為 0.981(RT)及 0.977(SC)。接著，對於以下各組平均數進行檢定。. 257. 3. Ch. 266. y 4. sit. 個數. al. 2. n. 1. io. 組別. er. Nat. 表 11 RT 在 HC 下的群聚個數。. 115. engchi. i82 v n U. 5 34. 表 12 SS 在 HC 下的群聚個數。. 組別. 1. 2. 3. 4. 5. 6. 個數. 116. 181. 69. 59. 41. 65. 26.

(35) 圖 8 RT 在 HC 下的分群結果。. 立. 圖 9 SS 在 HC 下的分群結果。. ‧. ‧ 國. 學. io. sit. y. Nat. n. al. er. 政治大. Ch. engchi. i n U. v. 27.

(36) 二. 檢定以連續型資料分群後的各組間差異接著，根據 HC 的分群結果，做 ANOVA test 和 K-W test。如下表 13，從 DAD 的結果發現，兩個檢定的顯著項皆達到九個，以 ANOVA 的顯著變數來看，MOM 有 MConsVerExp、MInvaFeel、MPersAtt、MDisresp、MShame、MBehcontrolSum、 MBehMonitorSum、MPsycontrolSum，而 DAD 有 FConsVerExp、FInvaFeel、 FPersAtt、FLoveWith、FDisresp、FShame、FBehcontrolSum、FBehMonitorSum、 FPsycontrolSum，其中兩者皆有 ConsVerExp、InvaFeel、PersAtt、Disresp、Shame、 BehcontrolSum、BehMonitorSum、PsycontrolSum，可知這八個變數在此分群結. 治政大來看在 MConsVerExp 下，果下群間差異較大。進一步做 Tukey HSD，從 MOM 立 ‧ 國. 學. 第一群與第三群及第四群有顯著差異，而 MInvaFeel 下，第一群與第三群、第四群及第五群有顯著差異。在八個顯著變數中，皆顯示第一群與第四群是有差異的;. ‧. 從 DAD 來看，在 FConsVerExp 下，第四群與第一群及第二群有顯著差異，在. sit. y. Nat. FInvaFeel 下，第一群與第二群、第三群及第四群有顯著差異，而 FBehcontrolSum. n. al. er. io. 下，第一群與第二群、第三群、第四群及第五群有顯著差異。九個顯著變數中，皆顯示第一群與第四群是有差異的。. Ch. engchi. 28. i n U. v.

(37) 表 13 RT 在 HC 下的檢定結果。. RT 在 HC 下，共分五個群聚檢定的資. MOM 的組合變數. DAD 的組合變數. 料集檢定. ANOVA. K-W. ANOVA. K-W. 顯著的變. (1,2,3,6,7,8,9,10). (3,5,7,8,9,10) (1,2,3,5,6,7,8,9,10). 數. (1,2,3,5,6,7, 8,9,10). Tukey. 1. 1vs3,4. HSD. 2. 1vs3,4,5. 3. 1vs3,4. 4vs1,5. 2vs3,4. 3. 4vs1. 6. 1vs2,4. 5. 4vs1,2. 7. 1vs4. 6. 4vs1,2. 1vs3,4. 7. 1vs2,3,4,5. n. 2vs4. 9. 1vs2,3,4,5. 10. 1vs3,4,5. Ch. 8. e n g c h i9. y. sit. io. al. i v1vs2,3,4 n U. 10. 29. 1vs2,3,4. er. Nat. 8. 4vs1,2. ‧. ‧ 國. 立. 1. 政治 2 大. 學. 4vs2. 1vs2,4.

(38) 圖 10 為顯示各群差異熱圖，發現各組間差異不易以視覺化表現出。圖 10 (左)以 RT 在 HC 下的分群結果，看 MOM(左)和 DAD(右)群間差異。. 三、. 政治大. 檢定以類別型資料分群後的各組間差異. 立. 針對 SS 的 HC 分群結果，將 ELSE 資料集中的二十個組合變數各別做. ‧ 國. 學. ANOVA test 和 K-W test，可以發現 MOM 的變數中，兩檢定皆有六個以上顯著. ‧. 變數，而 DAD 的變數中，有七個顯著變數。以 ANOVA 來看，MOM 有 MPersAtt、. sit. y. Nat. MLoveWith、MDisresp、MBehcontrolSum、MBehMonitorSum、MPsycontrolSum，. io. al. er. DAD 有 FConsVerExp、FPersAtt、FLoveWith、FDisresp、FBehcontrolSum、. n. FBehMonitorSum、FPsycontrolSum，兩者皆有 PersAtt、LoveWith、Disresp、. Ch. engchi. i n U. v. BehcontrolSum、BehMonitorSum、PsycontrolSum，因此，推測這六個變數在 HC 分群結果下群間差異較大。接著，對 ANOVA 的結果做 Tukey HSD，找出顯著差異的群組，結果如表 14，例如在 MPersAtt 下，第三群與第一群及第二群有顯著差異，以此類推。在 MOM 或 DAD 變數下，第四群與第二群較有顯著差異。 . 30.

(39) 表 14 SS 在 HC 下的檢定結果。. SS 在 HC 下，共分六個群聚 MOM 的組合變數. DAD 的組合變數. 檢定. ANOVA. K-W. ANOVA. K-W. 顯著的. (3,5,6,8,9,10). (2,3,5,6,8,9,10). (1,3,5,6,8,9,10). (1,3,5,6,8,9,10). Tukey. 3. 3vs1,2. HSD. 5. 1vs3,4. 檢定的資料集. 變數. 2vs3,4. 5. 4vs1,2. 4vs2. 6. 4vs2. 4vs2. 8. 3vs1,2. 9. 3vs1,2. 10. 4vs1,2. y. sit. io. al. er. 10 4vs1,2. ‧. ‧ 國. 4vs1,2. 學. 9. 3. Nat. 6. 立. 政治1 1vs3,4 大. n. v i n CDAD 圖 11 以熱圖表示 MOM 及變數下群間差異。如同之前結果，此筆資料 hen gchi U 不適合以此種熱圖顯示出差異。圖 11(左)以 SS 在 HC 下的分群結果，看 MOM(左)和 DAD(右)群間差異。. 31.

(40) 綜合上述觀察，比較 HC 與 DCG-tree 的顯著變數來看，在 RT 連續行資料下， ANOVA 檢定下，HC 顯著項個數是明顯多於 DCG-tree 的顯著項個數，從 K-W 檢定來看，DCG-tree 的顯著項個數則比 HC 多；在 SS 類別型的資料，DCG-tree 的個數與 HC 的個數兩者差異不大。以皆有顯著差異的群來看，在 DCG-tree 中，第一群出現最多，其次第四群，在 HC 中，第四群出現最多，其次第二群。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 32. i n U. v.

(41) 第三節交互比較根據上述顯著項比較過後，想進一步了解兩個演算法下的分群結構是否相近，因此，以一個演算法的樹狀圖為基底，將另一演算法所得每個群聚給予不同顏色標記，對應回基底的樹狀圖，並觀察樣本的分散情形。. 一、. HC 中特殊的兩群. 以 RT 及 SS 的資料進行 HC 分群後，根據 HC 為基底的樹狀圖下，如圖 12-13 可以觀察到第四群與第五群都集中在圖的左側，這兩群的人數少且顏色較為不一. 政治大分別針對這兩群樣本，再次執行立 HC 演算法，且設定群數不變，並對其分群結果樣，在 RT 為風險容忍度的表現較為特殊，在 SS 為行為情境表現特殊。因此，. ‧ 國. 學. 做檢定，比較其顯著項的多寡。從下表 15 發現在 DAD 下，十個組合變數中，t-test 有兩個顯著變數，而 K-W 有三個顯著變數，其顯著項的個數都相當的少。從下. ‧. 表 16 可以發現在 K-W 下，十個 MOM 組合變數中有一個顯著變數，十個 DAD. y. Nat. io. sit. 組合變數中有一個顯著變數，其顯著項的個數依舊相當的少。因此，無論在 HC. n. al. er. 或 DCG-tree，這兩群皆有較相同的特徵，無顯著的差異，可能就是高風險行為的一群人。. Ch. engchi. 33. i n U. v.

(42) 圖 12 RT 在 HC 的樹狀圖下，看 DCG-tree 的群聚情形。. 立. 政治大. K-W. 無. Ch. sit. y. al. t-test. DAD 的組合變數. er. ‧ 國. ‧. MOM 的組合變數. n. 顯著的變數. RT 在 HC 下，共分兩個群聚. io. 檢定. 表 15 RT 特殊群聚在 HC 下的檢定結果。. Nat. 檢定的資料集. 學. （由左至右為第四、五、三、一、二群）. t-test. v ni. e n無 g c h i U(2,3). 34. K-W (2,3,10).

(43) 圖 13 SS 在 HC 的樹狀圖下，看 DCG-tree 的群聚情形。. 立. 政治大. DAD 的組合變數. t-test. t-test. 二、. 無. Ch. sit. er. al. K-W. y. MOM 的組合變數. n 顯著的變數. ‧. SS 在 HC 下，共分兩個群聚. io. 檢定. 表 16 SS 特殊群聚在 HC 下的檢定結果。. Nat. 檢定的資料集. 學. ‧ 國. （由左至右為第四、五、三、六、一、二群）. (3). engchi. i n U 無. v. K-W (7). DCG-tree 中特殊的三群. 以 RT 的資料進行 DCG-tree 演算後，根據 DCG-tree 為基底的樹狀圖如圖 14，第二、三、四群集中在圖的右邊，由於這三群的人數少且顏色較為一致，可能是風險容忍度較為特殊的人。因此，針對這三群樣本，再次執行 DCG-tree 演算法看是否會有組間差異，且設定群數不變，並對其分群結果做檢定，比較其顯著項的多寡。從下表 17 可知 RT 在經過二次 DCG-tree 演算法後，沒有顯著項的個數，因此，無論在 HC 或 DCG-tree，這三群皆有較相同的特徵，可能就是高風險行為的一群人。. 35.

(44) 圖 14 RT 在 DCG-tree 的樹狀圖下，看 HC 的群聚情形。. 學. ‧ 國. 立. 政治大. （由左至右為第一、四、二、三群）. y DAD 的組合變數. aANOVA K-W ANOVA iv l C n hengchi U. n. 顯著的變數. sit. io. 檢定. MOM 的組合變數. er. Nat. 檢定的資料集. RT 在 DCG-tree 下，共分三個群聚. ‧. 表 17 RT 特殊群聚在 DCG-tree 下的檢定結果。. 無. 無. (9). K-W (9). 以 SS 資料集進行 DCG-tree 後，根據 DCG-tree 為基底的樹狀圖如圖 15 下，可以觀察到第二、三、四群集中在圖的右邊，這三群人數較少且顏色較一致，因此，行為情境的表現較為特殊。因此，針對這三群樣本，再次執行 DCG-tree，。從下表 18 可知 SS 在經過二次 DCG-tree 後，ANOVA 僅有一個顯著變數，因此，無論在 HC 或 DCG-tree，這三群皆有較相同的特徵，可能就是高風險行為的一群人。. 36.

(45) 圖 15 SS 在 HC 的樹狀圖下，看 DCG-tree 的群聚情形。. 立. 政治大. ‧ 國. 學. （由左至右為第一、四、二、三群）. 表 18 SS 特殊群聚在 DCG-tree 下的檢定結果。. ‧. al. (7). y. sit. DAD 的組合變數. er. ANOVA. n. 顯著的變數. MOM 的組合變數. io. 檢定. Nat. 檢定的資料集. SS 在 DCG-tree 下，共分三個群聚. K-W. Ch. (7). ANOVA K-W. engchi. i n U. 無. v. 無. 根據上述兩演算法對特殊群聚的檢定結果，不論是 DCG-tree 或 HC 演算法，顯著的變數都十分的少，代表這些特殊群聚之間差異不大。進一步比較 HC 跟 DCG-tree 的顯著個數，可以發現 HC 略多於 DCG-tree，但看不出明顯差異，因此，我們認為將特殊的群聚經過第兩次分群後，HC 的表現略佳。由上述比較可知，HC 在特殊群聚的表現較佳。因此，RT 資料集在 HC 下，可推論第四、五群可能為高風險行為的青少年；SS 資料集在 HC 下，可推論第四、五群可能為高風險行為的青少年。. 37.

(46) 第四節群間變異比例由上述的顯著項比較後，想進一步了解兩演算法在檢定過程中的真實誤差，也就是群間差異，觀察 HC 與 DCG-tree 的幾何特徵顯著與否，因此，根據上述檢定所得 ANOVA table，以 x 軸為變數，y 軸為處理變異平方和除上總變異的平方和，畫出各變數下其變異比例的折線圖，當 value 愈大時，則 SSTR 較大，表示組間變異大，反之，當 value 小時，則 SSTR 較小，表示組間變異小。. 一、. 第一次分群. 政治大法與 HC 演算法，可以看到十個變數中有九個變數 HC 的變異比大於 DCG-tree 立. 圖 16 為根據 RT 資料的分群結果，對 MOM 的十個變數進行 DCG-tree 演算. ‧ 國. 學. 的變異比，表示 HC 各群間差異大。 . 圖 16 以 MOM 來看，RT 在第一次分群結果下的變異比。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 17 為根據 SS 資料集的分群結果，對 MOM 的十個變數進行 DCG-tree 演算法與 HC 演算法，可以看到十個變數中有六個變數 HC 的變異比大於 DCG-tree 的變異比，表示 HC 各群間差異大。. 38.

(47) 圖 17 以 MOM 來看，SS 在第一次分群結果下的變異比。. 立. 政治大. ‧ 國. 學. 圖 18 為根據 RT 資料集的分群結果，對 DAD 的十個變數進行 DCG-tree 演算法與 HC 演算法，可以看到十個變數中有八個變數 HC 的變異比大於 DCG-tree. ‧. 的變異比，表示 HC 各群間差異大。. n. al. er. io. sit. y. Nat. 圖 18 以 DAD 來看，RT 在第一次分群結果下的變異比。. Ch. engchi. i n U. v. 圖 19 為根據 SS 資料集的分群結果，對 DAD 的十個變數進行 DCG-tree 演算法與 HC 演算法，可以看到十個變數中僅有五個變數，HC 的變異比大於. 39.

(48) DCG-tree 的變異比，表示兩演算法之間差異不大。圖 19 以 DAD 來看，SS 在第一次分群結果下的變異比。. 立. 政治大. ‧ 國. 學. 將所有人進行第一次分群後，以 ANOVA 檢定結果所得的變異比，來比較演. ‧. 算法之間的差異，可以發現 HC 變異比大於 DCG-tree 變異比的個數明顯較多，. y. sit. 對特殊的群聚進行第二次分群 l. Ch. engchi. er. a. n. 二、. io. 青少年。. Nat. 也就是說 HC 各群間差異大，推斷 HC 的分群結果，有利於我們找到高風險行為. i n U. v. 圖 20 為根據 RT 資料集的分群結果，對 MOM 的十個變數進行 DCG-tree 演算法與 HC 演算法比較，可看到十個變數中有九個變數 DCG-tree 的變異比大於 HC 的變異比。同樣方法在 SS 資料集檢測，分群計算結果如圖 21，可看到 SS 中十個變數中有六個變數的 DCG-tree 的變異比大於 HC 的變異比，兩張圖皆表示 DCG-tree 各群組間差異大。. 40.

(49) 圖 20 以 MOM 來看，RT 特殊群聚在分群結果下的變異比。. 立. 政治大. 圖 21 以 MOM 來看，SS 特殊群聚在分群結果下的變異比。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 對 DAD 的十個變數進行 DCG-tree 演算法與 HC 演算法分別在兩筆資料比較，如下圖 22 RT 資料集的分群結果及圖 23 SS 資料集的分群結果，可看到十個變數中有五個變數 DCG-tree 的變異比大於 HC 的變異比，表示兩演算法之間差異不大。. 41.

(50) 圖 22 以 DAD 來看，RT 特殊群聚在分群結果下的變異比。. 政治大. 立. 圖 23 以 DAD 來看，SS 特殊群聚在分群結果下的變異比。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 從特殊的群聚來看變異比，只在 MOM 的變數中發現 DCG-tree 的變異比較大於 HC。在 DAD 的變數中，則較難依現有資料比較兩者差異。我們將在下節針對特殊群及非特殊群比較。. 42.

(51) 第五節特殊群聚與非特殊群聚比較根據上述的交互比較後，我們針對 RT、SS 資料進行兩演算法所得結果，將特殊的群聚視為小群，剩下的群聚視為大群，並對 14 個組合變數、RT 資料集、 SS 資料集取平均進行比較。. 一、. DCG-tree 與 HC. 針對 DCG-tree 演算法對各變數取平均，如下圖 24 左上跟左下可以發現，小群的平均明顯高於大群，表示他們父母的控制慾望較強，這小群為高風險行為的. 政治大較高，父母的控制慾望較強，推測他們為高風險行為的青少年，一旦有個高風險立. 青少年。如下圖 24 右上跟右下，小群的平均皆較高，也就是他們的風險容忍度. ‧ 國. 學. 行為將發生時，這群人認為自己有非常大的可能成為此風險接受者。圖 24 RT 在 DCG-tree 下，(左上)MOM 和 DAD 的大小群取平均，(右上)RT 的大小群取平均；SS. ‧. 在 DCG-tree 下，(左下) MOM 和 DAD 的大小群取平均，(右下)RT 的大小群取平均。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 根據 HC 演算法在不同資料集下的分群結果，將特殊的群視為小群，剩下的. 43.

(52) 為大群，對各個變數取平均比較，如下圖 25，發現只有在 FGuiltlnd 及 FShame 變數，小群的平均小於大群的平均，其餘變數皆小群的平均明顯高於大群，表示他們父母的控制慾望較強，風險容忍度較高，這小群較可能為高風險行為青少年。圖 25 RT 在 HC 下，(左上)對 MOM 和 DAD 的大小群取平均，(右上)對 RT 的大小群取平均；SS 在 HC 下，(左下) 對 MOM 和 DAD 的大小群取平均，(右下)對 RT 的大小群取平均。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. n U engchi. iv. 不論在 DCG-tree 或 HC，絕大多數小群的平均高於大群的平均，因此，推斷 HC 與 DCG-tree 的交互比較下，特殊的群聚確實就是高風險的一群。. 二、. 高風險青少年. 以下將兩演算法中特殊群聚交互比對後，選出皆有出現的觀測值。也就是挑選 DCG-tree 的特殊群聚與 HC 的特殊群聚同時出現的青少年，並分成兩部分連續型與離散型來看，其中 RT 資料集下，具有 46 筆可能為高風險的青少年；在 SS 資料集下，具有 22 筆可能為高風險的青少年，整理如下表 19。. 44.

(53) 表 19 各資料集在兩演算法的特殊群聚中，皆有出現的觀測值。. 資料集. 高風險青少年. 高風險青少年. 人數 RT. 46. 10.158.189.195.203.267.367.394.396.412.415.444.458.46 2.469.481.483.504.508.523.527.532.539.553.572.575.603. 611.634.635.636.640.643.648.649.656.671.672.676.677.6 86.693.702.708.719.758. SS. 22. 4.6.10.26.42.51.57.102.105.107.110.169.185.186.219.292.. 政治大. 306.309.349.354.395.477. 立. 而各群人口資料特徵，如圖 26 國籍與受教狀況，在 RT 中，高風險青少年. ‧ 國. 學. 以台灣高中生最多 24 人，約占 50%，在 SS 中，高風險青少年以美國大學生為. ‧. 主有 20 人，約占 90%。如圖 27 性別，在 RT 中，高風險青少年以男性較多 29. sit. y. Nat. 人，約占 64%，在 SS 中，高風險青少年以女性較多有 15 人，約占 68%。如圖. io. al. er. 28 年齡，在 RT 中，各年齡層皆有，其中高風險青少年以 16 歲最多有 14 人，約. v. n. 占 30%，在 SS 中，高風險青少年以 18 歲最多有 11 人，約占 50%。如圖 29 居. Ch. engchi. i n U. 住狀況，在 RT 中，其中高風險青少年和父母/親人居住最多，共 11 人約占 50%，且與朋友居住次多，有到 9 人佔 41%，在 SS 中，高風險青少年以住學校宿舍最多有 13 人，接近 60%，反而與父母/親人居住最少僅佔 4 人。如圖 30 父母婚姻狀況，在 RT 中，高風險青少年的父母皆結婚最多，共 37 人約占 80%，在 SS 中，也以結婚最多有 13 人，接近 60%，與 RT 不一樣的是有 2 人屬於未結婚/單身。如圖 31 母親最高教育程度，在 RT 中，高風險青少年的母親以高中/職最多，共 18 人約占 41%，次多為大學，共 12 人佔 27%，值得注意的是教育程度在高中/ 職與五專以下，超過一半，約有 57%，在 SS 中，高風險青少年的母親以大學最. 45.

(54) 多，共 8 人約占 36%，次多為五專，有 4 人佔 18%，特別的是，最高教育程度為博士的比例約 10%。如圖 32 父親最高教育程度，在 RT 中，高風險青少年的父親以高中/職最多，共 14 人約占 31%，次多為五專，共 11 人佔 24%，值得注意的是教育程度在高中/職與五專以下，將近 70%，在 SS 中，高風險青少年的父親以大學最多，共 7 人約占 32%，碩士跟五專為次多，皆有 4 人各佔 18%，特別的是教育程度大學以上的比例超過一半，將近 60%，因此，RT 來看，台灣高中男生較有可能去做高風險的事，推測主要受到家庭因素的影響，可能是父母的教育程度、與父母同住等種種因素，SS 來看，美國大學女生比較有可能承擔高. 治政大風險的行為，推測主要原因可能是外宿較自由、父母的教育方式不同所導致。立圖 26 RT 與 SS 人口資料特徵(國籍與受教狀況)。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 27 RT 與 SS 人口資料特徵(性別)。. . . 46.

(55) 圖 28 RT 與 SS 人口資料特徵(年齡)。. 圖 29 RT 與 SS 人口資料特徵(居住狀況)。. 立. 政治大. ‧. ‧ 國. 學. y. Nat. . n. al. er. io. sit. 圖 30 RT 與 SS 人口資料特徵(父母婚姻狀況)。. Ch. engchi. . i n U. v. 47.

(56) 圖 31 RT 與 SS 人口資料特徵(母親最高教育程度)。. 圖 32 RT 與 SS 人口資料特徵(父親最高教育程度)。. 立. 政治大. y. sit. io. 接著，針對挑選出來的高風險族群，以 RT 來看，觀察美國大學生與台灣大. er. ‧. ‧ 國. 學. Nat. al. n. v i n 學生在 MBehcontrolSum、FBehcontrolSum、MPsycontrolSum、PsycontrolSum、 Ch engchi U. RBGeneral 變數下的是否有顯著差異，其中部分觀測值在變數下為空值，因此，予以刪除並記錄。根據 t-test 的結果如表 20，發現在各變數下皆不顯著，可知此研究在 RT 下挑選的高風險青少年，其美國大學生與台灣大學生在雙親的行為控制與心理控制上是沒有差異，風險行為也是沒有差異的。表 20 在 RT 特殊群聚下，美國大學生與台灣大學生的檢定結果。. RT. 美國大學生台灣大學生 t-test 平均值. p-value. 平均值. 觀測值. MBehcontrolSum 18.42857. 18.4. 0.01805. 0.986. FBehcontrolSum. 16.73333. -0.63859. 0.5353. 16. 48. 刪除的. 367.

(57) MPsycontrolSum. 11.66857. 11.64643. 0.01392. 0.9892. PsycontrolSum. 12.57857. 11.46533. 0.49614. 0.6335. RBGeneral. 2.665714. 2.17. 1.0537. 0.3124. 481.611. 如表 21 根據 t-test 的結果，發現在各變數下皆不顯著，可知此研究在 RT 下挑選的高風險青少年，其台灣大學生與台灣高中生在雙親的行為控制與心理控制上是沒有差異，風險行為也是沒有差異的。表 21 在 RT 特殊群聚下，台灣大學生與台灣高中生的檢定結果。. RT. 台灣大學生台灣高中生 t-test 平均值. p-value. 刪除的. 平均值. 觀測值. MBehcontrolSum 18.4. 18.54167. -0.14186. 0.888. FBehcontrolSum. 16.73333. 16.54167. 0.17578. 0.8614. MPsycontrolSum. 11.64643. 12.57391. FPsycontrolSum RBGeneral. 0.3688. 11.46533. 治-0.91047 政大 10.58875 0.73276. 2.17. 1.717083. 0.3082. 立. 1.0333. 481.611. 0.4684. ‧ 國. 學. 針對挑選出來的高風險族群，以 RT 來看，觀察特殊群聚與非特殊群聚在 ToleranceAve、SSave 變數下的是否有顯著差異，如表 22 根據 t-test 的結果，發忍度上是有差異的，風險接受者也有差異的。. ‧. 現在各變數下皆顯著，可知此研究在 RT 下，其特殊群聚與非特殊群聚在風險容. io. 平均值. t-test. 非特殊群聚平均值. SSave. 2.348485. p-value. a l 22.14938 22.985 v i <2.2e-16 n Ch e n g3.7222 1.762716 c h i U 0.001182. n. ToleranceAve 60.91935. sit. 特殊群聚. er. RT. y. Nat. 表 22 在 RT 下，特殊群聚與非特殊群聚的檢定結果。. 刪除的觀測值. 如表 23 根據 T-test 的結果，發現在各變數下僅 SSave 顯著，可知此研究在 RT 下，其特殊群聚與非特殊群聚在風險接受者上是有差異的，然而在風險容忍度是沒有差異的。表 23 在 SS 下，特殊群聚與非特殊群聚的檢定結果。. SS. 特殊群聚. 非特殊群. 平均值. 聚平均值. t-test. p-value. 刪除的觀測值. ToleranceAve 24.20636. 21.38764. 0.77455. 0.4467. SSave. 1.751146. 6.7697. 7.344e-07. 2.616162. 49.

(58) 第六章結論第一節研究結果本研究的主要目的為在非監督式學習下，對高風險行為青少年的探討。首先，從 DCG-tree 和 HC 兩種非監督式學習之演算法來看我們的分群結果，發現針對 20 個顯著變數的檢定成果，在連續型的資料下，HC 的顯著個數確實來得較多，而在類別型的資料下，兩演算法之間的顯著個數差異不大。接著，進一步想. 政治大四、五群為表現特殊的群聚，從 DCG-tree 來看，發現 RT 與 SS 兩樹狀圖裡第二、立. 了解兩演算法間的幾何結構是否相似，從 HC 來看，發現 RT 與 SS 兩樹狀圖裡第. ‧ 國. 學. 三、四群為表現特殊的群聚，並對這些表現特殊的群聚做二次分群，結果顯著項相當少，發現在兩演算法下特殊的群聚間差異不大，推測可能為高風險行為青少. ‧. 年的群聚。進一步來看，不同類型資料下兩演算法的組間變異比，可發現在特殊. y. Nat. io. sit. 群聚中，DCG-tree 的變異比大於 HC 的變異比的個數明顯較多，也就是在假設特. n. al. er. 殊群為目標高風險青少群資料幾何相近的群體，經過再次分群，DCG-tree 可將. Ch. i n U. v. 群間差異拉大。最後，我們對特殊的群聚跟非特殊的群聚取平均進行比較，可以. engchi. 發現小群的平均值明顯高於大群的平均值，證實這些特殊的群聚極可能就是所要找的目標群高風險青少年，從不同的比較基準，HC 在原始資料下表現較佳，但 DCG-tree 演算法在資料幾何過於相似的情況下，表現較 HC 好。另外，在 RT 與 SS 兩筆資料下，所找出的高風險青少年共 67 位，其中只有一名同時在兩筆資料分析結果下出現，該名青少年的資料需仰賴專業知識檢查是否為離群值。此研究方法能應用在具有高風險行為預測的領域，像股票分析，可以透過投資人的交易資料，藉由不同的分群演算法交互比較，精準地找出偏好買賣高風險股票的投資人，推薦合適的股票選擇；另外在情商分析上，藉由實驗或測驗所得. 50.

(59) 數據，透過分群演算法間的比較，找出可能在人際關係或者情緒管理較弱者，適時地給予輔助與引導，以降低高危險的社會事件發生；在行銷上，常見的顧客行為預測，例如記錄顧客們的購買習慣以及和賣家互動狀況，並根據這些行為所產生出來的數據，找出特徵十分相近的客群，針對這些特徵，發出相關的產品優惠給客人，當買家購買的同時，也增加了更多數據。. 第二節研究討論與建議由於目前的研究尚未有一標準方法確認分群結果的正確，須仰賴對於資料有. 政治大演算法下的分群結果進行交互比較，然而，藉由不同的演算法組合來看其樹狀結立專業知識者進一步評估分群之結果。未來此研究可嘗試更多的分群方式，根據各. ‧ 國. 學. 構中顏色的變化，可找出具有高風險特徵的群聚，再透過檢定結果來評斷是否滿足組間差異大的條件，最後交叉挑選出最佳的組合作為所要找的目標群聚。. ‧. Jia, Cheung, & Liu, (2016)此篇論文提出一個新的距離計算方式，對非監督式. y. Nat. io. sit. 學習的類別型資料做分群，對照組以 Hamming distance 作為其中一個比較基準，. er. 比較兩距離所得群的平均組內變異比，可以發現 Hamming distance 所求得得組內. al. n. v i n 變異比來得高，另外一篇論文CAhmad & Dey, (2007)所提出在類別型下兩資料點 hengchi U. 的距離計算方式，不像以往用計算兩資料點的距離是否相等的方式，而是觀察類別變數對資料集的影響。它是以 K 模式聚類演算法分別在 Hamming 和提出的距離方法 ALGO_DISTANCE 進行比較，結果顯示其資料在群集分析中，群間距離變大、群內距離變小，著實改善了分群的效果，這兩篇論文所提出的距離計算的概念若可以到移植我們的類別型資料，並且應用於 DCG-tree 演算法，可能有助於提升我們在 DCG-tree 的分群結果。. 51.

(60) 第七章參考資料 Abbas, O. A. (2008). Comparisons Between Data Clustering Algorithms. Int. Arab J. Inf. Technol., 5(3), 320-325. Ahmad, A., & Dey, L. (2007). A method to compute distance between two categorical values of same attribute in unsupervised learning for categorical data set. Pattern Recognition Letters, 28(1), 110-118. Fushing, H., & McAssey, M. P. (2010). Time, temperature, and data cloud geometry.. 治政 Physical Review E, 82(6), 061110. 大立. Fushing, H., Wang, H., VanderWaal, K., McCowan, B., & Koehl, P. (2013).. ‧ 國. 學. Multi-scale clustering by building a robust and self correcting ultrametric. ‧. topology on data points. PLoS ONE, 8(2), e56259.. sit. y. Nat. Hamming, R. W. (1950), Error Detecting and Error Correcting Codes. Bell System. n. al. er. io. Technical Journal, 29: 147–160. doi: 10.1002/j.1538-7305.1950.tb00463.x. i n U. v. Jia, H., Cheung, Y.-m., & Liu, J. (2016). A new distance metric for unsupervised. Ch. engchi. learning of categorical data. IEEE transactions on neural networks and learning systems, 27(5), 1065-1079. Murtagh, F., & Legendre, P. (2011). Ward's hierarchical clustering method: clustering criterion and agglomerative algorithm. arXiv preprint arXiv:1111.6285.. 52.

(61)