方法二(機器學習預測法) - 運用文字探勘技術在社群行為上之人格預測

4.4 方法二(機器學習預測法)

圖 31 為針對方法二(機器學習預測法)所開發的程式，此程式的設計原則為將資料依 80/20 法則，將有回填心理測驗問卷資料的 80%為訓練資料集，而將剩餘 20%的資料列為測試資料集，目的為了將 80%訓練後所得到的五大分類的詞彙記載於資料庫中，供 20%測試集資料預測五大人格分類。

圖 31 功能解說

Directory：選擇欲匯入方法二的文字檔目錄 Connection String：資料庫連結設定

Exec：開始執行機器學習預測法

圖 31：方法二實作介面資料來源：此圖自行整理

執行 Method2 程式前的前置動作，需先完成以下表 7 步驟。Method2 程式的 GUI

依每個人心理測驗回傳結果，經計算分數後，取最高分者，將符合的類別寫入已斷字斷詞後的文字檔的第一行，以供程式抓取後續判別使用，有可能個人最高分數有相同類別相同分數，如下圖 32 此抽樣者之最高分數 E 及 N 分數相同，故此人屬 E 及 N 二種人格。

文字檔內容資料及格式如圖 32。

圖 32：方法二匯入文字檔內容資料來源：此圖自行整理

Method2 讀取每位朋友的文字檔內容資料，依序 Parser 相關字詞，取動詞及形容詞的詞類且資料內容以取中文字詞為主，排除無用之詞類、單一字元、英文、標號之後，寫入資料庫中的欄位包含個人 ID、詞彙、詞頻、五大人格類別，資料內容呈現如圖 33。

圖 33：方法二實作資料來源：此圖自行整理

詞彙分類計算以下表 9 為例，＂快快樂樂＂這個詞彙，出現在 C 類人格有 4 次，

出現在 A 類人格有 2 次，出現在 N 類人格有 3 次，出現在 O 類人格有 1 次，出現在 E 類人格有 2 次，Count 為＂快快樂樂＂詞彙總共出現的次數。

舉例來說，如果某一抽樣者同時有 E 及 N 的人格，則 VCA 及 VCN 各會被加 1，

而 Count 當時只會被加 1，所以 VC^c+VC^A+VC^N+VC^O+VC^E與 Count 值不一定相同。

V VC^c VC^A VC^N VC^O VC^E Count 快快樂樂 4 2 3 1 2 8

表 9：方法二詞彙分類範例資料來源：本研究自行整理

程式實際執行後所產生之詞彙分類結果如下圖 34 所呈現，例如詞彙為＂生日快樂＂這個字詞，在 A(隨和型)人格出現的次數是最多的，也就是隨和型最常引用此字詞祝福別人，故＂生日快樂＂於本研究中詞彙歸屬於 A 類，以此類推其它詞彙之分類統計。

圖 34：方法二詞彙分類資料來源：此圖自行整理計算每個詞彙於各分類正規化後的值，及其權重值。

接續上例，以＂生日快樂＂這個詞彙為言，於詞彙分類計算後的數值為 N=327，

E=104，O=398，A=516，C=289。

Normalize 詞彙分類數值，使之介於 0~1 之間，套用公式(9)計算如下：

詞彙＂生日快樂＂於五大類別加總後的值為：1634，以下針對 N、E、O、A、C 五大類計算後的數值各為

N=327/1634=0.200122399020808 E=104/1634=0.0636474908200734 O=398/1634=0.243574051407589 A=516/1634=0.315789473684211 C=289/1634=0.176866585067319

每個詞彙的權重值計算如公式(11)所示，為每個詞彙出現次數佔所有詞彙出現次數的比重，以詞彙＂生日快樂＂為例，生日快樂出現的次數為 1269 次，佔所有詞彙出現的總次數的比重值，算出來＂生日快樂＂的權重為 0.228525121555916。

計算後 Normalize 詞彙分類數值及每個詞彙的權重，如下圖 35 所示。

圖 35：方法二詞彙 Normalize 及權重值資料來源：此圖自行整理

由公式(12)計算出每位測試者之 N、E、O、A、C 五大類的 Grade 值，而 Type 為心理測驗之實際人格分類，如下圖 36 所示。

圖 36：方法二詞彙 Grade 計算資料來源：此圖自行整理

由圖 36 中的資料取得每位測試者之 N、E、O、A、C 五大類的 Grade 加總值中取最大者，為預測結果。

以圖 37 為例，N Grade 的值為此位測試者最大值，故預測結果屬 N(神經質型)，

而與 Type(實際人格分類)N 比對是相同的，故預測結果正確。

圖 37：方法二類別預測結果資料來源：此圖自行整理

五、實驗結果與分析

5.1 方法一(關鍵字詞預測法)

方法一：關鍵字詞預測法，經統計後，其顯著人格分析(Method1)有 61%準確率，

多重人格分析(Method2)有 70%準確率，如圖 38 所示。

圖 38：方法一研究結果(1) 資料來源：此圖自行整理

由於朋友大多以 A(隨和型)的朋友居多，可以由顯著人格分析(Method1)及多重人格分析(Method2)的心理測驗結果可得知，故預測後的結果以 A(隨和型)所佔的比率最高，如圖 39 所示。此研究亦可證實物以類聚這個情況，也就如圖 30 所示，本人之五大人格分類屬 A(隨和型)，相對自己的朋友亦以類別為 A(隨和型)的居多，

相同性格的人、志同道合的人會相聚成群。

61%

70%

顯著人格分析多重人格分析

圖 39：方法一研究結果(2)

ID 為 000001 這個朋友的實際人格計算出來最高分者，同時有二個，屬 A(隨和

ID 為 000015 這個朋友的實際人格計算出來取最高分的值，屬 N(神經質型)，

方法二於測試集中的所有分類資料加以統計其預測結果，統計出的結果以 A(隨

方法二透過機器學習預測法實作後的結果，可達到 80%的預測準確率，此準確率計算以實際人格類別與預測人格類別完全符合時則為預測正確。另一則當實際人格有一個以上同分者，預測人格類別只要符合其中一個實際人格類別，則本研究將此結果歸屬為預測正確，反之則為預測錯誤。

方法二(機器學習預測法)預測結果以圖 45 顯示。

圖 45：方法二（機器學習預測法）預測結果資料來源：此圖自行整理

在文檔中運用文字探勘技術在社群行為上之人格預測 (頁 52-63)