• 沒有找到結果。

方法二(機器學習預測法)

4.4 方法二(機器學習預測法)

圖 31 為針對方法二(機器學習預測法)所開發的程式,此程式的設計原則為 將資料依 80/20 法則,將有回填心理測驗問卷資料的 80%為訓練資料集,而將剩餘 20%的資料列為測試資料集,目的為了將 80%訓練後所得到的五大分類的詞彙記載於 資料庫中,供 20%測試集資料預測五大人格分類。

圖 31 功能解說

Directory:選擇欲匯入方法二的文字檔目錄 Connection String:資料庫連結設定

Exec:開始執行機器學習預測法

圖 31:方法二實作介面 資料來源:此圖自行整理

執行 Method2 程式前的前置動作,需先完成以下表 7 步驟。Method2 程式的 GUI

依每個人心理測驗回傳結果,經計算分數後,取最高分者,將符合的類別寫入 已斷字斷詞後的文字檔的第一行,以供程式抓取後續判別使用,有可能個人最高分 數有相同類別相同分數,如下圖 32 此抽樣者之最高分數 E 及 N 分數相同,故此人 屬 E 及 N 二種人格。

文字檔內容資料及格式如圖 32。

圖 32:方法二匯入文字檔內容 資料來源:此圖自行整理

Method2 讀取每位朋友的文字檔內容資料,依序 Parser 相關字詞,取動詞及形 容詞的詞類且資料內容以取中文字詞為主,排除無用之詞類、單一字元、英文、標 號之後,寫入資料庫中的欄位包含個人 ID、詞彙、詞頻、五大人格類別,資料內容 呈現如圖 33。

圖 33:方法二實作 資料來源:此圖自行整理

詞彙分類計算以下表 9 為例,"快快樂樂"這個詞彙,出現在 C 類人格有 4 次,

出現在 A 類人格有 2 次,出現在 N 類人格有 3 次,出現在 O 類人格有 1 次,出現在 E 類人格有 2 次,Count 為"快快樂樂" 詞彙總共出現的次數。

舉例來說,如果某一抽樣者同時有 E 及 N 的人格,則 VCA 及 VCN 各會被加 1,

而 Count 當時只會被加 1,所以 VCc+VCA+VCN+VCO+VCE與 Count 值不一定相同。

V VCc VCA VCN VCO VCE Count 快快樂樂 4 2 3 1 2 8

表 9:方法二詞彙分類範例 資料來源:本研究自行整理

程式實際執行後所產生之詞彙分類結果如下圖 34 所呈現,例如詞彙為"生日 快樂"這個字詞,在 A(隨和型)人格出現的次數是最多的,也就是隨和型最常引用 此字詞祝福別人,故"生日快樂"於本研究中詞彙歸屬於 A 類,以此類推其它詞彙 之分類統計。

圖 34:方法二詞彙分類 資料來源:此圖自行整理 計算每個詞彙於各分類正規化後的值,及其權重值。

接續上例,以"生日快樂"這個詞彙為言,於詞彙分類計算後的數值為 N=327,

E=104,O=398,A=516,C=289。

Normalize 詞彙分類數值,使之介於 0~1 之間,套用公式(9)計算如下:

詞彙"生日快樂"於五大類別加總後的值為:1634,以下針對 N、E、O、A、C 五大類計算後的數值各為

N=327/1634=0.200122399020808 E=104/1634=0.0636474908200734 O=398/1634=0.243574051407589 A=516/1634=0.315789473684211 C=289/1634=0.176866585067319

每個詞彙的權重值計算如公式(11)所示,為每個詞彙出現次數佔所有詞彙出現 次數的比重,以詞彙"生日快樂"為例,生日快樂出現的次數為 1269 次,佔所有 詞彙出現的總次數的比重值,算出來"生日快樂"的權重為 0.228525121555916。

計算後 Normalize 詞彙分類數值及每個詞彙的權重,如下圖 35 所示。

圖 35:方法二詞彙 Normalize 及權重值 資料來源:此圖自行整理

由公式(12)計算出每位測試者之 N、E、O、A、C 五大類的 Grade 值,而 Type 為心理測驗之實際人格分類,如下圖 36 所示。

圖 36:方法二詞彙 Grade 計算 資料來源:此圖自行整理

由圖 36 中的資料取得每位測試者之 N、E、O、A、C 五大類的 Grade 加總值中 取最大者,為預測結果。

以圖 37 為例,N Grade 的值為此位測試者最大值,故預測結果屬 N(神經質型),

而與 Type(實際人格分類)N 比對是相同的,故預測結果正確。

圖 37:方法二類別預測結果 資料來源:此圖自行整理

五、實驗結果與分析

5.1 方法一(關鍵字詞預測法)

方法一:關鍵字詞預測法,經統計後,其顯著人格分析(Method1)有 61%準確率,

多重人格分析(Method2)有 70%準確率,如圖 38 所示。

圖 38:方法一研究結果(1) 資料來源:此圖自行整理

由於朋友大多以 A(隨和型)的朋友居多,可以由顯著人格分析(Method1)及多重 人格分析(Method2)的心理測驗結果可得知,故預測後的結果以 A(隨和型)所佔的比 率最高,如圖 39 所示。此研究亦可證實物以類聚這個情況,也就如圖 30 所示,本 人之五大人格分類屬 A(隨和型),相對自己的朋友亦以類別為 A(隨和型)的居多,

相同性格的人、志同道合的人會相聚成群。

61%

70%

顯著人格分析 多重人格分析

圖 39:方法一研究結果(2)

ID 為 000001 這個朋友的實際人格計算出來最高分者,同時有二個,屬 A(隨和

ID 為 000015 這個朋友的實際人格計算出來取最高分的值,屬 N(神經質型),

方法二於測試集中的所有分類資料加以統計其預測結果,統計出的結果以 A(隨

方法二透過機器學習預測法實作後的結果,可達到 80%的預測準確率,此準確 率計算以實際人格類別與預測人格類別完全符合時則為預測正確。另一則當實際人 格有一個以上同分者,預測人格類別只要符合其中一個實際人格類別,則本研究將 此結果歸屬為預測正確,反之則為預測錯誤。

方法二(機器學習預測法)預測結果以圖 45 顯示。

圖 45:方法二(機器學習預測法)預測結果 資料來源:此圖自行整理

相關文件