資料探勘

資料探勘，亦稱資料採礦，為近年來資料庫領域熱門的議題，是利用統計以及機械學習的演算法，啟發性地從大量資料中找尋隱藏具有商業價值的知識與規律，

五大人格

習慣領域

習慣

以作為自動化商業策略之應用。另資料探勘是啟發性透過演算法主動搜尋有意義的規則，而讓資料說話，以及與傳統統計最大的差異在於它具有商業化以及行動的意涵[5] 。

資料探勘其中包含文字探勘及網頁探勘等，文字探勘為處理非結構化資料，通常字句長短不一定，且訊息的記載文字是很自由的，可說每一筆資料沒有共通的結構性。關鍵詞是表現文件意義的最小單位，因此文字探勘技術所使用之自動處理，

如自動分類等應用彼彼皆是。自由文句在做文件分類時，常將文件切成一個一個語意單位，稱為特徵詞彙，從這些特徵詞彙與類別來找出彼此對應關係。網頁探勘為從 Web 資料發掘本質關係(即有趣與有用資訊)的流程，以文字、連結或使用資訊形式表示，而 Web 為世上最大的資料儲存庫，其資料為 HTML、XML、文字格式[11]。

資料探勘領域含括資料庫技術及機器學習技術，許多研究人員及產業人員，認為資料探勘領域是增加企業潛能的重要指標，因透過資料探勘技術是可挖掘出具有意義的資訊，可做為決策之用，更可增加企業的競爭力，是企業的愛好者。圖 7 為Ｋdunggets 票選於 2012 年使用資料探勘技術的行業，HR 為佔了第二名，本研究針對 Facebook 行為預測性格分析，可應用於 HR 招募時人格分析。

本研究以預測類別變數之社群文字分析為研究重心。如圖 8 所示於Ｋdunggets 票選於 2012 年使用資料探勘熱門主題，社群分析佔前三排名，可顯示社群尚是目前熱門的研究對象之一。

圖 7：Kdunggets 票選於 2012 年使用資料探勘技術的行業資料來源：Kdunggets

圖 8：Kdunggets 票選於 2012 年使用資料探勘熱門主題資料來源：Kdunggets

2.4.1 資料探勘的起源

傳統資料分析技術常會遭遇無法處理的資料問題如大量資料、高維度問題、異常型態資料等問題，而資料探勘的起源就是研究者為了解決傳統資料分析所帶來的問題，故使用方法論及演算法發展出這資料探勘的分析工具，這工具可有效處理大量資料及不同資料型態的資料。

資料探勘其實包含了統計學的假設檢定、人工智慧、學習理論等，而與其它領域之間可說扮演很重要的關鍵角色，如圖 9 所示。研究者另針對資料探勘的工作分為四種核心技術，分別為分群分析、預測模式、關聯規則分析及異常偵測四種，如圖 10 所示，在此四種核心技術中，本研究以預測模式的分類模式為研究方法。

圖 9：資料探勘與其它領域關係圖資料來源：本研究整理

資料探勘

資料庫技術

人工智慧機器學習視覺化統計學

預測模式

分群分析

異常偵測

關聯規則分析資料

圖 10：資料探勘四大核心技術資料來源：本研究整理

2.4.2 資料探勘與知識發現

資料探勘為知識發掘的過程之一，知識發展整個部份包含將資料轉換成有用的資訊的一個過程，也就是這部份包含了資料前置處理至資料採礦後的後處理的一個轉換過程，如圖 11 所示[19]。

圖 11：知識發現過程資料來源：資料探勘[7]P.1-3

2.4.3 資料探勘功能

資料探勘的規則型態可區分為六種模式[10]

分類(Classification)

預測類別變數的一種過程稱為分類，分類是資料探勘中最普遍的一種模式，

也是人類為了溝通，會將事物加以分類，是人類在產生知識規則最初始的型態。

在大多數所謂的分類技術中，是依據已知的結果來分類，但資料探勘中的分類則為預測的技術，也就是要在事物發生前，需事前預測分類結果，這是資料探勘分類與一般分類最大的不同點。分類模型可再細分為決策樹、叢集演算法、

以及貝氏機率分類等演算方法。

資料輸入

資料前處理

資料探勘

後處理

資訊

選取特徵、降低維度、正規化、

資料分組

過澽樣式、視覺化、樣式解釋

推估(Estimation)

推估為預測連續數值之相關屬性資料。使用的演算方法，包含迴歸分析及類神經網路分析等方法。

群集化(Cluster)

依據相似度，將相似資訊歸於同群，可將原複雜且大量的資料，將以分群後可大幅簡化，此過程即稱為群集化，而物以類聚是形容群集化再好不過了。

群集化是對未知的事實找出內部相似性加以分群，而分類則是依據已知的類別，來預測未知的事實。

同質分組(Affinity Group)

同質分組亦可稱為關聯規則，從眾多物件中，找出哪些物件是被關聯且應發生在一起的，故同質分組可找出各組之間的差異程度。最著名為啤酒與尿布例子。

序列(Sequential)

序列亦可稱為時間序列，為在同質分組中找出事物相互關聯之先後發生順序，可協助找出事物的生命週期，利用不同時點的因應措施，供決策分析使用。

描述(Description)

無需透過複雜演算法去計算，此描述指的是透過人類對資料的敏銳度及資料視覺化的呈現，亦可同時找出資料的潛在規則。

2.4.4 資料探勘分類模式

資料探勘原型為預測，預測類別變數(不連續)的過程稱為分類，而預測連續變數(連續數值)的過程稱為推估。本研究採預測類別變數，由於 FaceBook 中的中文貼文字詞為不連續值，故將以六大模式中的分類為研究重點以預測五大人格分類。

分類是指建立一個學習目標函數 f，使得這學習函數可由 x 屬性對應至 y 類別，

如圖 12 所示，而分類法的目的是將一個物件指定至其中一個已預設的分類中[7]。

如同本研究中利用人的常用語，只取中文部份，而後加以分類，歸屬此人為五大人格中五大類的哪個類別。

圖 12：分類模式圖資料來源：本研究整理

2.4.5 貝氏分類法

貝氏定理由機率所推導而出，在假設條件獨立的情況下，依據已知的事件發生之機率來推測未知資料的類別。貝氏定理包含二種分類法，單純貝氏分類法及貝氏信念網路二種。

貝氏分類法中，其中一方法為單純貝氏定理也是本研究參考部份理論之研究範圍之一，因以往研究者研究顯示單純貝氏判別對於大量資料分析具有高效率與高準確率。

2.4.6 單純貝氏分類法

單純貝氏定理是獨立假說，也就是假設屬性間對同一類別之影響力是獨立的，

而由於計算簡化，故稱為單純的原因[8]。

( | ) ^{( | ) ( )}

( ) (1)

公式(1)表示 P（H｜X）是在Ｘ條件下Ｈ的事後機率 P（H）為假設Ｈ的事前機率

OutPut 分類標記(y)

資料探勘分類模式

Input

屬性集(x)

要驗證事後機率的正確性不容易，需大量訓練資料或適量屬性資訊，貝氏理論有一定有效度及準確度的原因是因為貝氏允許以事前機率 P(H)、P(X)及類別的條件機率 P（H｜X）為主，來預測事後的機率[7]，如上公式(1)。

單純貝氏分類法為假設在類別 y 中，屬性與屬性間具有條件獨立的特性，依此來計算機率值[7]。條件獨立公式如下公式(2)。

( | ∏ ( | ) (2)

X={X1,X2,….Xd}包含 d 個屬性值

條件獨立

假設 X、Y、Z 是隨機變數集合，X 中的變數在 Z 情況下和 Y 是相互獨立的。條件如下公式(3)。

( | ) ( | ) (3)

本研究方法二的公式將採用變型之單純貝氏分類法的方式預測其五大人格分類，由於研究分析之條件欄位並非多個，僅以詞彙分類，故無需耗用貝氏分類法實作，但研究方法會參考貝氏分類法之機率原則加以分類，將於後續第三章之設計與方法中介紹。

三、設計與方法

在文檔中運用文字探勘技術在社群行為上之人格預測 (頁 24-32)

五大人格

習慣領域

習慣

OutPut 分類標記(y)

資料探勘 分類模式

Input

屬性集(x)

資料探勘分類模式