系統架構(方法一：關鍵字詞預測法) - 運用文字探勘技術在社群行為上之人格預測

圖 13：系統架構(方法一) 資料來源：此圖本研究自行整理 Big five 特徵詞

彙

BOW - WordNet

特徵詞彙擴充

特徵詞彙資料庫

CKIP 斷詞斷句 FB 資料截取

資料前置處理

TF﹣IDF

權重計算

人格分析結果 FB

3.1.1 Big Five 特徵詞彙

依據研究中最廣為接受的 McCrae 和 Costa（1985）五大人格特質（開放型、

嚴謹型、外向型、隨和型、神經質型）此五類人格特質依諸位研究人員所描述此五大類特徵，經整理後共 403 個特徵詞[12][13][21][22][23]。

3.1.2 BOW - WordNet

本研究之方法一選用「中央研究院中英雙語知識本體詞網」(The Academia Sinica Bilingual Ontological Wordnet (BOW))，因 BOW 之語言座標，是以台灣通用的中文為出發點。且 BOW 之開發成員及資料來源來自國內外知名之知識團隊，

為本研究所用之因。目前此網站開放使用的系統功能是由「數位典藏」國家型計畫下的「語言座標」計畫所建構完成。而所謂語言座標指可讓不同來源的典藏知識內容，可以轉換成互通的訊息，將成為下一代語意網中不可或缺的基礎架構。BOW 引用的資料除了中央研究院詞庫小組（資訊所），文獻語料庫（語言所）及計算中心開發的資料外。國外則有 IEEE 批准執行的 SUMO 知識本體(teknowledge.com 管理)，

及普林斯頓（Princeton University）的 WordNet。國內主要有來自遠見科技股份有限公司，包括該公司自有資料及與中研院共同開發資料，以及教育部國語會的辭

圖 14：WordNet ﹣中文查詢介面資料來源：中央研究院中英雙語知識本體詞網

圖 15：WordNet﹣英文查詢介面

資料來源：中央研究院中英雙語知識本體詞網

3.1.4 特徵詞彙資料庫

將擴充後之特徵詞彙存入 SQL Server 2008 資料庫中，供後續抓取特徵詞來預測五大人格類別使用。特徵詞彙資料量越大，則分類準確度越大，故建議可擴充更多的特徵詞彙於資料庫中。

3.1.5 FB 資料截取

3.C# Web Browser 元件登入及取得 Access Token 4.透過 Graph API 找朋友及形容詞的詞類為 A、ADV、Nv、Vi、Vt 五種詞類，詞類如下圖 17(刪除線為本研究排除之詞類，而詳細之中研院平衡語料庫詞類標記集請參照附錄一)。而資料前置處理則只取中文字詞，依據 CKIP 計算後結果，排除無需之詞類、單一字元、英文、

標號後，由最初的 93636 筆的詞彙，減少為 45467 筆的詞彙，詞類排除非 A、ADV、

Nv、Vi、Vt 五種詞類後，最終取 32880 筆詞彙，而後依據每筆詞彙計算 TFIDF 將資料存入資料庫中。中研院所提供之 CKIP 斷詞斷句功能，需先申請服務帳號後，才可執行所下載之 CKIPClient 及 CountWordFreq 程式，中研院所提供的中文斷詞系統之服務畫面如下圖 16。

圖 16：中研院中文斷詞系統

資料來源：中研院中文斷詞系統－線上資源

圖 17：語料庫詞類標記取得

資料來源：中研院中文斷詞系統－詞類標記

3.1.7 TF﹣IDF

詞頻（term frequency，TF）指某一個詞彙出現在文章中的頻率。

TF 如下公式（4）

_∑

(4) 分子指詞彙在文件中出現的次數，而分母為文件中所有字詞出現次數總和

逆向文件頻率(Inverse Document Frequency，IDF) 指某詞彙出現於多少篇文章數，分之總文章數，某詞彙算出之 IDF 越大，則說明此詞彙具有很好的類別區分

TFIDF（term frequency–inverse document frequency）是一種常用的加權技術，常被使用資訊檢索及本文挖掘上。表示就是如果某個詞彙在某篇文章中出現

在文檔中運用文字探勘技術在社群行為上之人格預測 (頁 32-39)