• 沒有找到結果。

系統架構(方法一:關鍵字詞預測法)

圖 13:系統架構(方法一) 資料來源:此圖本研究自行整理 Big five 特徵詞

BOW - WordNet

特徵詞彙擴充

特徵詞彙資料 庫

CKIP 斷詞斷句 FB 資料截取

資料前置處理

TF﹣IDF

權重計算

人格分析結果 FB

3.1.1 Big Five 特徵詞彙

依據研究中最廣為接受的 McCrae 和 Costa(1985)五大人格特質(開放型、

嚴謹型、外向型、隨和型、神經質型)此五類人格特質依諸位研究人員所描述此五 大類特徵,經整理後共 403 個特徵詞[12][13][21][22][23]。

3.1.2 BOW - WordNet

本研究之方法一選用「中央研究院中英雙語知識本體詞網」(The Academia Sinica Bilingual Ontological Wordnet (BOW)), 因 BOW 之語言座標,是以台灣 通用的中文為出發點。且 BOW 之開發成員及資料來源來自國內外知名之知識團隊,

為本研究所用之因。目前此網站開放使用的系統功能是由「數位典藏」國家型計畫 下的「語言座標」計畫所建構完成。而所謂語言座標指可讓不同來源的典藏知識內 容,可以轉換成互通的訊息,將成為下一代語意網中不可或缺的基礎架構。BOW 引 用的資料除了中央研究院詞庫小組(資訊所),文獻語料庫(語言所)及計算中心 開發的資料外。國外則有 IEEE 批准執行的 SUMO 知識本體(teknowledge.com 管理),

及普林斯頓(Princeton University)的 WordNet。國內主要有來自遠見科技股份 有限公司,包括該公司自有資料及與中研院共同開發資料,以及教育部國語會的辭

圖 14:WordNet ﹣中文查詢介面 資料來源:中央研究院中英雙語知識本體詞網

圖 15:WordNet﹣英文查詢介面

資料來源:中央研究院中英雙語知識本體詞網

3.1.4 特徵詞彙資料庫

將擴充後之特徵詞彙存入 SQL Server 2008 資料庫中,供後續抓取特徵詞來預 測五大人格類別使用。特徵詞彙資料量越大,則分類準確度越大,故建議可擴充更 多的特徵詞彙於資料庫中。

3.1.5 FB 資料截取

3.C# Web Browser 元件登入及取得 Access Token 4.透過 Graph API 找朋友 及形容詞的詞類為 A、ADV、Nv、Vi、Vt 五種詞類,詞類如下圖 17(刪除線為本研究 排除之詞類,而詳細之中研院平衡語料庫詞類標記集請參照附錄一)。而資料前置 處理則只取中文字詞,依據 CKIP 計算後結果,排除無需之詞類、單一字元、英文、

標號後,由最初的 93636 筆的詞彙,減少為 45467 筆的詞彙,詞類排除非 A、ADV、

Nv、Vi、Vt 五種詞類後,最終取 32880 筆詞彙,而後依據每筆詞彙計算 TFIDF 將資 料存入資料庫中。中研院所提供之 CKIP 斷詞斷句功能,需先申請服務帳號後,才 可執行所下載之 CKIPClient 及 CountWordFreq 程式,中研院所提供的中文斷詞系 統之服務畫面如下圖 16。

圖 16:中研院中文斷詞系統

資料來源:中研院中文斷詞系統-線上資源

圖 17:語料庫詞類標記取得

資料來源:中研院中文斷詞系統-詞類標記

3.1.7 TF﹣IDF

詞頻(term frequency,TF)指某一個詞彙出現在文章中的頻率。

TF 如下公式(4)

(4) 分子指詞彙在文件 中出現的次數,而分母為文件 中所有字詞出現次數總和

逆向文件頻率(Inverse Document Frequency,IDF) 指某詞彙出現於多少篇文 章數,分之總文章數,某詞彙算出之 IDF 越大,則說明此詞彙具有很好的類別區分

TFIDF(term frequency–inverse document frequency)是一種常用的加權 技術,常被使用資訊檢索及本文挖掘上。表示就是如果某個詞彙在某篇文章中出現

相關文件