• 沒有找到結果。

題目:期刊審稿委員推薦系統

N/A
N/A
Protected

Academic year: 2022

Share "題目:期刊審稿委員推薦系統 "

Copied!
51
0
0

加載中.... (立即查看全文)

全文

(1)

中華大學碩士論文

題目:期刊審稿委員推薦系統

--以 CEPS 之資訊科學與管理學期刊為例

系 所 別:資訊管理學系碩士專班

學號姓名:E09310013 張惟成

指導教授:徐 聖 訓 博士

吳 玫 瑩 博士

中華民國 九十七 年 六 月

(2)

摘要

資訊技術在知識管理上扮演著一個非常重要的角色。因此,在了解知識管理 重要性的情況下,應用資訊技術將知識顯示於知識地圖中就變成熱門的研究範 疇。

近年來投稿期刊已成為一個發表研究成果的重要管道,有鑒於期刊的類別與 數量越來越多,依目前審稿作業是由期刊主編依過去的經驗或人脈來選定審稿委 員,不但耗時且耗成本,有時還會找不到合適委員。基於這個前提,本研究嘗試 將選擇審查人的經驗以知識地圖的方式呈現出來,減少期刊主編的負擔。

在實作上採用以內容為基礎的推薦方法,應用GHSOM 將 CEPS 所收錄的管 理學與資訊科學類的期刊依其內容作出分群並記錄期刊審查人相關的資料作為 基礎,讓主編可以經由系統推薦得到相似過去文章的審查人。

本研究期望可以加速繁雜且多量的期刊的審查程序,提昇審查作業的效率。

關鍵字:知識地圖、GHSOM、內容式推薦

(3)

Abstract

A periodical reviewer recommendation system– A case of information science and management of CEPS

Information technology acts as a very important role in the knowledge management 。 Under the condition of understanding the importance of knowledge management,using information technology to develop knowledge map becomes a popular research subject。

To write for a publication becomes a important channel to announce research achievement recently so that there are more and more periodicals need to review,the current review procedure is based on the chief editor's experience to choose the reviewer。This procedure not only takes times but also ineffective,sometimes it can not find the appropriate reviewer。Based on this premise,this research try to show the experience of choosing reviewer by knowledge map and reduce the chief editor's effort。

To adopt the content-based filtering,using GHSOM to cluster the information science and management periodical of CEPS and recording the related information of reviewers,

let the chief editor have the reviewer list by system recommendation who was the reviewer of the similar paper。

This research expect to speed up the review procedure and ensure the efficiency of reviewing the journal。

Key Words:Knowledge Map、GHSOM、Content-Based Filtering

(4)

誌謝

踏入職場後心中一直期望能有機會再回學校進修,感謝中華大學資管學系增 開了研究所的在職專班,讓我有這個機會能重回校園受教,將近四年的時光裡首 先要感謝系上的各位老師在課業上的各種指導、也要感謝老師們對我們這些在職 生給予更多的包容和體諒才讓我能順利的完成學業。特別要感謝指導教授 徐聖 訓老師給予的指導與幫助,在我的研究歷程中詳加指導帶領著我完成研究,更訓 練我在思維上多些創造與想像力,讓這將近四年的學習歷程充實而豐富,另外本 文承蒙二位口試委員:吳玫瑩老師及薛榮棠老師對於論文的內容悉心指正且提供 學生寶貴的建議,在此謹致上深深的謝意。同時也要感謝已經畢業的同學們庭 志、柏仰、建煌、ㄧ文持續的給予鼓勵,這些來自各個不同產業領域的好同學讓 我的增廣見聞,也給予我許多的幫助,謝謝你們。也要感謝父母的支持和體諒,

還有所有我工作上的長官,感謝你們在工作上的包容和協助讓我可以順利完成這 份論文,謝謝大家。

張惟成 謹誌 中華民國 九十七 年 六 月

(5)

圖表目錄

圖 2-2-1:知識管理資訊技術的分類(資料來源:陳文華、徐聖訓、施人英及吳壽

山,2003 應用主題地圖於知識整理)... 12

圖 2-3-1:GHSOM架構圖(資料來源:Fritzke, 1995)... 13

圖 2-3-2:地圖成長方式(資料來源:Dittenbach et al. 2002) ... 14

圖 2-4-1:協同推薦系統架構圖(資料來源:V. Kostov 2003) ... 17

圖 2-4-2:FAB推薦系統流程圖(資料來源:Marko Balabanovic and Yoav Shoham, 1997) ... 20

圖 3-1-1:研究流程圖 ... 21

圖 3-2-1:系統架構圖(資料來源:本研究整理)... 22

圖 3-3-1:審稿委員推薦流程圖(資料來源:本研究整理)... 24

圖 3-3-2:審稿委員推薦系統介面(中文斷字與詞彙收集)... 26

圖 3-3-3:審稿委員推薦系統介面(主畫面) ... 27

圖 3-3-4:審稿委員推薦系統介面(期刊分類結果索引) ... 28

圖 3-3-5:同ㄧ區塊推薦對話框 ... 29

圖 3-3-6:鄰近區塊推薦的對話框... 30

圖 3-3-7:確定執行同ㄧ區塊與鄰近區塊推薦的結果... 31

圖 4-1-1:GHSOM MAP (資料來源:本研究整理)... 32

圖 4-2-1:期刊分群與分類關係圖(資料來源:本研究整理)... 34

圖 4-3-1:期刊審稿委員對照圖(資料來源:本研究整理)... 38

圖 4-3-2:期刊分類結果索引(資料來源:本研究整理) ... 39

圖 4-3-3:同ㄧ區塊的推薦(資料來源:本研究整理) ... 40

圖 4-3-4:鄰近區塊的推薦(資料來源:本研究整理) ... 41

(6)

目錄

第一章 緒論 ...7

第一節 研究背景與動機 ...7

第二節 研究目的 ...8

第二章 文獻探討...9

第一節 知識與知識管理 ...9

第二節 知識管理常用技術 ...10

第三節 SOM與GHSOM介紹 ...12

第四節 推薦系統 ...15

第三章 研究方法... 21

第一節 研究流程 ...21

第二節 系統架構 ...22

第三節 研究方法 ...24

第四章 結果與分析... 32

第一節 結果...32

第二節 分析...33

第三節 推薦...37

第五章 結論與建議... 42

第一節 結論...42

第二節 未來研究方向...42

附錄 I:期刊標題分群結果... 43

附錄 II:參考文獻 ... 49

(7)

第一章 緒論

第一節 研究背景與動機

知識管理具有高度的挑戰性,因為知識通常存在於個人或透過動態、非結構 化且通常細緻的程序累積在組織中,並不易透過正式訓練程序或資訊系統來傳播 (Swap et al. 2001)。但知識管理真正的價值是在分享不容易文件化的見解或看 法,也就是一般所謂的隱性知識(McDermott 2000),所以知識管理不能只強調資 訊技術,同時還必需兼顧知識創造、傳播與分享的環境或文化,和組織的制度、

流 程 及 策 略 等 議 題 , 否 則 會 事 倍 功 半(Allee 1999; Cho et al. 2000; Pan and Scarbrough 1999)。雖然如此,資訊技術在知識管理上還是扮演著一個非常重要 的角色(Tyndale2002)。因此,在了解知識管理的重要性的情況下,應用資訊技術 將知識顯示於知識地圖中就變成熱門的研究範疇。

近年來由於教師升等及碩博士畢業要求的規定,使得各期刊的文章投稿數目 都增加許多,也因此增加了期刊主編的許多負擔。依目前審稿程序,當主編收到 來稿時會依照稿件標題、關鍵字甚至是內文來選定審稿委員。目前此階段作業是 由期刊主編來依過去的經驗或人脈來選定審稿委員,不但耗時且耗成本,有時還 會找不到合適委員。基於這個前提,本研究嘗試應用人工智慧的分群方法 Growing Hierarchical Self-Organizing Map(簡稱 GHSOM,階層式自我組織映射圖) 來建構知識地圖,以協助期刊主編推薦審稿委員。

目前 GHSOM 的應用方面,已成功運用於各種文件分類的領域,例如新聞 文件的分群 (Dittenbach et al., 2002)、文件的典藏(Dittenbach et al., 2000)及法律文 件的分類 (Schweighofer et al., 2001),在人物思想領域的知識地圖也有不錯的效 果(陳文華 et al.,2003),藉由知識地圖的建構可以幫助大家了解人物的知識與思 想。

對於推薦的標的是人,目前並沒有理論去限定或建議應採用何種推薦方法為 最佳,本研究在選擇推薦方法主要是依據 Berelson(1971)的論點即內容分析是一 種針對明顯的傳播內容,作客觀且系統式量化的研究方法。它屬於非介入性研究 (unobtrusive measure),其目的和所有方法論一樣,在於解釋、預測、或控制。因 此本研究選擇以內容為基礎的推薦並以 GHSOM 方式來實作,而內容的來源就 是中文電子期刊服務(CEPS)中關於資訊科學與管理學的期刊。

(8)

第二節 研究目的

本研究主要協助期刊主編推薦審稿委員,並透過知識地圖的建構呈現主編的 選擇經驗。基於上述的動機,本研究的主要目的可分為以下四點。

1. 將過去期刊投稿人的投稿文章以知識地圖的方式呈現,依研究議題的相似性 來進行分群。

2. 經由本系統自動推薦審稿人名單,簡化期刊審查作業中分派與建議審查人的 程序。

3. 實作以內容為基礎的推薦系統。

4. 建立期刊審查人的相關資料以供後續研究應用。

(9)

第二章 文獻探討

第一節 知識與知識管理

Davenport and Prusak (1998) 認為知識是一種流動性的綜合體,其中包括結 構化的經驗、價值,及經過文字化的資訊。也包含專家獨特的見解,新經驗的評 估、整合與資訊等。在組織中,知識不僅存在於文件與儲存系統中,也蘊涵在日 常例行工作、程序、執行與規範當中。

Nonaka and Takeuchi (1995) 提 到 知 識 創 造 可 分 為 本 體 論 (ontological dimension)與認識論(epistemological dimension)兩個構面。由本體論的構面來看,

知識來自於個人的思想,而組織知識也必須由個人所創造,因此,知識的創造過 程可以視為發生在一個擴大的、跨組織內部和組織之間的互動結果。而由認識論 的構面來看,知識分為內隱知識與外顯知識,內隱知識是個人的,與特別情境有 關,同時較難以形式化和溝通;外顯知識則指可以形式化、制度化語言傳遞的知 識 (Polanyi 1966)。Nonaka and Takeuchi 歸納,知識和資訊主要有三個差異:1. 知 識牽涉到信仰與承諾,即是知識關係著某一特定立場、看法或是意圖;2. 知識 牽涉到行動,意謂知識通常含有某種目的;3. 知識牽涉到意義,亦即它和特定 情境相互呼應。知識比資訊重要,通常資訊充斥在組織裡,但是直到這些資訊被 人們應用才算是知識。從這個觀點來看,資料 (data)和資訊 (information)都不算 是知識,唯有在分析過資料,了解所獲得之資訊後採取行動,所獲得的才是知識 (Davenport and Prusak 1998; McDermott 2000)。

知識管理指的是以有系統、有組織的方式來改善公司的核心能力,藉由知識 的利用來改善決策品質、採取行動並支持公司策略 (Horwitch and Armacost 2002;

KPMG 2003)。強調組織知識而非個人知識,以及如何利用組織知識來協助企業 策略。良好的知識管理能為組織帶來競爭優勢,除了其本身的不易模仿及不易取 代之外,知識往往也是有效利用資源的重要因素。除此之外,知識在使用過程往 往能激發新知識,具有價值的回饋。

知識管理既然這麼重要,為什麼成功的例子卻不多呢 (Arora 2002)?從 KPMG (2003)的統計資料來看,80%的受訪者認為知識是公司的策略資產,然而 78%的受訪者卻也認為,他們並沒有充份利用知識這項資產。兩者之間所產生差 異的原因如下:

1. 知 識 的 分 享 與 創 造 只 能 在 員 工 願 意 自 動 合 作 時 才 會 發 生 (Kim and

(10)

Mauborgne 1997)。

2. 認為知識可以獨立於個人之外 (Quintas et al. 1997)。即使員工由知識庫搜 尋,這並不代表他就能夠獲得知識,除非他能夠了解所獲得的知識 (Lueg 2002)。

事實上,許多的知識管理專案充其量只能說是資訊專案;更糟的是,在未能 認清失敗的主因之前,有些企業就加倍地投資於管理顯性知識及資訊技術 (Fahey and Prusak 1998)。雖然,資訊科技可以協助知識的傳播,但往往由於人的 私心使得知識只是個人所有,沒有一起分享。因此,資訊技術只是知識管理成功 的要素之一,而非全部。知識管理要能成功必需同時考量組織設計、組織文化、

績效衡量、資源提供、與策略上的結合及領導者的堅持等 (Choi and Lee 2002;

Hlupic et al. 2002; Kakabadse et al. 2001; KPMG 2003; O'Dell and Grayson 1998;

Quintas et al. 1997)。一般而言,組織文化是目前知識管理最大的關鍵及障礙,而 非技術方面的議題(Alavi and Leidner 2001; Davenport and Prusak 1998)。

第二節 知識管理常用技術

一般而言,常用的資訊技術如下:

1. 通訊基礎建設 (architecture):含電訊以及網路的應用建設。

2. 資料倉儲:資料倉儲提供了一個電子資料的圖書館,其應包含的功能有 存取管理、搜尋功能,因此它能滿足企業儲存大量資料及對使用者查詢快速回應 (Nemati et al. 2002)。

3. 資訊搜尋引擎:其提供了文件索引、搜尋。

4. 群組軟體 (groupware):群組軟體的主要目的是協助一群人一起工作的。

藉由群組軟體,使用者可以互相溝通、協調而解決問題,傳遞的內容包含文字、

聲音及影像。資訊技術可以打破時空限制,免去必需面對面才能解決問題的困擾 (Shim et al. 2002)。企業內部員工可以藉由企業內部網路的群組軟體分享資訊;

而客戶、供應商及合作夥伴也可以藉由企業間網路達到資訊分享的目的。

5. 電子公告欄 (electronic bulletin board):電子公告欄提供了一個虛擬空間讓 具共同專業的團體 (communities of practice)在上面交流訊息,通常在組織內這是 一種非正式的組織架構。它的形成是自動自發地,尤其當有人需要幫忙或有人提 供新點子時(McDermott 2000)。網路社群吸引人的地方,是在它提供了一個讓人

(11)

們自由交往的生動環境,雖然有的時候只是萍水相逢,但是更多的時候,人們在 社群裡持續性的互動,而從互動中創造出一種互相信賴和彼此了解的氣氛。而互 動的基礎主要是基於人類的四種需求:興趣、關係、交易與幻想 (Armstrong and Hagel 1996)。

6. 智慧型代理人 (intelligent agents):智慧型代理人可以代表使用者執行一些 勞力密集的資訊處理工作,從收集所要的資料、解決資訊矛盾、過濾不相關資訊,

自動調整、學習使用者的需要 (Shaw et al. 2002)。

7. 資料探勘:企業經常收集市場、顧客、競爭對手及未來商機等大量資料,

但龐大的資料量令許多企業組織遭遇到有效利用資料的障礙,再加上資訊超載及 非結構化,使得大量資料無法發揮其價值,甚至使決策行為產生誤導與誤用。因 此需要透過資料探勘技術從大量資料中挖掘出有用的資訊、知識,來解決企業所 面臨的問題與輔助決策的制定以提昇企業競爭優勢。資料探勘為從資料庫中挖掘 出隱藏在大量資料中先前不知道的和有用的資訊與知識,使用者可以利用資訊或 知識做為決策制定與問題解決的依據。

8. 文字探勘:文字探勘有別於傳統資料探勘。傳統上的資料探勘技術主要 針對結構化的表格資料,而忽略了非結構化或半結構化的文件資料中隱含的大量 資訊。結構化資料如關聯資料庫中定義明確的表格與欄位,非結構化資料如新聞 文件的本文部分,其內容並無一定的格式且通常無法直接取得關鍵資料的屬性。

文字探勘具有兩個主要困難點:(1)人工進行多樣且大量的文件特徵選擇,缺乏 效率且不符成本。(2)文件資料的內容維度數量過多,即特徵的屬性不易清楚定 義或界定。相較於資料探勘,文字探勘需要加上額外的資料選擇處理程序,以及 複雜的特徵擷取步驟。

上述這些資訊技術分別對應到不同的層次,如實體層 (physical layer)、資料 層 (data layer)、資訊層 (information layer)、知識層 (knowledge layer)和介面層 (interface layer),如圖 2-2-1 所示。這裡所謂的知識層並不是真正的知識,而是其 內容最接近知識的,知識使用者仍須“了解”其內容,才能將其內化為知識。

(12)

Web interface Visualization

群 組 軟 體 電 子 公 告 欄 文 字 探 勘 及

資 料 探 勘

資 料 搜 尋 引 擎 智 慧 型 代 理 人

企 業 內 部 (資 料 倉 儲 )

企 業 外 部 (全 球 資 訊 網 路 )

通 訊 基 礎 建 設 實 體 層

資 料 層 資 訊 層 知 識 層 介 面 層

圖 2-2-1:知識管理資訊技術的分類(資料來源:陳文華、徐聖訓、施人英及吳壽 山,2003 應用主題地圖於知識整理)

第三節 SOM與GHSOM介紹

自組織映射圖網路(SOM)(Kohonen,1982)是一種非監督式學習網路模式,

早在 1982 年 T.Kohonen 提出此模式,至今仍是非監督式學習網路模式的典範。

非監督式應用從問題領域中取得訓練範例(只有輸入變數值),並從中學習範例 的內在聚類規則,以應用於新的案例(有輸入變數值,而需推論它與哪些訓練範 例屬同一聚類的應用)。這種應用與統計學上的聚類分析相似。

自組織映射圖主要架構包含了三項原件(葉怡成,2003):

(1)輸入層:用以表示網路的輸入變數,即訓練範例的輸入向量,或稱特徵向 量,其處理單元數目依問題而定。

(2)輸出層:用以表現網路的輸出變數,即訓練範例的聚類,其處理單元數目 依問題而定。

(3)網路連結:每個輸出單元與輸入層處理相連結的加權值所構成的向量,表 示一個訓練範例對映樣本點聚類之形心座標。當網路學習完畢後,其輸出處理單 元相鄰近者會具有相似的連結加權值。

GHSOM 為奠基於 Self-Organization Map(SOM)的一種類神經網路模式,它 可將眾多的資料以二維地圖分群呈現外,並可依階層結構(即多層地圖架構)分 群呈現,更便利於資料分析與探索。GHSOM 可克服固定地圖大小與非階層式調

(13)

整地圖架構的問題,可根據資料的結構去發展地圖大小與階層架構(如圖 2-3-1)。首先,由最上層開始,地圖類似 growing grid model(Fritzke, 1995),為 了呈現特定階層的資料集合,可自行成長地圖大小。每當資料呈現的粒狀 (granularity)達成特定的改善時,將分析所有單元,以便觀察在特定的最小粒狀層 次下是否可呈現資料樣貌。太過分散的輸入資料所映射的單元將會向下一層擴展 新的 SOM,使得個別資料可被更詳細地呈現。另一方面,當資料呈現高同質性 時,則不需要再向下一進行任何擴展。GHSOM 可以反應它的資料內含的階層架 構,分配更多空間以呈現輸入空間中的不同質區域。

第一層

第二層

第三層

圖 2-3-1:GHSOM 架構圖(資料來源:Fritzke, 1995)

以下說明GHSOM 演算法:

1.初始化設定

在訓練前,第0 層只包含一個單元,以所有輸入向量的平均值初始化這個單 元的權重向量( 0 m ),並計算其平均量化誤差(mean quantization error, mqe0)。處 理單元i 的 mqei 為其權重向量(mi)與所有對應至該單元的輸入向量們(Ci)之間的 平均歐式距離。

2.地圖的成長過程

在第 0 層之下建立一個二維的 SOM 地圖(即第 1 層),第 1 層的地圖依 據前述的SOM 演算法發展,在固定 λ 次訓練回合後,分析所有單元的 mqe,高 的 mqe 值表示輸入空間沒有被正確地分群,因此,需要加入新的單元,以增進 分群呈現的品質,擁有最高mqe 值的單元因此被選為誤差單元 e,一個新的列或 欄將被插入這個誤差單元和與它最不相似的鄰居 d 之間(圖2-3-2),新處理單元

(14)

的權重向量被初始化為與其鄰居的平均值。假設Ci 為輸入資料向量 xj 對應到單 元i 的子集合,mi 是單元 i 的權重向量,誤差單元 e 係依據最大的 mqe 所決定。

插入一列 插入一欄

圖 2-3-2:地圖成長方式(資料來源:Dittenbach et al. 2002)

註:選擇最不相似的鄰居 d 係依據單元 e 之權重向量與其鄰近單元之權重向 量間的最大距離,一個完整的列或欄被插入到 d 與 e 之間,其中灰階部分即為 所插入的單元,箭頭所指向的鄰近單元為初始化時所使用的權重向量。

成長的過程將持續到 mqe(即該地圖上所有 mqei 值之平均數)達到地圖所對 應到上一層單元的mqeu 值的特定比例 τ1,如下列判斷式(1),則停止地圖大小的 學習。參數τ1 愈小,訓練的時間將愈長,τ1 為最後每個地圖大小的控制參數。

(1) mqem <τ1.mqeu

m 為目前的地圖;u 為目前地圖所對應到上一層的單元 3.階層結構的呈現

當地圖訓練完成後,每個單元必須被檢測是否需進一步擴展,即發展下一層 地圖,這意味對於一組性質太分散的群集,將需創造次一層的新地圖。此擴展決 策是由第二個參數τ2 所決定,地圖的停止成長準則(stopping criterion)是由上一層 的單元所決定,對於所有地圖上的每個單元,這判斷式(2)的基礎為 mqe0,亦即 第0 層的 mqe。若單元 i 在(2)為偽,即 mqei 大於或等於 τ2.mqe0,則需在下一 層中展開一個新的小地圖,但是若(2)為真,則不需進一步展開。因此,參數 τ2 定義每個最下層地圖上的所有處理單元所要求最起碼之呈現品質,如此可確保在 輸入空間中的資料呈現品質可達到標準。

(15)

(2) mqei<τ2.mqe0

新加入的地圖將再依前述的地圖成長程序與階層發展程序精鍊,直到所有最 底層的mqe 值皆達到停止成長的準則。

第四節 推薦系統

我們常會在沒有足夠的個人經驗或知識的情況下,必須要做出一些決定。這 時候我們就需要依靠的是從我們過去做過的經驗或知識來對我們做出一些建議 與推薦。推薦系統的觀念也是這樣衍生而來的,主要是彙整過去的資料內容與相 關資訊而產生多筆推薦資料,再與被建議者的資料作比較,以選出對被建議者最 適合的推薦資料(Rasnick and Varian, 1997)。若是沒有前人經驗的推薦行為或建 議,我們很可能會花了冤枉錢去消費了我們不需要的物品,推薦系統就是針對這 個問題結合電腦與網路的技術而發展出來的解決方案。以推薦系統的技術設計方 法 來 分 類 時 , 大 致 可 以 分 成 內 容 導 向 式(Content-based Approach) 及 協 同 式 (Collaborative Approach)兩大類。

(一)以內容為基礎的推薦系統

以內容為基礎的推薦系統即是採用「以內容為基礎的過濾」(Content-Based Filtering,也可以稱之為「認知過濾」Cognitive Filtering)來做推薦。這類的推薦 系統在進行推薦之前會要求使用者先建立其個人的基本資料檔,在這些使用者基 本資料檔內,不只記錄了使用者個人的基本資料,而且還記錄有使用者的興趣、

喜好等等資料。接著,在使用者享受推薦的同時,推薦系統也會將使用者在網站 上的種種行為記錄下來,確實地分析使用者的喜好。最後,綜合使用者基本資料 檔與推薦系統分析出來的使用者喜好屬性,再來進一步地推薦給使用者與其過去 經驗相仿的事物。例如:學生在學生基本資料檔內註明自己對人工智慧這方面的 課程有興趣,於是之後當學生在教學網站上瀏覽教材的同時,推薦系統便會建議 學生閱讀機器學習與類神經網路等等課程的網頁教材。這一類型的推薦系統有:

InfoFinder、WebWatcher 和 NewsWeeder。內容式推薦系統(又稱為 feature-based filtering)不像協同式推薦系統的依據是人,它的主要精神是針對物品內容的分 析,希望計算出某個人對於這項物品各特徵值的喜好程度,再交由一個針對內容 式 過 濾 的 預 測 模 組 計 算 出 預 測 值 , 進 而 找 出 使 用 者 可 能 喜 歡 的 物 品 。U.

Shardanand, and P. Maes(1995)也說出內容式推薦系統的缺點:

(1) 分析物品內容只能用一個特徵集合來表示,但卻無法處理聲音、圖片、

藝術品、影像等媒體屬性。

(16)

(2) 使用者僅能接收到與過去相類似的推薦項目,而無法找出與過去體驗有 所不同且具意義性的潛在性推薦。

(3) 無法處理品質、風格或觀點,遇到同名的兩樣物品卻是兩種不同本質的 情況時此方式並沒有辦法有效的分辨。

(二)協同式推薦(Collaborative Recommendation)

協同過濾推薦系統即是採用「協同過濾」(Collaborative Filtering,也可以稱 之為「社會過濾」Social Filtering)來做推薦。這類推薦系統是第一個嘗試使用人 工智慧技術來進行個人化工作的方法(Mulvenna, Anand & Buchner, 2000)。它會搜 集使用者於網站上的相關資訊,並且加以分析與相似度比對,將有相同喜好或是 相似行為的使用者歸納為同一族群。當使用者再一次登入網站時,推薦系統便會 推薦此位使用者所屬族群內其他人有興趣的東西給此位使用者,亦即同好之間互 相推薦彼此喜愛的事物。而舉世聞名的亞馬遜書店(Amazon)即提供有協同過濾推 薦的服務,它會根據顧客的消費行為、消費內容,找出消費者的群組關係,提供 最佳的建議給顧客,以增加顧客額外的消費。這一類型的推薦系統有:Tapestry、

Firefly、Referral Web、PHOAKS、Siteseer、GroupLens 和 Ringo。協同式推薦系 統最主要的概念就是經由系統將某人曾經使用過的產品或服務經由“ 口述”

(word-of-mouth) 的方式自動化(automating)傳達給另一個人。在這樣的機制裡,

使用者如果想要對尚未使用過的產品做選擇,完全仰賴在其他人“口述”的意見 上。然而推薦系統正式穩定上路之後,所收集到的資料肯定會越來越龐大,為了 考量電腦的處理速度,我們必須找出適合的族群來推薦“口述”,於是將口述意見 設定在某個與使用者喜好相近的族群裡。以下介紹協同式推薦系統幾種不同的應 用:

(1) 手機鈴聲推薦系統(V. Kostov, E. Naito, and J. Ozawa):科技產業在手 機上的發展一直是目前的大熱門,這個鈴聲推薦系統使用協同式過濾的技術推薦 鈴聲,希望降低使用者下載到不喜歡鈴聲的機會,除了省去下載的時間和金錢,

也降低了鈴聲伺服器(server)的網路負荷,是一個很有貢獻的應用面。

(2) 網路新聞推薦(P. Resnick, N. Iacovou, M. Suchak, P. Bergstorm, and J.

Riedl):它是一個關於網路新聞(Netnews)的推薦系統,它也使用協同式過濾的 技術,透過代理人程式(Agents)的技術去計算使用者之間的相似度,借此來實現 推薦。

協同式推薦系統到底是如何運作呢?其架構圖如圖 2-4-1 所示。而 V.

Kostov 等人也分析協同式推薦系統必經的兩步驟處理:

(17)

(1) 找出與目前使用者喜好相近的一群人,這些喜好習性與目前使用者接近 的人群當中,每個人與目前使用者又都存在一個相似度(similarity)。

(2) 以(1)找出的相似度套用一些預測模組(model)即可算出使用者對某項產 品的喜好程度。

尋找相似的使用

利用預測模組推

推薦結果 使用者

圖 2-4-1:協同推薦系統架構圖(資料來源:V. Kostov 2003)

雖然已經有這麼多的推薦系統採行協同過濾方法,但是它仍然有些問題需要 克服,列舉如下:

1. 評比稀疏與準確度問題

一般來說使用者都只願意接受建議,而不願意多花時間做評比,因此會導致 評比稀疏的問題。而這個問題也是推薦系統一定會面臨到的問題。另外,也必需 注意使用者的評比狀況,若是使用者的評比異常迅速,或是評比數量異常地龐 大,都必需考量到使用者評比準確度的問題,因為不準確的評比資訊會導致不準 確的協同過濾推薦。

2. 新使用者難以獲得推薦

這個問題又被稱為「Cold-Start」問題或「Start-Up」問題,因為新的使用者 缺乏足夠的評比以做為分群的依據,因此,在未歸屬於任一族群之前,使用者無 法獲得他人給予的建議,而必需經過一段時間,搜集足夠的使用者評比後,才有 辦法將使用者分群,給予適當的推薦。針對這個問題,學者們提出了以下的解決

(18)

方案:

(1) 推薦最熱門的項目給新的使用者。

(2) 花一段時間搜集使用者的資料,待過了這一段時間後再來予以分群和推 薦。

3. 使用者多重興趣問題

使用者不太可能只對某一種類的項目有興趣,通常使用者都具有多重興趣 (Multiple Interesting)。而協同過濾又必需將使用者分群,如果分群的結果太過於 絕對,也就是使用者只歸屬於某一族群,則必然會面臨到使用者多重興趣的問 題。面對這個問題,可以使用「模糊分群法」(Fuzzy Clustering),讓使用者可以 同時歸屬於不同族群,只是與每個族群的隸屬程度不相同而已。

4. 使用者興趣轉移問題

使用者的興趣、喜好不可能一成不變,因此推薦系統必需密切注意使用者的 興趣是否改變。最好的方法就是持續追蹤,定期計算使用者的相似度,將他們重 新分群。同樣的,這個問題也是推薦系統一定會面臨到的問題。

5. 若使用者的興趣較為歧異,為少數族群,則不易獲得推薦 因為族群內的成員少,可提供的建議也就相對減少。

6. 使用者對於同一項目的喜好理由並不相同

使用者喜愛某一個項目的理由可能並不相同,若拿該項目來做推薦,則使用 者會對系統的推薦結果感到莫名其妙,而且難以理解。

7. 新的項目無法經由協同過濾的方法被推薦出去

因為協同過濾推薦所推薦的項目都是使用者已經接觸過的,因此,若是沒有 妥善的處理,新的項目將有可能會被忽略掉,直到有越來越多的使用者對之進行 評比,又或者這個新項目與其它項目很類似,這些新項目才有辦法被推薦。

8. 系統剛啟用時無法進行推薦

這個問題稱之為「System Bootstrapping」,原因在於推薦系統初使用時,使 用者的評比資料不足,無法進行使用者分群與推薦的動作。

(三)以內容導向式推薦系統的相關研究

(19)

(1)在我們提出問題的第一點是關於推薦系統要如何從眾多的網頁內容中擷 取出重要的關鍵字,在本研究所提到的關鍵字係指為能具體表現出某網頁內特徵 的單字或字段。網頁內容包含了非常多的單字,在這麼多的單字中選取適量的字 來當關鍵字是我們實驗研究第一個要克服的問題;因此在每個字中加入適當的權 重值來調整,藉此突顯出哪些字對使用者或網頁內容具有特別的重要性。一般的 Keyword 擷取過程通常幾部分:(NK Mimouni, F. Marir and F.10Meziane, 2000)

(a) 去除一些常出現卻沒有太大意義的字詞,例如英文字中「and」、「or」、

「but」等字詞。

(b) 計算字彙在文件中出現的頻率。

(c) 選擇頻率出現的門檻值;門檻值訂太低無法具有辨識力,門檻值訂太高 又容易造成關鍵字的不足。

這樣就可以得到字詞跟權重值的表格,當權重值越大就越有可能表示此字詞 越重要,而這字詞就有可能成為“關鍵字”。還有的推薦系統應用 multinomial 文 件向量來表示字詞序列,建構以naïveBayes 為主的機率模組,在這裡的前提條件 為每個字詞會依賴著文件的種類但是卻不會於被出現在文件前後文位置所影 響,如亞馬遜網路書局在建立書籍的特徵初況資料庫時就是使用這種機制。

(Mooney, R. J., & Roy, L,2000)

(2)如何建立完整的使用者初況也是影響推薦準確度的要點之一。過去有 人將使用者瀏覽網頁的序列當成得到使用者興趣初況的重要訊息 (Schwab, Pohl, and Koychev, 2000),因為他們相信從使用者瀏覽網頁的歷程就可以作為建立使 用者的初況資料一個重要的依據,特別是我們又是以初況來做網頁內容分類。他 們的系統 Letizia 目的是觀察使用者最近興趣的偏好來幫助使用者預測興趣特徵 的變動,並且由使用者概況資料的瞭解來見利用者偏好的順序。在這系統裡,使 用者概況由一堆經過加權計算後的關鍵字所組成,而關鍵自是透過分析網頁得到 的 TFIDF 結果聚集而成,其系統最大的特色是運用啟發式(heuristic)的方法來決 定推薦網頁的基準,舉例來說如果只是瀏覽網頁這對系統來說只是“有興趣”,如 果將網頁訂為書籤則是會被評比為“有強烈興趣”。

(3)最後是如何結合使用者初況以及網頁分析後的結果來幫助我們進行課 程教材。以傳統作法來說就是將使用者的興趣初況去尋找跟其符合或相關聯的教 材內容而已,但也有比較複雜的推薦系統就是將兩種以內容為主的推薦及協同推 薦機制結合在一起,譬如像Fab Recommendation(Marko Balabanovic and Yoav Shoham, 1997)就是結合了 content-based 與 collaborative 兩種方法的推薦系統,

從系統的資料庫中蒐集使用者相關興趣的特徵以及索引,搜尋具有相同特徵的使 用者,將相關的資料推薦給使用者。其詳細內容如圖 2-4-2 所示:

(20)

Web Pages eb Pages

Collection Agent

Central Router

Recommended Pages

selection Agent

user feedback user feedback

Web Pages

Collection Agent

user feedback

Agent B Agent A

圖 2-4-2:FAB 推薦系統流程圖(資料來源:Marko Balabanovic and Yoav Shoham, 1997)

他會要求使用者對這推薦的內容進行評比以便更新這系統中 selection agent 裡使用者的資料,將更新完後的資料重新回饋到 Collection agent,也更新了 Collection agent 裡使用者的資料。

(21)

第三章 研究方法

第一節 研究流程 第一節 研究流程

本研究之流程如下圖 3-1-1 所示。首先從實際審稿程序中發現問題著手,確 定研究方向和目的。然後針對以內容為主的過濾(Content-based Filtering)、知 識管理與GHSOM 等主題進行文獻探討。接著提出本研究的系統架構與分析,進 而開發與建置系統。完成系統雛型架構後隨即進行分析,依使用心得對初步的系 統進行修改,最後提出結論與未來研究的建議。

本研究之流程如下圖3-1-1 所示。首先從實際審稿程序中發現問題著手,確 定研究方向和目的。然後針對以內容為主的過濾(Content-based Filtering)、知 識管理與GHSOM 等主題進行文獻探討。接著提出本研究的系統架構與分析,進 而開發與建置系統。完成系統雛型架構後隨即進行分析,依使用心得對初步的系 統進行修改,最後提出結論與未來研究的建議。

文獻探討與整理

研究方法

系統設計與開發

結果與分析

結論與後續研究 擬定研究方向與目的

圖 3-1-1:研究流程圖 圖 3-1-1:研究流程圖

(22)

第二節 系統架構

本研究之系統架構如下圖 3-2-1 所示,將系統依功能的不同分為三個階段,

於建構時分階段完成,而建構完成後則可提供審稿委員名單當作審核期刊分派的 參考。在系統實作大部分以 VB 6.0 設計,中文斷字部分則以 VB .Net 2003 設計,

資料的儲存與操作則採用 Oracle 8i 及 Stored Procedure。研究的目的雖包括實作系 統,但系統的定位仍將研究的需求列為重要標的,所以在整個平台與程式語言的 使用未予以最佳的整合。

而建構完成後則可提供審稿委員名單當作審核期刊分派的 參考。在系統實作大部分以 VB 6.0 設計,中文斷字部分則以 VB .Net 2003 設計,

資料的儲存與操作則採用 Oracle 8i 及 Stored Procedure。研究的目的雖包括實作系 統,但系統的定位仍將研究的需求列為重要標的,所以在整個平台與程式語言的 使用未予以最佳的整合。

格式轉換

中文斷字

詞彙篩選

詞彙建構

特徵值建構

GHSOM

審稿委員查詢與推薦

第一階段 內容整理

第二階段 內容分析

第三階段 應用

圖 3-2-1:系統架構圖(資料來源:本研究整理)

圖 3-2-1:系統架構圖(資料來源:本研究整理)

(23)

第一階段內容整理

本階段分為四個步驟,格式轉換、中文斷字、詞彙篩選、詞彙建構。

格式轉換:一般期刊的收錄大部分是以 pdf 的檔案格式為主,有少部分是 word 的檔案格式,本功能主要是將檔案格式轉換成文字檔並且忽略圖表內容,

只考慮純文字的部份。

中文斷字:使用中央研究院所開發的斷詞系統來處理斷詞。在這邊將整理過 的文字檔進行斷詞,利用斷出來的結果當作採擷的關鍵。

詞彙篩選:檢視每篇期刊斷詞的內容並刪除stop words 與錯誤的詞彙,最後 針對詞彙出現的次數從多到少排序。

詞彙建構:擷取代表每篇文章的重要字彙新增到資料庫,目前為每篇文章 105 個詞彙,主要的考量是太多或太少詞彙會影響計算出來的值是否有意義。

這一階段的目的有兩個:

1. 整理期刊內容成為方便計算 TFIDF 的標準格式。

2. 使用資料庫儲存期刊的資訊以方便後續資料的運用。

第二階段內容分析

分為三個步驟,特徵值建構、自我組織映射圖、儲存結果,此階段目的為應 用GHSOM 將期刊相性高的分成同ㄧ群。

特徵值建構:以移動平均法為基礎計算TFIDF 後提供兩個檔案 input.tfidf 和 term.tv 當作 GHSOM 的輸入。

自我組織映射圖:使用GHSOM 的方式計算將所有期刊依照相似程度分群,

其結果包含以HTML 顯示的分群結果與每個群體的說明。

儲存結果:轉換GHSOM 的結果並新增到資料庫。

第三階段應用

分為審稿委員查詢與審稿委員推薦,目的是為待審的期刊推薦適合的審稿委 員與方便使用者了解分群的結果。

(24)

第三節 研究方法

本章節的重點在系統的實作上,包含如何利用 TFIDF 來獲得期刊內容裡的關 鍵字詞以及透過 GHSOM 來推薦審稿委員給使用者,並且在推薦完成後回饋給系 統作為日後推薦的基礎,確保推薦的正確地給所需要的使用者。本研究方法如下 圖 3-3-1:

CKIP

TFIDF

GHSOM

POST-GHSOM 關鍵詞建構

PRE-GHSOM 歷史期刊內容

待審期刊 資料處理

DB

Recommendation

推薦流程 推薦基礎

圖 3-3-1:審稿委員推薦流程圖(資料來源:本研究整理)

(i)系統實作流程說明

歷史期刊內容:期刊的來源是從中文電子期刊服務(CEPS)收錄的資訊科 學與管理學期刊來的共計有 101 篇,期刊發表時間介於 2003~2007 年間,包含管 理學報 27 篇、資管學報 24 篇、管理評論 2 篇、中山管理評論 24 篇、交大管理

(25)

學報 7 篇、文大商管學報 9 篇、中原企管評論 6 篇、東海管理評論 2 篇。因為檔 案的轉換問題,必須剔除無法使用的檔案,最後只能以橫跨多種期刊別的方式選 擇。

資料處理:檔案本身只剩純文字,其他不論是圖形、影像、表格、符號或格 式都要剔除。

CKIP:使用中研院資訊科學所詞庫小組提供的線上斷詞服務(開放 API 供 用戶端呼叫),將整理過後的文章經由程式撰寫的 TCP Socket 連線傳送驗證資訊 及文本至本伺服器,伺服器經過處理後經由原連線傳回結果。整理回傳的資料並 將內容存到 Excel 的表格去,每一篇期刊都有其相對應的 Excel 檔。

關鍵詞建構:檢視 Excel 檔的內容過濾不合理的項目提高斷詞的正確率,最 後依據次數由大到小排並選取排在前面的 105 個項目存到資料庫去。

TFIDF:通常在斷詞後,有數千個關鍵字可能會從文章中被萃取出來。一般 多採用 Salton (1989) 所發展的詞典與向量空間展示(vector space representation),其 主要是利用詞彙頻率 (term frequency, tfij)與文章頻率 (document frequency, dfj)的計 算來代表文章。詞彙頻率 tfij是指詞彙 j 在文章 i 中出現的頻率;文章頻率 dfj則是 資料庫中有多少文章包含詞彙 j 乘以字數的數目。依照定義計算後可得到每個項 目的 TFIDF 值,最後再以此為基礎利用線性平移法簡化計算量並以此值當作是 項目的 tfidf 值。

PRE-GHSOM:在特徵(features)的選取上,以出現在這些文件內所有詞彙之 tf x idf 值前 300 大為選取標準,以作為發展 SOM 的輸入值。最後,以這些文件在 300 個特徵的 tf x idf 值作為輸入向量。SOM 的輸入資料包含 input.tfidf 為代表每 篇文章的詞彙與對應到特徵詞列表的 tfidf 值;term.tv 特徵詞列表。

GHSOM:本研究的重點不在於設計新的演算法,而是利用現有的軟體系統 來 展 示 知 識 地 圖 的 製 作 。 主 要 參 數 有 學 習 速 率(learning rate) 、 鄰 近 距 離 (neighborhood)與地圖大小(map size)。學習速率是用來控制權重調整的參數,鄰 近距離指的是最贏向量影響範圍,地圖大小可以自動調整。本研究設定GHSOM 中的標籤閥值(label threshold)大於等於 0.35 以上的詞彙作為關鍵詞彙,最多 選取五個詞彙作為地圖標籤,故可在圖上顯示一至五個關鍵字來提示使用者。其 它的參數設定,起始的學習速率設為 0.5,起始鄰近距離設為 3,起始地圖大小 設為5x5。

POST-GHSOM: 將 GHSOM 的輸出結果存到資料庫去並提供使用者查詢與 推薦的介面。

(26)

(ii)系統開發結果說明

主要系統介面呈現如下圖 3-3-2 審稿委員推薦系統介面(中文斷字與詞彙收 集)、圖 3-3-3 審稿委員推薦系統介面(主畫面)及期刊分類結果索引(對建議的 結果提供快速查詢與推薦層次的選擇)外,其它的功能(格式轉換、詞彙篩選、

詞彙建構、特徵值建構、PRE-GHSOM、GHSOM、POST-GHSOM)皆為背景執行 程式。

(a)審稿委員推薦系統介面(中文斷字與詞彙收集)

圖 3-3-2:審稿委員推薦系統介面(中文斷字與詞彙收集)

(b)審稿委員推薦系統介面(主畫面)

(27)

圖 3-3-3:審稿委員推薦系統介面(主畫面)

(c)審稿委員推薦系統介面(期刊分類結果索引)

功能說明:為了方便使用者可以快速得知系統所推薦文章的審稿委員,而開 發的使用者介面,如下圖 3-3-4 所示。

使用說明:在期刊名稱欄點選所要查詢的文章,系統就是自動帶出相關的資料。

(28)

圖 3-3-4:審稿委員推薦系統介面(期刊分類結果索引)

(i)Location on the GHSOM MAP:表示文章在 GHSOM MAP 座落的分群區 塊,上述文章屬於區塊(2,1)。

(ii)Category:表示文章所屬的分類,如上所述該篇文章屬於財務管理類。

(iii)相關訊息:Relative files 表示其他屬於同區塊內的文章代號;Labels 表 示該區塊的關鍵詞。

(iv)推薦審稿委員名單:表示與該篇文章相似的作者有哪些?即是審稿委 員的名單。

(v)同ㄧ區塊的推薦:點選 Category 的區塊,若與該篇文章同ㄧ區塊則畫 面會出現對話框(如圖 3-3-5)詢問使用者是否確定要執行同ㄧ區塊的推薦,按

(29)

確定(如圖 3-3-7)則會推薦同ㄧ區塊的其它作者;按取消則不執行同ㄧ區塊的 推薦。

(vi)鄰近區塊的推薦:點選 Category 的區塊,若與該篇文章不同區塊則畫 面會出現對話框(如圖 3-3-6)詢問使用者是否確定要執行鄰近區塊的推薦,按 確定(如圖 3-3-7)則會推薦鄰近區塊的其它作者;按取消則不執行鄰近區塊的 推薦。

圖 3-3-5:同ㄧ區塊推薦對話框

(30)

圖 3-3-6:鄰近區塊推薦的對話框

(31)

圖 3-3-7:確定執行同ㄧ區塊與鄰近區塊推薦的結果

(32)

第四章 結果與分析

第一節 結果

期刊資料經過 GHSOM 聚類後產生的地圖,在每個分類項目中所列的標籤詞 彙為採用本方法所產生的多個關鍵詞彙的結果,用以輔助描述該分類群集的內涵 意義,排越前面的詞彙表示對於描述該主題群集內的文件有越高的代表性,如圖 4-1-1 所示。

圖 4-1-1:GHSOM MAP (資料來源:本研究整理) 4.1 期刊內容分群結果:

如圖 4-1-1 所示,我們檢視後認為有 11 大類主題包含金融管理、醫務管理、

財務管理、運輸科技、資訊管理、稅務會計、風險管理、企業管理、勞工管理、

人力資源、行銷流通管理。在金融管理主題內所提及的是關於股市、基金、台指 選擇權、美國存託憑證的議題。第 2 個主題為醫務管理主要是探討醫療系統、流

(33)

程管理與遠距醫療所面對的網路環境。第 3 個主題財務管理則是以企業為主題探 討代理問題、盈餘管理、BOT、前置成本與投資問題。第 4 個主題是運輸科技主 要是探討飛行器的發電機組裝時間。第 5 個主題資訊管理包含 FAQ 知識、知識 本體、網路探索等內容相當廣泛。第 6 個主題稅務會計就是有關遺產稅與分配權 這一方面。第 7 個主題風險管理則有預算服務量與麵粉卡特爾案例分析。第 8 個 主題企業管理舉凡管理公司內部的大小事務所產生的問題都可歸於此類。第 9 個主題勞工管理凡是關於勞工的問題都是這一類所涵蓋的範圍。第 10 個主題人 力資源有關於離職、生產力、外派與薪酬的問題。第 11 個主題行銷管理有量販 店與企業贊助奧運的行銷探討等。

第二節 分析

利用 GHSOM 這個演算法就是為了將相似性高的單元分在相同的一組以達到 分群的效果,但實驗的結果並沒有百分之百分群正確,依據實際的現象,如圖 4-2-1 所示為 5*5 的 GHSOM MAP 與 11 大類主題的關係圖,兩者的關係舉例來說 如圖中的區塊(1,1)、(1,2)、(1,3)所對應的是金融管理類;(1,4)與(1,5)

是醫務管理類,以此類推。依據此對應關係,分析如下:

(34)

圖 4-2-1:期刊分群與分類關係圖(資料來源:本研究整理)

ㄧ般而言,SOM 都能正確地將相似性高的文章分在同一區塊。如圖 4-2-1 中 的區塊(3,1),該區塊的文章共有 4 篇分別是「利用未償債務之扣除進行逃漏 遺產稅之研究--Logit 模式之應用」、「財稅所得差異決定因素及課稅所得推估之 研究」、「歐亞美三洲九國之總體經濟因素對犯罪率之縱橫門檻研究」與「企業 選擇公司五年免稅與股東投資抵減租稅規劃之實證研究」,如此可得知在這個區 塊的文章有三篇是關於稅方面的議題,其相似是相當高的。但因為我們僅用文章 中的字詞中分群而非文章本身的涵義,難免會有相似性低的文章分在同ㄧ區塊。

如圖 4-2-1 中的區塊(3,2),該區塊的文章共有 2 篇分別是「社會困境--全民健 保總額預算制下醫療提供者策略的均衡分析」、「損人不利己的聯合行為--麵粉 卡特爾的案例分析」,這兩篇文章的議題相差甚遠但可能因相似的字詞而被分在 同ㄧ群中。這部份的問題解決,可以是未來研究的努力方向。

SOM 有ㄧ個特性,會讓相似度高的文章分在同ㄧ區塊,而且鄰近區塊的文章相

(5,5) (5,4)

(5,3) (5,2)

(5,1)

(4,5) (4,4)

(4,3) (4,2)

(4,1)

(3,5) (3,4)

(3,3) (3,2)

(3,1)

(2,5) (2,4)

(2,3) (2,2)

(2,1)

(1,5) (1,4)

(1,1) (1,2) (1,3)

金融管理 人力資源管 醫務管理 運輸管理 財務管理 勞工管理 風險管理 資訊管理 稅務管理 企業管理 行銷流通管理

(35)

似性也較高。例如區塊(4,1)的文章共計有四篇分別為「教學醫院醫師生產力 之預測模型」、「社會支持系統與老人生活滿意度之關係--以高雄市老人為例」、

「從人力資本與勞動市場區隔觀點探討非自願離職者再就業的決定因素--洛基 對數線性分析」與「電子薪貴嗎--電子製造業與傳統製造業受僱員工薪資報酬差 異之研究」,這些文章討論的主要是以員工為對象的相關議題;再看區塊(5,1)

的文章,總計有三篇分別是「企業組織支援系統對大陸台商幹部之工作家庭衝突 之研究」、「從工作壓力探討台灣企業從業人員參加禪修之學習動機及相關因素 之研究--以某禪修團體上班族禪修班為例」與「離職經驗與薪酬對工作投入影響 之探討」,文章所探討的議題也是關於薪資或離職,其對象也是以員工為訴求點。

因此,確實可以發現鄰近區塊的相似性也較高。透過觀察,如圖4-2-1 所示,我 們將區塊(4,1)與(5,1)劃分成人力資源管理類(淺粉紅色);將區塊(2,1)、

(2,2)與(2,3)劃分成財務管理類(黃色)。另外再擴大解釋類別的關係,如 圖4-2-1 中的金融管理類與財務管理類(即淺灰色與黃色區塊),可發現到這兩類 就在相鄰的上下位置也是存在某種關聯的。再從表4-1-1 中來解釋,這兩類的文 章雖然在內容上是討論不同的議題而有不同的分類,但可從金融管理類的區塊找 到“多國籍企業"這個的關鍵詞,而從財務管理類找到“企業"這個關鍵詞如此 也證明這兩類確實存在著“企業"這個關聯。

(36)

表 4-1-1:GHSOM 結果 金融

基金 ADR

多國籍企業 期貨

金融 臺指 基金 失敗率 GARCH

金融 墊償 臺指 購買量

醫務 語音 遠距 遺失率 評鑑

醫務 流程管理

財務 核心代理 盈餘 分配權 董監事 股份

財務 人壽 投資案 票券 企業 BOT

財經 前置

運輸科技 組裝 發動機 高頻

資訊管理 句子 合併症 FAQ 摘要 本體 稅務

服務量 再就業 分配權 遺產稅 犯罪率

風險、金融 產能

麵粉

預算服務量

金融 上網 通路

資訊管理 詢價 用戶 防護 生態

勞工 FAQ 勞動 歐洲 勞工 貿易 人力資源

生產力 薪酬 離職 老人 主治

企業管理 魅力 公平衡量

企業管理 旗下 美學 開發 紡織 外觀

行銷流通管理 奧運

QFD 量販店

企業管理 勞工 貿易 子公司 相關人 證券商 人力資源

台商 幹部 外派 禪修 薪酬

企業管理 學習者 處置 積分

企業管理 長官 夥伴 意圖 多層次 效能

企業管理 奧運 跨組織 創業家 易經

經營管理 知覺 犧牲

(37)

第三節 推薦

當我們確認結果的正確性後,就可以將期刊分群後所產生該群組所對應期刊 的作者輸出給使用者。而這些作者便可以當相似文章的審稿委員。另外雖然有些 審稿委員重複出現在不同分群主題的名單上如徐木蘭委員,這是因為她具有不同 領域的專長。

1. 同ㄧ區塊的推薦

此種方式的推薦是輸入新的文章經系統計算出所屬分群後,即找出與該篇文 章相似性高的文章,對照出該群組的作者即為系統所建議該篇文章的審稿委員名 單。圖 4-3-1 所示為對應 GHSOM MAP 的審稿委員名單,其中區塊(1,1)對應到 的委員名單就有江明憲、薛立言、周冠男、施靜慧、林有志、何加政、陳安琳。

另外,為了方便查詢系統所推薦文章的審稿委員名單,設計了如下圖 4-3-2 的介 面,讓使用者可以快速得到結果。舉例來說,在期刊名稱選擇「3.公司治理與專 利權台灣新興市場」這一篇期刊後立即可以從查詢得到所屬的分群結果,包括該 篇文章在 GHSOM MAP 的位置(Location on GHSOM Map)與所屬的類別 category(財 務管理類),還有同ㄧ群組相關的文章有哪些與特徵 label,最後就是系統推薦的 名單有馬黛、張瑞當、楊朝旭,而這三個人就是系統會推薦的審稿委員。亦可以 依照我們檢視的分類結果,把整個類別的所有人當作是審稿委員,此時的名單除 了上述的三人外還增加了陳明吉、曾真真、黃劭彥、陳振遠、唐瓔璋、林萍珍、

林玉彬等人,如圖 4-3-3 所示。

(38)

圖 4-3-1:期刊審稿委員對照圖(資料來源:本研究整理)

(39)

圖 4-3-2:期刊分類結果索引(資料來源:本研究整理)

(40)

圖 4-3-3:同ㄧ區塊的推薦(資料來源:本研究整理) 2.鄰近區塊的推薦

如上述,若對系統的推薦名單想要有更多的選擇時,也可將鄰近類別的作者 納入當作是審稿委員。例如除了上述的名單外再加入金融類的名單以提供使用者 有更多的選擇性,如圖 4-3-4 所示。

(41)

圖 4-3-4:鄰近區塊的推薦(資料來源:本研究整理)

(42)

第五章 結論與建議

第一節 結論

本研究在實務上可以幫助主編或編輯委員會將所須審查的期刊快速分配給 審稿委員進行審查;在實作的概念上採用以內容為基礎之推薦方法搭配知識管理 工具中的 GHSOM 來組織審稿委員的相似性,選擇以內容為基礎之推薦方法的原 因是依照期刊內容來分群可以得到比較正確的結果。而選擇 GHSOM 是因為其除 了能將相似性的文章分在同ㄧ群外,還能將分群結果以圖示來呈現。

在系統的建構上本研究以內容為基礎之推薦方式來進行期刊審稿委員推 薦,透過 TFIDF 的計算可以找出代表期刊內容的特徵詞彙,在透過 GHSOM 來作 內容相似度計算與分群,再透過本系統的推薦委員介面可以得到系統對期刊文章 所推薦的審稿委員名單。

系統實作完成後都會驗證結果來說明系統的可信度但本系統由於主編選擇 審稿委員時並無一定的原則,因此無法用量化的方式計算出系統推薦與實際所選 到的審稿委員是否一致來估算系統的正確率,這種情況下對於實作系統的正確性 真是令人玩味。

第二節 未來研究方向

在分析時發現兩篇文章的議題相差甚遠但可能因相似的字詞而被分在同ㄧ 群中,此問題可從兩個方向著手:

(i)運用更有效的統計式文字探勘技術:本研究未進行其他更多探勘技術 於相關詞彙擷取效果的評估和測試,如能進一步分析各種技術的優缺點並再次針 對期刊內容的特性調整出更效率的方法,相信對系統的精確性能再有提昇。

(ii)加入語意分析的功能:語意分析的模組有助於進一步解析文件中詞彙 的真實用意和各別關鍵詞彙的辨別。

比較內涵式推薦方法的其他工具或其它推薦方法像是協同式推薦等,利用不 同方法或工具可以作為後續研究模式的最佳方案。

(43)

附錄 I:期刊標題分群結果

影響台灣股市 日內股價變動 因素之探討.txt 信用評等--期 間與產業差異 分析.txt 美國存託憑證 報酬與風險傳 遞之研究.txt 台灣多國籍企 業與財務績 效.txt

提前採用資產 減損公報之公 司特性及盈餘 管理動機.txt 國安基金以期 貨維護現貨策 略之分析.txt 解讀台灣IPOs 發行熱季之迷 思.txt

臺指選擇權風險 值之研究.txt 以最大熵值法估 計台指選擇權投 資組合保險極端 值分配係數與其 風險值.txt 組合型基金下方 風險與績效評估 --以修正後Sharpe 和Jensen指標為 證.txt

臺指選擇權 價格行為之 實證研 究.txt 考慮市場價 格波動下承 受或墊償供 應鏈契約設 計之研 究.txt

醫院評鑑網 路申報系統 建置.txt 台灣遠距醫 療未來遞送 模式之探 討.txt 鏈路負載平 衡演算法使 用於企業網 路環境之研 究.txt 一個有效的 遺失率估算 法之設計與 實驗.txt 以網路流量 資料探勘進 行阻斷服務 攻擊偵測之 研究.txt

健康照護組織 服務流程管理 系統之設計-- 以養生文化村 為例.txt

台灣家族公司 負債融資成本 之研究.txt 核心代理問題 與盈餘管理董 事會結構與外 部監督機制之 探討.txt 產品市場競爭 可否降低公司 內部治理機制 不佳所導致的 代理成本.txt

BOT計畫投資時 點選擇之價值評 估--以大鵬灣國 家風景區為例.txt 以平衡計分卡觀 點探討業務體系 人力資本對壽險 業經營績效之影 響.txt

以經營效率觀點 建立台灣資訊電 子業財務危機預 警模型.txt

含有設置成 本之流行商 品的存貨模 型.txt

用計畫評 應

核術評估民 航發動機修 護工廠組裝 時問--以A公 司為例.txt 使用模糊分 割自概念層 級架構中找 出關聯規 則.txt

全膝關節置換 術之併發症合 併症篩選研 究.txt

智慧型模糊推 論血液透析品 質分類輔助系 統.txt

知識擷取與知 識表達協同程 序於建構本體 的概念架構.txt

(44)

公司治理與專 利權台灣新興 市場.txt

以Malmquist生產 力指數探討票券 金融公司經營效 率.txt

輕資產戰略與營 運績效關係之研 究--以台灣企業 為例.txt

多值企業價值評 估模型研究.txt

網路論壇FAQ 知識之自動轉 換設計.txt 電子病歷之真 確性保護機 制.txt

以文件為對象 的概念萃取程 序建立知識本 體的雛型架 構.txt

利用未償債務 之扣除進行逃 漏遺產稅之研 究--Logit模式 之應用.txt 財稅所得差異 決定因素及課 稅所得推估之 研究.txt 歐亞美三洲九 國之總體經濟 因素對犯罪率 之縱橫門檻研 究.txt

企業選擇公司 五年免稅與股 東投資抵減租 稅規劃之實證 研究.txt

社會困境--全民 健保總額預算制 下醫療提供者策 略的均衡分析.txt 損人不利己的聯 合行為--麵粉卡 特爾的案例分 析.txt

競爭廠商之 產品策略與 網路通路策 略.txt

ERP系統架構 支援B2BEC之 實質營運管 理--混合定性 和定量分析 研究.txt 企業之資訊 安全策略與 其產業別及 資訊化程度 關係探討.txt 全球資訊網 中網頁--動作 使用路徑的 資料挖掘.txt 具便捷性與 安全性之行 動消費者主 導交易協 定.txt 台灣網際網 路加值產業 生態演進之 探索--開放性 組織理論的 觀點.txt

以國際勞動基 準作為國際貿 易的遊戲基礎 --爭辯與行 動.txt

探討文字採掘 技術在管理者 知識地圖之應 用.txt

(45)

知識工作者 任務與知識 管理系統之 適配模式.txt 線上環境中 廣告情境呈 現與執行手 法對廣告效 果的影響廣 告變化訊息 訴求與導引 效果.txt 電子商務彈 性定價系統 設計與市場 機制之模擬 研究.txt

教學醫院醫師 生產力之預測 模型.txt 社會支持系統 與老人生活滿 意度之關係-- 以高雄市老人 為例.txt 從人力資本與 勞動市場區隔 觀點探討非自 願離職者再就 業的決定因素 --洛基對數線 性分析.txt 電子薪貴嗎-- 電子製造業與 傳統製造業受 僱員工薪資報 酬差異之研

使用幽默對魅力 領導行為與效應 的調節作用之研 究--以高雄地區 企業高階經理人 為例.txt

民眾與政府對政 策公平衡量多元 認知之資訊整合 研究以登革熱防 治案為例.txt

影響企業品 牌傘策略背 書效果的因 素.txt 權力情境與 權力結構對 企業決策之 影響--不同 方法之實 證.txt 顧客涉入程 度對服務品 質與關係品 質之干擾效 果--以電腦 賣場與內部 商店為 例.txt 品牌形象契

運動行銷之 探討--以企業 贊助奧運?

例.txt 顧客價值為 基礎的競爭 策略模式--模 糊品質機能 展開之應 用.txt

地區限定優勢 之跨國移轉.txt 從利害相關人 的觀點實證研 究綠色創新的 採行與組織績 效之關係 --LISREL模 式.txt

垂直整合與虛 擬整合商業模 式之績效比較 --台灣積體電 路?業實證.txt 台灣半導體工 業未來發展預 測.txt

大者恆大嗎規 模與擴張傾向

(46)

究.txt 合度及產品 屬性契合度 對消費者購 買延伸產品 意願之研 究.txt 服務失誤嚴 重度服務補 救方式顧客 忠誠度與服 務補救滿意 度關係之研 究.txt 品牌形象與 產品設計對 新產品開發 績效影響之 研究--以台 灣精品獎得 獎廠商為 例.txt 產業內策略 群組結構對 企業績效之 影響--動態 能力觀 點.txt 線上遊戲玩 家共識模式 建構與驗 證.txt 以策略導向 分析醫療產 業顧客關係 管理之消費 者關鍵需求 特性.txt

間關係的檢 視.txt

(47)

企業組織支援 系統對大陸台 商幹部之工作 家庭衝突之研 究.txt

從工作壓力探 討台灣企業從 業人員參加禪 修之學習動機 及相關因素之 研究--以某禪 修團體上班族 禪修班為例.txt 離職經驗與薪 酬對工作投入 影響之探討.txt

人際網絡結構因 素對工作滿足之 影響.txt

第一線員工處置 行為之管理壓力 源因應資源與情 感承諾之角色.txt 跨層次觀點下印 象管理動機與主 管導向之組織公 民行為的關係社 會互動與組織政 治氣候的調節角 色.txt

團隊成員目標導 向對於自我與集 體效能及創新之 影響一個多層次 研究.txt

難應付客戶頻次 知覺服務訓練效 用兩者及情緒勞 動與情緒耗竭之 關係--資源保存 理論的觀點.txt E-learning學習績 效運用模糊法評 估.txt

資訊委外人 員特殊與一 般自我效能 模型的驗証 --台灣地區 公營機構為 例.txt 虛擬社群線 上行為模式 之實證研究 --線性結構 模式之交叉 效度檢 定.txt 管理研究中 的共同方法 變異問題本 質影響測試 和補救.txt 供應鏈關係 中信任與承 諾影響因素 之研究--交 易成本及社 會交換理論 觀點.txt 多層次管理 研究分析層 次的概念理 論和方 法.txt 以計劃行為 理論探討資 訊人員的知 識分享行 為.txt

期管 易經早 理決策模式 與西方管理 決策模式之 比較分析.txt

為分 投機行 析--價值差距 資訊差距與 潛在懲罰力 之影響.txt 從認同到開 創--創業家的 動態釋意歷 程.txt 動態複雜任 務中團隊與 個人的績效 差異任務熟 悉度與決策 目標多寡的 影響.txt 誰能跳脫潮 流壓力潮流 效應與組織 學習對新科 技進入之影 響.txt 創意支援系 統提昇使用 者創造力之 研究--自我效 能理論之解 釋與實證.txt 科技中介之 組織溝通理 論反思--研究 典範與後設

知覺風險對消 費者知覺價值 之形成所扮演 角色的探討.txt

(48)

理論之重 建.txt 跨組織知識 分享模式之 研究--以資訊 專案委外為 例.txt

(49)

林圖書有限公司,

推薦系統之研究」。

ge

Art and Practice of Being a Revolutionary," Journal of

Balanced Score Card Approach," Journal of arch. 1971.

uston, A.L., Sewell, R.R., & Schatz, B.R. 1998. Internet browsing

anagement Strategy and Its Link to

0: Know

02. Uncovering hierarchical structure

Knowledge

ral Process Lett. 2(5):1-5.

附錄 II:參考文獻

1. 陳文華、徐聖訓、施人英及吳壽山,2003,「應用主題地圖於知識整理」,

圖書資訊學刊,1 卷 1 期:37-58。

2. 陳文華;施人英;吳壽山,2003,「探討文字採掘技術在管理者知識地圖之 應用」:35-64。

3. 葉怡成(2003),類神經網路模式應用與實作,初版,儒 台灣。

4. 黃國政,2007,「運用文字探勘技術於人才招募

5. 簡士堯,2003,「以內容為基礎之網路學習導覽推薦之研究」。

6. Alavi, M. and Leidner, D.E., "Review: Knowledge Management and Knowled Management Systems: Conceptual Foundations and Research Issues," MIS Quarterly (25:1), 2001, pp. 107-136

7. Allee, V., "The

Knowledge Management (3:2), 1999, pp. 121-131.

8. Armstrong, A.G. and Hagel, J.I., "The Real Value of On-Line Communities,"

Harvard Business Review, 1996.

9. Arora, R., "Implementing KM - A

Knowledge Management (6:3), 2002, pp. 240-249

10. Berelson, B. Content Analysis in Communications Rese MacMillan Pub Co

11. Chen, H., Ho

and searching: User evaluation of category map and concept space techniques.

Journal of the American Society for Information Science, 49(7):582-603.

12. Choi, B., and Lee, H., "Knowledge M

Knowledge Creation Process," Expert Systems with Applications (23), 2002, pp.

173-187

13. Cho, C.G., Jerrell, C.H., and Landay, C.W., Program Management 200

the Way - How Knowledge Management Can Improve DoD Acquisition, Defense Systems Management College, Virginia.

14. Davenport, T. H., and Prusak, L., Working Knowledge, Harvard Business School Press, Boston, 1998.

15. Dittenbach, M., Rauber A., & Merkl, D. 20

in data using the growing hierarchical self-organizing map. Neurocomputing, 48:

199-216.

16. Fahey, L. and Prusak, L., "The Eleven Deadliest Sins of Management," California Management Review (40:3), 1998, pp. 265-276

17. Fritzke, B. 1995. Growing grid--a self-organizing network with constant neighborhood range and adaption strength. Neu

18. Horwitch, M., and Armacost, R., "Knowledge Management: Helping Knowledge Management Be All It Can Be," Journal of Business Strategy, 2002, pp. 26-31.

參考文獻

相關文件

Classical information theory uses Shannon entropy to quantify the uncer- tainty of probability distributions or information sources, the information obtained after the value of a

In 2007, results of the analysis carried out by the Laboratory of the Civic and Municipal Affairs Bureau indicated that the quality of the potable water of the distribution

In 2007, results of the analysis carried out by the Laboratory of the Civic and Municipal Affairs Bureau indicated that the quality of the potable water of the distribution

In 2007, results of the analysis carried out by the Laboratory of the Civic and Municipal Affairs Bureau indicated that the quality of the potable water of the distribution

Reading Task 6: Genre Structure and Language Features. • Now let’s look at how language features (e.g. sentence patterns) are connected to the structure

 Promote project learning, mathematical modeling, and problem-based learning to strengthen the ability to integrate and apply knowledge and skills, and make. calculated

 Schools should foster parental understanding of e- Learning and to communicate with parents about the school holistic e-Learning policy to address

In order to facilitate the schools using integrated or mixed mode of curriculum organization to adopt the modules of Life and Society (S1-3) for improving their