• 沒有找到結果。

應用主題地圖於知識整理

N/A
N/A
Protected

Academic year: 2021

Share "應用主題地圖於知識整理"

Copied!
22
0
0

加載中.... (立即查看全文)

全文

(1)

應用主題㆞圖於知識整理

Application of Topic Map on Knowledge Organization

陳文華*、徐聖訓**、施㆟英**、吳壽山***

 

Wun-Hwa Chen, Sheng-Hsun Hsu, Jen-Ying Shih, Soushan Wu

摘要

事實㆖,很多㈽業不是沒㈲知識庫或 ㈾料倉儲,而是知識庫太繁雜,以致在需要 時無法㊜當㆞取得㈾料;再加㆖網際網路的 興起,網路㆖龐大的、未經組織與分類的、 及高重複性的㈾料㈵性使得㈾料擷取問題 更加複雜。透過㆒般常用的搜尋引擎(如: google)會搜尋到㆖千筆的㈾料。對於使用 者而言,瀏覽超過數百萬個網頁來尋找相關 的㈾料是㆒㊠沉重的負擔,而目前已開發的 搜尋系統並無法確切㆞滿足使用者的需求。 ㈾訊超載的情況,使得㆟們無法㈲效㆞進行 ㈾料搜尋,㈲必要利用㈾訊技術來尋找相關 且高品質的㈾訊。然而,僅藉由搜尋引擎來 尋找知識是不足的,因為即使目前大部份的 搜尋引擎都㈲提供依相關性排序及本文摘要 的功能。通常使用者還是得透過搜尋引擎尋 找數次、瀏覽許多不必要的網頁之後才能找 到所需的㈾料,而非㆒次就能完成。因此本 研究的主要目的,在於介紹如何利用文字探 勘來發現蘊藏在大量㆗文文件㆗的知識。本 文也將深入探討此技術的各㊠主要元件。透 過主題㆞圖的實證研究,我們將製作兩類的 主題㆞圖,分別是顯性知識(臺灣證券暨 期貨法令㈾料)及隱性知識(王永慶思想哲 ㈻)。藉由這兩個㆞圖的比較來探討顯性知 識與隱性知識在主題㆞圖的呈現㆖所發現的 問題。

Abstract

Knowledge management (KM) has received much attention from both academics and practitioners in the past few years. Following the KM trend, many organizations have built their own knowledge repositories or data warehouses. However, information or knowledge is still scattered everywhere without being properly managed. The rapid growth of the

* 國立臺灣大㈻商㈻研究所教授(Professor, Graduate Institute of Business Administration, National Taiwan University)

** 國立臺灣大㈻商㈻研究所博士生(Doctoral student, Graduate Institute of Business Administration, National Taiwan University)

(2)

Internet accelerates the creation of unstructured and unclassified information and causes the explosion of information overload. The effort of browsing information through general-purpose search engines turns out to be tedious and painstaking. Hence, an effective technology to solve this information retrieval problem is much needed. The purpose of this research is to explore the application of text mining technique in organizing knowledge stored in unstructured natural language text documents. Major components of text mining techniques required for topic map in particular will be presented in detail.

Two sets of unstructured documents are utilized to demonstrate the usage of SOM for topic categorization. The first set of documents is a collection of speeches given by Y.C. Wang, Chairman of the Taiwan Plastics Group, and the other is the collection of all laws and regulations related to securities and future markets in Taiwan. We also try to apply text mining to these two sets of documents to generate their respective topic maps, thus revealing the differences between organizing explicit and tacit knowledge as well as the difficulties associated with tacit knowledge.

關鍵詞:知識管理、知識入口網站、文件分

類、主題㆞圖、SOM

K e y w o r d s : K n o w l e d g e m a n a g e m e n t ; Knowledge portal; Document categorization; Topic map; Self-organizing map

㆒、緒論

在知識經濟世㈹,如何善用㈾訊產生 知識成為㈽業持續成長的利基。尤其在這 詭譎多變的時㈹㆗,競爭的憑藉已由㈲形 ㈾產,如㈯㆞、原物料、廠房、㈾本等轉 為無形的知識。㈲系統的知識及智慧,能提 供㈽業解決問題的能力及達成目標的主要工 具。由於其在㈽業競爭及發展㆖的重要性, 甚㉃是對㆒㈽業價值的評價,也取決於㈽ 業是否㈲能力管理其知識及運用其智慧㈾本 (Bloodgood and Salisbury 2001)。良好的知識 管理(knowledge management)能為組織帶來 許多效益,如產品創新、品質改善、提升顧 客滿意度,以及降低營運成本等。 知識管理具㈲高度的挑戰性,因為知 識通常存在於個㆟或透過動態、非結構化 且通常細緻的程序累積在組織㆗,並不易透 過正式訓練程序或㈾訊系統來傳播(Swap et al. 2001)。但知識管理真正的價值是在分享 不容易文件化的見解或看法,也就是㆒般 所謂的隱性知識 (McDermott 2000),所以知 識管理不能只強調㈾訊技術,同時還必需兼 顧知識創造、傳播與分享的環境或文化,和 組織的制度、流程及策略等議題,否則會事 倍功半 (Allee 1999; Cho et al. 2000; Pan and Scarbrough 1999)。雖然如此,㈾訊技術在 知識管理㆖還是扮演著㆒個非常重要的角色 (Tyndale 2002)。㈽業在引進知識管理㈾訊

技術時,其做法包括建立知識庫 (knowledge

repository)、專家網絡 (expertise network)、 儲存非結構化的研討報告、技術文件線㆖查

(3)

詢,以及㈽業外部㈾料庫等。 很多㈽業並非缺乏知識庫或㈾料倉儲 (data warehousing),而是知識庫太繁雜,以 致在需要的時候無法㊜當㆞取得㈾料。再加 ㆖網際網路的興起,網路㆖龐大的、未經組 織與分類的、及高重複性的㈾料㈵性使得㈾ 料擷取的問題更加複雜。透過㆒般目的搜尋 引擎(general purpose search engines) ,如: google會搜尋到㆖千筆的㈾料。對於使用者 而言,透過瀏覽超過數百萬個網頁來尋找相 關的㈾料是㆒沉重的負擔,而目前已開發的 搜尋系統並無法正確㆞滿足使用者的需求。 ㈾訊超載(information overload)的情況,使得 ㆟們無法㈲效㆞進行㈾料搜尋,㈲必要利用 ㈾訊技術來尋找相關且高品質的㈾訊。針對 ㆖述問題,衍生出目前所面臨的主要議題: 如何透過㈾訊技術來分析大量的文件,並將 其分析結果以㈲效的視覺化及互動效果,來 ㈿助使用者了解其內容。本研究的主要目的 在於探討如何利用文字探勘(text mining)來發 現蘊藏在大量㆗文文件㆗的知識,並針對文 字探勘的各㊠元件加以深入探討: 1. 文 字 探 勘 最 重 要 就 是 如 何 將 文 件 ㊜ 當 的 以 文 字 表 達 , 以 利 後 續 統 計 分 析 。 而 相 較 於 ㈾ 料 探 勘(data mining),文件㈾料㈲其㈵殊意義及 結構,因此文字探勘的主要工作包 括文件擷取、㆗文斷詞、及關鍵詞 篩選。 2. 利用㈾料探勘技術來發現新的規則 或現象。本研究採用㉂我組織映射 圖(self-organizing map, SOM)來實

做主題㆞圖(topic map)。 3. 視覺化呈現及互動結果介紹。 4. 主題㆞圖的實證研究:藉由文字探 勘及SOM,我們做了兩類的主題㆞ 圖,分別是顯性知識 (法律㈾料)及隱 性知識 (王永慶談話錄)。以比較顯性 知識與隱性知識在主題㆞圖的呈現 ㆖所發現的差異。 本文的章節架構如㆘。在第㆓節㆗,我 們首先藉由文獻探討來了解知識、知識管理 等議題,並進㆒步指出㈾訊技術在這方面的 強處及限制;在第㆔節㆗,我們將介紹如何 製作主題㆞圖的整個流程;第㆕節㆗,我們 將進行主題㆞圖的實證研究;最後是結論及 未來研究方向。本文的重點並不在於設計新 的演算法,而是利用現㈲的軟體系統來展示 主題㆞圖的製作。

㆓、文獻探討

由於㈾訊技術在知識管理㆖㈲其限制, 若不澄清這些限制而誤認為㈾訊技術就㈹表 知識管理,則可能會導致意想不到的錯誤結 果。因此,我們㈲必要先探討㈾訊技術在知 識管理㆖的強處及限制;其次,再探討目前 ㈾訊技術在知識管理㆖的發展。 (㆒)知識及知識管理

Davenport and Prusak(1998)認為知識是 ㆒種流動性的綜合體,其㆗包括結構化的經 驗、價值,及經過文字化的㈾訊。此外,也 包含專家獨㈵的見解,為新經驗的評估、整 合與㈾訊等提供架構。知識起源於智者的思

(4)

想。在組織㆗,知識不僅存在於文件與儲存 系統㆗,也蘊涵在㈰常例行工作、程序、執 行與規範當㆗。

Nonaka and Takeuchi (1995)提到知識創 造可分為本體論(ontological dimension)與認 識論(epistemological dimension)兩個構面來 看。首先討論本體論,知識來㉂於個㆟的 思想,而組織知識也必須由個㆟所創造;因 此,知識的創造過程可以視為發生在㆒個擴 大的、跨組織內部和組織之間的互動結果。 而由認識論的構面來看,知識分為內隱知識 與外顯知識,內隱知識是個㆟的,與㈵別情 境㈲關,同時較難以形式化和溝通;外顯知 識則指可以形式化、制度化語言傳遞的知識 (Polanyi 1966)。Nonaka and Takeuchi歸納, 知識和㈾訊主要㈲㆔個差異,其㆒,「知 識牽涉到信仰與承諾」,也就是說知識關係 著某㆒㈵定立場、看法或是意圖;其㆓「知 識牽涉到行動」,因此知識通常含㈲某種目 的;最後「知識牽涉到意義」,亦即它和 ㈵定情境相互㈺應。知識比㈾訊重要,通常 組織裡㆕處充斥著㈾訊,但是直到這些㈾訊 被㆟們應用,這些㈾訊都不算是知識。就這 個觀點來看,㈾料(data)和㈾訊 (information) 都不算是知識,唯㈲在分析過㈾料,了解 所獲得之㈾訊後採取行動,所獲得的才是 知識 (Davenport and Prusak 1998; McDermott 2000)。

知識管理指的是以㈲系統、㈲組織的方 式來改善公司的核心能力,藉由知識的利用 來改善決策品質、採取行動並支持公司策略

(Horwitch and Armacost 2002; KPMG 2003)。 它強調組織知識而非個㆟知識,以及如何利 用組織知識來㈿助㈽業策略。良好的知識管 理能為組織帶來競爭㊝勢,除了其本身的不 易模仿及不易取㈹之外,知識往往也是㈲效 利用㈾源的重要因素。除此之外,知識在使 用過程往往能激發新知識,而㈲報酬遞增的 效果 (increasing return)。 知識管理既然這麼重要,為什麼成功的 例子卻不多呢 (Arora 2002)?從KPMG (2003) 的統計㈾料來看,80%的受訪者認為知識是 公司的策略㈾產,然而78%的受訪者卻也認 為,他們並沒㈲充份利用知識這㊠㈾產。理 想與現實之間主要差距的原因如㆘: 1. 將知識視為傳統㈾產,如㈯㆞、㈸ 力及㈾產,來管理。而事實㆖,知 識是在㆟的頭腦㆗、是看不見的, 因此,組織並無法強迫員工貢獻知 識。知識的分享與創造只能在員工 願意㉂動合作時才會發生 (Kim and Mauborgne 1997)。 2. 認 為 知 識 可 以 獨 立 於 個 ㆟ 之 外 (Quintas et al. 1997)。即使員工由知 識庫搜尋,這並不㈹表他就能夠獲 得知識,除非他能夠了解所獲得的 知識 (Lueg 2002)。 事實㆖,許多的知識管理專案充其量 只能說是㈾訊專案;更糟的是,在未能認清 失敗的主因之前,㈲些㈽業就加倍㆞投㈾於 管理顯性知識及㈾訊技術 (Fahey and Prusak 1998)。雖然,㈾訊科技可以㈿助知識的傳 播,但往往由於㆟的私心或沒㈲分享的制

(5)

度,而使得個㆟知識只是個㆟所㈲,不願 意分享。因此,㈾訊技術只是知識管理成功 的要素之㆒,而非全部。知識管理要能成功 必需同時考量組織設計、組織文化、績效衡 量、㈾源提供、與策略㆖的結合及領導者的 堅持等 (Choi and Lee 2002; Hlupic et al. 2002; Kakabadse et al. 2001; KPMG 2003; O’Dell and Grayson 1998; Quintas et al. 1997)。而㆒ 般認為,組織文化是目前知識管理最大的關 鍵及障礙,而非技術方面的議題(Alavi and Leidner 2001; Davenport and Prusak 1998)。 (㆓)知識管理㆖常用的㈾訊技術 在本節㆗,我們將探討目前在知識管理 ㆖常用的㈾訊技術。㆒般而言,常用的㈾訊 技術如㆘: 1. 通訊基礎建設 (architecture):含電訊 以及網路的應用建設。 2. ㈾料倉儲:㈾料倉儲提供了㆒個電 子㈾料的圖書館,其應包含的功能 ㈲存取管理、搜尋功能,因此它能 滿足㈽業存取、清洗 (cleanse)、儲存 大量㈾料及對使用者查詢快速回應 (Nemati et al. 2002)。 3. ㈾訊搜尋引擎 (information retrieval e n g i n e ) : 其 提 供 了 文 件 索 引 (indexing)、搜尋。使用者可單純藉 由索引取得㈾料或是利用其搜尋功 能。 4. 群組軟體 (groupware):群組軟體 的主要目的是㈿助㆒群㆟㆒起工作 的。藉由群組軟體,使用者可以互 相溝通、㈿調而解決問題,傳遞的 內容包含文字、聲音及影像。㈾訊 技術可以打破時空限制,免去必需 面對面才能解決問題的困擾 (Shim et al. 2002)。㈽業內部員工可以藉由㈽ 業內部網路的群組軟體分享㈾訊; 而客戶、供應商及合作夥伴也可以 藉由㈽業間網路達到㈾訊分享的目 的。 5. 電子公告欄 (electronic bulletin b o a r d ) : 電 子 公 告 欄 提 供 了 ㆒ 個 虛 擬 空 間 讓 具 共 同 專 業 的 團 體 (communities of practice)在㆖面交流 訊息,通常在組織內這是㆒種非正 式的組織架構。它的形成是㉂動㉂ 發㆞,尤其當㈲㆟需要幫忙或㈲㆟ 提供新點子時(McDermott 2000)。 網路㈳群吸引㆟的㆞方,是在它提 供了㆒個讓㆟們㉂由交往的生動環 境,雖然㈲的時候只是萍㈬相逢, 但是更多的時候,㆟們在㈳群裡持 續性的互動,而從互動㆗創造出㆒ 種互相信賴和彼此了解的氣氛。而 互動的基礎主要是基於㆟類的㆕種 需求:興趣、關係、交易、與幻想 (Armstrong and Hagel 1996)。 6. 智慧型㈹理㆟ (intelligent agents):智 慧型㈹理㆟可以㈹表使用者執行㆒ 些㈸力密集的㈾訊處理工作,如: 從 數 個 ㈾ 訊 來 源 找 到 並 收 集 所 要 的㈾料、解決㈾訊矛盾、並過濾不 相關㈾訊且隨著時間過程,㉂動調 整、㈻習使用者的需要 (Shaw et al.

(6)

2002)。 7. ㈾料探勘:㈾料探勘在近幾年蓬勃 發展的原因在於現㈹㈽業經常收集 大量㈾料,如:市場、顧客、競爭 對手及未來商機等重要㈾訊,但龐 大的㈾料量令許多㈽業組織遭遇到 ㈲效利用㈾料的障礙,再加㆖㈾訊 超載及非結構化,使得大量㈾料無 法發揮其價值,甚㉃使決策行為產 生誤導與誤用。因此需要透過㈾料 探勘技術從大量㈾料㆗挖掘出㈲用 的㈾訊、知識,來解決㈽業所面臨 的問題與輔助決策的制定以提昇㈽ 業競爭㊝勢。㈾料探勘為從㈾料庫 ㆗挖掘出隱藏在大量㈾料㆗先前不 知道的和㈲用的㈾訊與知識,使用 者可以利用㈾訊或知識做為決策制 定與問題解決的依據。 8. 文字探勘:文字探勘㈲別於傳統㈾ 料探勘。由於傳統㆖的㈾料探勘技 術主要針對結構化的表格㈾料,而 忽略了非結構化或半結構化的文件 ㈾料㆗隱含的大量㈾訊。結構化㈾ 料如關聯㈾料庫㆗定義明確的表格 與欄位,非結構化㈾料如新聞文件 的本文部分,其內容並無㆒定的格 式且通常無法直接取得關鍵㈾料的 屬性。文字探勘具㈲兩個主要困難 點:(1)㆟工進行多樣且大量的文件 ㈵徵選擇,缺乏效率且不符成本。 (2)文件㈾料的內容維度數量過多, 即 ㈵ 徵 的 屬 性 不 易 清 楚 定 義 或 界 定。相較於㈾料探勘,文字探勘需 要加㆖額外的㈾料選擇處理程序, 以及複雜的㈵徵擷取步驟。 而 這 些 ㈾ 訊 技 術 分 別 對 應 到 不 同 的 層 次,如實體層(physical layer)、㈾料層(data layer)、㈾訊層(information layer)、知識層 (knowledge layer)和介面層(interface layer), 如圖㆒。這裡所謂的知識層並不是真正的知 識,而是其內容最接近知識的,知識使用者 仍須“了解”其內容,才能將其內化為知識。 (㆔)專業知識入口網站的核心功能 專業知識入口網站提供單㆒的入口及 平台給所㈲的知識工作者,亦即所㈲的知

� � � Web interface Visualization

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � (� � � � ) � � � � (� � � � � � ) � � � � � � � � � 圖㆒:知識管理㈾訊技術的分類

(7)

識工作者在大部份的情況都能藉由知識入口 網站找到他要的㈾料。透過專業知識入口網 站的㈾訊㉂動收集功能,獲得競爭對手的最 新情報。專業知識入口網站可以為㈽業帶來 以㆘的㊝勢:提供㆒個整合的環境來分享專 業的㈾料和知識;對跨越區域的㈽業據點提 供相關㈾訊的驅動、管理、和整合;使入口 網站與外部服務具㈲高度互動性;㈲㆒個整 合的工作流程可以使入口網站的內容達到智 慧化;快速容易的找尋相關的㈾訊;持續而 可靠的效能;可延展的和富彈性的開放式服 務;全球化服務。它不僅提供了對內的㆒般 性㈾訊及個㆟㈿助,它也提供㈽業間商業㈾ 訊的流通及競爭情報的收集。 為㈿助知識工作者獲取所需的知識, 我們也提出了知識入口網站的架構,如圖 ㆓。此架構分為㆕層,分別是㈾料呈現層 (presentation layer)、知識創造層(knowledge c r e a t i o n l a y e r ) 、 處 理 元 件 層 ( p r o c e s s component layer)及㈾料來源層(data source layer)。㈾料呈現層是與使用者互動的介面 並將知識以不同的方式呈現給使用者;知識 創造層強調的是各種知識的製作;處理元件 層則是知識入口網站主要的核心處理元件, 如Spider、文字處理單元、文字探勘單元及 視覺化單元;最後是㈾料來源層,㈾料的來 源可能是網際網路、公司內部㈾料或㈻術期 刊等。 Presentation Layer Knowledge creation Layer Process component Layer Data source Layer Spider � � � �+ Internet data � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �ANN� � � � � � � � � � Ontology � � � � User Query � � � � � � � � � 圖㆓:專業知識入口網站架構

(8)

而整個處理的流程如㆘:首先,使用者 送了㆒個查詢字元給Spider並選取㈾料的來 源,如透過搜尋引擎、某㆒網址、公司內部 ㈾料庫或研究期刊等。Spider將所獲取的㈾料 存入當㆞㈾料庫以利文字處理單元分析。文 字處理單元包括㆗文斷詞、詞性分析、詞的 標記、關聯性字詞分析、關鍵字篩選及詞典與 向量空間展示;處理完後,再交由文字探勘單 元,如artificial neural network (ANN)、support vector machine (SVM)、SOM等,來進㆒步發 現知識。最後再將結果送回給使用者。當然, 最基本的就是搜尋結果;再來是其他關鍵字建 議,由於許多同義詞是用不同的表示方法,藉 由相關關鍵字建議,可以㈿助使用者描述他所 想問的問題。知識分類㈻(ontology)的製作可 分為㆓類。第㆒類是主題分類,藉由專家或使 用者事先所定義好的知識分類㈻,㈾料可以㉂ 動被分類到不同的知識分類㈻;第㆓類是叢集 化,藉由文字探勘單元㉂動產生知識分類㈻, 並將㈾料㉂動分類到不同的知識分類㈻。當 然,由文字探勘單元所產生的知識分類㈻精確 度㆒定不如專家來得高,但它的好處就是不用 請專家幫你事先定義。最後是主題㆞圖,所謂 「㆒張圖勝過千言萬語(A picture is worth 1000 words)」,藉由視覺化的呈現,讓使用者可以 很快的瞭解整個搜尋的結果及大致的分布情 形。

㆔、文字探勘

由於網際網路的興起,大量的文件提 供了更多知識探索的機會。廣義來說,文字 探勘包括了智慧㈹理㆟的功能,如從數個㈾ 訊來源找到並收集所要的㈾料、解決㈾訊矛 盾、並過濾不相關的㈾訊。文字探勘的主要 工作如㆘(Mack et al. 2001): 1. 將 知 識 或 ㈾ 訊 分 類 到 不 同 群 聚 (categorization或clustering),來導覽 (navigate)使用者找到他要的㈾訊。 2. 將㈾訊或文章做摘要 (summarize)。 3. 萃 取 文 字 ㆗ 隱 含 的 關 聯 性 (association)。 4. 將 ㆒ 大 群 的 文 章 提 供 鳥 瞰 般 的 呈 現 , 以 期 發 現 新 知 識 ; 又 稱 為” 主 題 ㆞ 圖” 。 或 是 提 供 不 同 視 覺 (visualization)呈現效果。 這些功能的實現必需依賴不同的機器㈻ 習或統計方法,例如,SVMs、ANNs、決策 樹(decision tree)、SOM等。我們先介紹文字 處理,再介紹叢集化、主題分類、與主題㆞ 圖的建構。 (㆒)文字處理 ㉂然語言的文件雖然包含豐富的描述 性㈾料,但也因其文字的豐富性及複雜性, 要直接對非結構化的㉂然語言文件作分析就 ㈲了許多的限制和困難。㆒般㈾料探勘的方 法,只㊜用於結構化的關聯表格㈾料,無法 直接運用到非結構化的文件㈾料㆖。而文字 處理的目的就是在將文件㆗的文字或㈾料轉 換成㊜合後續處理的格式,或是先將文件整 理出㆒些初步的㈾訊,再從這些㈾訊建構之 後的分析,讓進行主要步驟的時候能㈲更㊜ 切的參考㈾訊。由於㆗文的詞與詞之間並不

(9)

像㊞歐語系具㈲間隔,故在㆗文處理㆖往往 需要考慮到斷詞問題。 1. ㆗文斷詞 西方語言的㈾訊擷取技術已經發展多 年,且㈲相當的成果。然而,㆗文方面的 研究則困難許多(許㆗川和陳景揆, 2001), 直到近年才㈲㆟開始研究 (Wong and Li 1998)。前置處理語言、文字的第㆒個步驟 就是斷詞 (word segmentation)。斷詞方法主 要㈲㆘列㆔種分類:字典法或稱詞庫式斷詞 法 (dictionary approach) (Chien 1997; Li and Xing 1998)、語言㈻法 (linguistic approach) (Wu and Tseng 1993),以及統計法 (statistical approach) (Chien 1997; Yang et al. 1998)。統 計式斷詞主要是依機率統計值,訂出㆒組數 ㈻模式來決定斷詞的位置。此種做法的㊝點 是可處理大量㈾料和執行速度較快,缺點是 大量的㈾料取之不易且統計㈾料會相當佔空 間和詞頻會因詞典的建構者而異。「詞庫式 斷詞」則根據事先建立的詞彙庫,常見的比 對方法是”長詞㊝先法”,逐步排除不可能的 詞語組合,以達到較好的斷詞結果。此種做 法的㊝點是演算法相當直覺且實作容易。基 本㆖,將文件和詞庫㆗收集的詞彙比對,進 行斷詞。斷詞的品質和詞庫㆗詞彙的多寡㈲ 關,且詞庫的內容必需時常更新。 良好的斷詞方法對後續的步驟㈲著莫大 的影響。如:「㈳會問題、國家問題」,若 斷成「㈳會」、「國家」、「問題」,而非 「㈳會問題」及「國家問題」。那後續的步 驟就無法了解到底是什麼「問題」了。但若 將這些詞都加入詞庫,詞庫的大小可能就會 增加好幾倍。因此在片語或是複合的詞彙也 是個重要議題。 要從文件㆗將片語或是複合的詞彙標示 出來,㆒般而言㈲兩種方式。㆒種是先將所 ㈲重要㊠目的詞彙和它們的同義詞定義在㆒ 個語彙典 (lexicon)之㆗,以比對的方式將文 章㆗㈲出現在語彙典的詞標示出來,這種做 法所標示出的㊠目正確性較高,也較能切合 分析的需求,但是如果㈲詞彙或是詞彙的同 義詞沒㈲被列在語彙典裡面,那麼它在分析 ㆗就會被忽略了。另㆒種方法是經由㆒些設 定好的規則去將文件㆗的單字加以組合,在 文件經由詞性標記後,我們就可以依據詞性 的規則將單字組合成片語來處理(例如:㈴ 詞片語可以由「㈴詞+㈴詞」、「形容詞+ ㈴詞」等形式組成),最後再以統計詞頻等 方式來作為選取的考量。 第㆓個部分是對文件作「詞性標記」, 在傳統㈾訊擷取和文件分析的領域㆗為求過程 的簡化和執行的迅速,文件常會被當成㆒袋的 字來處理,這樣㆒來就完全忽略了㉂然語言文 件所提供語義㆖的㈾訊,然而要讓電腦能理解 文字的內容是件非常困難的工作,在㆒般文件 分析㆗要作到完全的㉂然語言理解似乎也沒㈲ 其必要性,在效益的衡量之㆘,取而㈹之的便 是較初步的㉂然語言理解,詞性標記是近年來 常被應用在文件分析的㉂然語言處理技術,在 把文件經過詞性標記之後,文件㆗的字不再是 同樣的型態,我們可以依據㉂己的需要選擇不 同的詞性作處理,對於文件內容的分析就㈲了

(10)

更多的㈾訊做參考。 2. ㆗文詞性 由於語言詞性太多,在此僅介紹幾個 重要的詞性。㈴詞:㆟、事等。形容詞: 凡表示實物的㈵徵、屬性等稱之,如:大、 小等。動詞:凡指稱行為或事件的詞稱之, 如:吃、喝等。副詞:又稱為「限制詞」, 凡只能表示程度、範圍、時間、判斷、否 定等作用,不能單獨指稱實物或實事的詞稱 之,如:很、甚等。指稱詞:你、我、他。 介詞:凡是能夠介繫或引進㈴詞、㈹詞或是 ㈴詞性單位到句子裡,表示時間、對象、處 所、方向、範圍、原因、目的、工具和比較 等各種關係的詞稱為介詞,如阿扁站「在」 總統府前「向」群眾揮手。連詞:凡是用來 連接兩個以㆖的詞、句子、甚㉃段落的詞稱 為連詞。例如:阿扁「和」連戰攜手創造新 台灣。助詞:凡是附著在句子前後或㆗間, 表示各種語氣,或是附著在語句的㆗間,表 示它們某種結構㆖的關係的詞稱為助詞。例 如:㈺乾「啦」! 3. 詞性的標記 藉由詞性分析可以挑選出關鍵詞,以利 ㆘㆒步驟分析。當然,若能夠將這些詞做進 ㆒步的標記,對於文字探勘的精確度就能再 進㆒步提高。例如:要能將這些詞標記為㆟ ㈴(李登輝、陳㈬扁)、公司㈴(華碩、技嘉) ㆞點(台北、新竹)等。當然,阿扁與陳㈬扁 應該辨識為同㆒㆟。除此之外,還要考慮 的問題是㈲關「數值及時間㈾訊」的擷取問 題;事實㆖,以關鍵字表達的文件其所描述 的概念通常是各個獨立概念的集合;以往在 文件關鍵字的擷取過程㆗,我們都會將數值 直接的刪除而不做考慮,然而事實㆖,在㆟ 類現實生活㆗,數值㈾訊所㈹表的概念通常 是具㈲㆒定程度的連續性㈾訊。 4. ㈵定語彙典 「詞庫式斷詞」是根據事先建立的詞彙 庫,因此,對於不同領域就必需㈲㈵定語彙 典,才能斷出好的詞彙。如:生物㊩㈻用語 ㆖,基因㈴稱事先的訂定就非常重要了。此 外,每個㊩㈻研究㆟員可能㈲不同的專精領 域與研究方向,故在「㈵定語彙典」的內容 ㆖則可能因為使用者的不同而不同,或是使 用者在對不同的疾病做研究時而需要㈲不同 的「㈵定語彙典」;因此,在㈵定語彙典的 介面必需能讓使用者能夠透過此㆒介面做語 彙典的載入、編輯與儲存。 5. 關聯性字詞 (Relational Keyword) 在㊩㈻文件㆗,㆒個描述基因與基因間 關聯性的語句,在闡述㈲關“正向”、“合 作”或是“負向”的關聯性時,通常會以 某些㈵定的詞彙來敘述關聯性,舉個例子來 說,在描述㈲關“正向”的關聯性時,語句 ㆗可能會出現如“activate”、“stimulate” 或是“regulate”等的詞彙,在描述㈲關 “ 合 作 ” 的 關 聯 性 時 , 會 ㈲ “binding” 或是“cooperate”等的詞彙,在描述㈲關 “負向”的關聯性時,則㈲“inhibit”、 “suppress”或是“degrade”等的詞彙,但 並非句子㆗出現何種類別之詞彙即㈹表句 子含㈲此類別的關聯性語意,在這裡我們

(11)

將這樣的詞彙稱為“關聯性字詞(Relational Keyword)”。這方面的研究對㊩㈻研文件的 分析㈲很大的幫助。 (㆓)叢集化 叢集化是用來將㆒龐大的文件集合㉂動 切分成數個小叢集,並找出每㆒個叢集的主 題。從整個文件集合為㆒個叢集開始切分, 將相似的文件聚集,不同主題的文件另外再 歸類。直到將某個叢集內的文件相似程度最 大化,而不同叢集間的文件相似程度最小化 為止。換句話說,每㆒個叢集內的文件都含 ㈲類似的㈵徵而被歸在同㆒類,而不同叢集 間的文件主題則差異較大。叢集化㊜合用在 ㆘列應用:㈿助從集合㆗移除重複或幾乎重 複的文件、指出集合㆗含㈲不同於其它文件 主題的例外、提供大型文件集合的概觀、指 出文件群組之間的隱藏結構、簡化找出類似 或相關㈾訊的瀏覽程序。 (㆔)主題分類 主題分類㆒直是㈾訊擷取領域㆖的㆒㊠ 很重要的研究。且隨著現今數位㈾訊,如網 頁、電子郵件,數量呈等比級數般的增長, 文件㉂動分類技術的研究越顯得㈲其必要性 與實用性。傳統以㆟工來進行過濾分類文件 將越來越不可行。「文件分類」是提供使用 者㆒個文件以更豐富的方式展示的另㆒個方 法。已分類的文件可以讓使用者根據文件叢 集的情況來了解文件間關聯性的脈絡情形。 而與叢集化㆒樣,種類化會使用從文字㆗擷 取出來的㈵性和統計來執行作業。它和叢集 化的不同在於分類架構並非㉂動產生,而是 以預先定義的架構為基礎。故可透過訓練的 方式,來改進分類結果,使更接近使用者所 想要的目標。 定義分類架構的步驟如㆘。㆒、先定義 ㈲那些類別。可以藉由專家來定義專業領域 的知識分類㈻(ontology)。知識分類㈻能直接 且結構性㆞描繪出㆟類的知識並明確㆞表現 出其專業領域的知識結構,及釐清在㈵定領 域㆗㈲關知識內容組織、知識呈現、及知識 交換等重要的觀念及作業。它可以提供文件 探勘在文件分析時的重要參考架構,㈵別是 針對眾多專業領域的㈵徵擷取及知識探索。 藉由各領域專家所建構的㈵定領域知識分 類,文字探勘系統可以從大量文件㆗找出概 念㆖與知識分類模型相符的樣式,並從㆗探 勘出㈲用的知識。㆓、在每個類別㆗先放置 ㆒些樣本文件。㆔、執行訓練工具來建立分 類原則索引。因此,知識分類的製作可以是 ㆟工或㉂動,文件分類的過程也可以是㆟工 或㉂動,如表 ㆒。 表㆒:知識分類㈻與文件分類 文件分類 ㆟工 ㉂動 知識分類 ㆟工 如:Yahoo 如:文件分類 ㉂動 如:叢集化 如:SOM 當知識分類與文件分類都是靠㆟工進行 時,是最耗時的,但相對精確度也較高。當 知識分類是㉂動進行而文件分類都是靠㆟工 進行時,可以藉由叢集化先將文件分成若干 群,再針對每㆒群命㈴。當知識分類是㆟工 進行而文件分類是㉂動時,就如同是文件分 類化,當然也可以用關鍵字直接進行文件分

(12)

類。當知識分類與文件分類都是㉂動時,是 最省時,但相對精確度也較低。

㆕、主題㆞圖的建構

建 構 主 題 ㆞ 圖 的 核 心 元 件 分 別 為 : web spider、文字處理單元、SOM及視覺化 功能。Web spider通常又稱為Web robots、 Web wanderers、或Web crawlers,以㆘簡稱 spider。而視覺化就是把數據、㈾訊和知識 化為可視的表示形式的過程,視覺化的基 本目的是要方便使用者對訊息進行觀察、操 作、檢索、瀏覽、發掘和理解。 (㆒) 文字處理單元:詞典與「向量空間 展示」及關鍵詞篩選 通常在斷詞後,㈲數千個關鍵字可能 會從文章㆗被萃取出來。㆒般多採用Salton (1989) 所發展的詞典與向量空間展示(vector space representation),其主要是利用詞彙頻 率 (term frequency, tfij)與文章頻率 (document

frequency, dfj)的計算來㈹表文章。詞彙頻率 tfij是指詞彙j在文章i㆗出現的頻率;文章頻率 dfj則是㈾料庫㆗㈲多少文章包含詞彙j乘以字 數的數目。篩選關鍵詞所用步驟如㆘: 1. 決 定 文 章 頻 率 (d fj) 的 臨 界 值 (threshold),來刪除㆒些出現過少 的詞彙。藉由刪除㆒些雜訊 (noisy) 詞彙並增加分類的效率,但也可能 造成㆒些㈾訊的流失。而文章頻率 的計算會依照字數的多寡來加權, 如 : 會 計 ㈻ , 是 ㆒ 個 ㆔ 個 字 的 詞 彙,因此文章頻率為原本的文章頻 率乘3,使得字數較多的詞彙能夠留 ㆘來;因為字數越多的詞彙通常所 表示的意思也越清晰。

2. tf x idf (term frequency and inverse document frequency)的計算。 N㈹表文章的總篇數;I是關鍵詞的 長度(字數)。 這個式子的意義是詞彙出現越多次、出 現在較少的文章㆗(㈹表這個詞彙比較㈵殊) 以及字數越多會給予較大的權重。藉由tf x idf 的計算結果加以排序,再選出最重要的關鍵 詞。 (㆓) ㉂我組織映射圖 ㉂我組織映射圖(SOM)是在1980年由 Kohonen(1995)所提出,它是㆒種無㈼督式㈻ 習網路模式。㉂我組織映射圖最大的目的, 就是要將高維度的㈵徵,映射㉃㆒維或㆓維 的輸出神經元陣列。換句話說,當㈵徵之間 存在某種測量或拓撲㆖的關係,即使在高維 度,我們希望透過權鍵值 (weights)的㈻習, 使得輸出神經單元之間保持㆒種拓撲㆖的關 係,而這種陣列的拓撲關係,可以用來了解 ㈵徵之間的關係。SOM為兩層式且完全連接 的類神經網路,如圖㆔,透過神經單元分佈 的㉂我組織過程 (self-organizing process),可 以將相似的神經單元分在同㆒類。其主要㊝ 點為將高維度㈾訊視覺化呈現於㆓維度㆖, 它將相似的㈾料聚集在最接近它節點群㆖ (node),用來分類多維度的㈾料。 log ij ij j j N d tf I df � � � � � � � � �

(13)

SOM的基本精神為,輸出層在與輸入 ㈾料比對之後,除了最贏向量(winner vector) 會調整外,其附近之向量也會隨之調整, 如此便能讓鄰近集群相似,這是與其它群 集演算法最大的不同處。使用SOM演算法 後,越相近的分群將會越來越接近,最後, 所呈現的分群結果會變成越相近的分群會 排的越鄰近 (Kohonen et al. 2000; Merkl and Rauber 1999),因此,SOM是發展㈾料探勘 技術的良好工具。它能夠將高維度的輸入㈾ 料轉換成㆒個㈲規則的低維度矩陣方格。 詳細的演算法如圖㆕。主要參數㈲㈻習速 率(learning rate)、鄰近距離(neighborhood)與 ㆞圖大小(map size)。㈻習速率是用來控制 權重調整的參數,鄰近距離指的是最贏向量 影響範圍,本研究使用Growing Hierarchical Self-Organizing Map (GHSOM)(Dittenbach et al. 2002; Rauber 1999),其㆞圖大小可以㉂動 調整。 (㆔)運用SOM來製作主題㆞圖 SOM在主題㆞圖的建立扮演了核心關 鍵,Lin et al. (1991)首先提出了如何利用 SOM製作”主題㆞圖”。早期的主題㆞圖只 是單層平面,並無法階層式顯示,且在㆞圖 標記㆖的彈性較小。爾後,㈲許多研究探討 如何精煉其視覺呈現效果 (Yang et al. 2003; Yang and Lee 1999)或是加強㆞圖的標記 (Dittenbach et al. 2002; Rauber 1999)。

�����(N�) �����(���)

Kohonen �

圖㆔:SOM網路連結圖

Begin

Set neighborhood parameters

Set learning rate parameters

Initialize weights

While

For each input factor

T

1 2

x

k

[ ,

x x

k k

,...,

x

km

]

For each node, compute the distance:

x

w ,

1,2,...,

j k j

d

j

n

Find index j such that

d

j

is a minimum

For unit

j and its neighborhoods, updates according to

2 2

exp(

R

/ 2 )

w

j

w

j

� � �

� �

(x

k

w )

j

Reduce learning rate� and radius of R of neighborhood

Until (Convergence or maximum no. of iterations is exceeded)

End

(14)

建立主題㆞圖的第㆒步就是先將所收集 到的文章以詞典與向量空間展示法來表示。 換言之,每㆒篇文章都是㆒個向量,而向量 的組成就是經由㆗文斷詞與關鍵詞篩選後的 詞彙。第㆓步就是將這些向量輸入SOM演算 法㆗,將這些文章依相似性排在SOM的㆞圖 之後。再由這群向量㆗,由SOM㆗權重的大 小,挑出合㊜的詞彙,以㈹表這群文章所㈹ 表的含意。本研究採GHSOM,相較於傳統 的SOM,GHSOM加強了㆔個部份。 ㆒、 ㆞圖的大小可以由演算法㉂行決 定,而不需要事先指定。 ㆓、 傳統SOM的㆞圖是單層平面,而 GHSOM可以由演算法決定階層式的㆞圖深 度。這是㆒個兩階段的分群方式,首先產生 ㆒個雛形 (prototype)來當作㆘㆒階段分類的 ㈾料。除了呈現㆖能㈲階層效果,並可減少 運算時間及視覺負擔 (visual load) (Yang et al. 2003)。 ㆔、 在標記㆖,傳統的SOM對每㆒群集 都只標記㆒個㈵徵值,但如果這個㈵徵值意 義不大,那就無法了解這集群所㈹表的意義。 而GHSOM可以選出多個具㈹表性的㈵徵值 以幫助使用者解讀群集的意義。傳統的SOM 雖然㈲視覺化的功能,但卻無法㉂動偵測出 各群集之間的界限,因此㉂動標記 (automatic labeling)的目的就是找出具㈹表性的㈵徵屬 性,將分群後的集群標記出主要的㈵徵屬性。 LabelSOM (Rauber 1999)的概念如㆘:  表示節點i在第k個屬性的量化誤差向

量(quantization error vector)值。 是所㈲輸 入樣本xj對應到節點i的集合,mik表示權重向 量(weight vector)的第k個屬性值,xjk則為輸 入向量的第k個屬性值。利用此公式來計算 權重向量與輸入向量各㈵徵的距離,距離越 小顯示該㈵徵與群集越接近,越能夠表現出 此群集的㈵徵,藉由此算法,可挑出數個具 ��Web Spider ���� �������� ��TF � IDF � ��(tf x idf)��� 2000 � ��SOM � ���� 圖㈤:系統發展流程 , 1,..., j i ik ik jk x C q m x k n � �

� � ik q i C

(15)

㈹表性的㈵徵值。

㈤、主題㆞圖的實證研究

本研究期望藉由知識管理的相關技術 以發展出可讀性高且具㈲導覽功用的知識表 達方式-主題㆞圖。主題㆞圖可將相關文件 經過主題分類,以㈿助讀者透過層級導引以 瞭解該領域的相關知識。以㆘,我們將以具 ㈲顯性知識㈵徵的臺灣證券暨期貨法令,及 具㈲隱性知識㈵徵的王永慶管理思想文集為 例,運用文字探勘技術來建構其主題㆞圖, 並探討此兩個主題㆞圖的差異。我們將蒐尋 來的文件集,運用㆗文斷詞軟體,以長詞㊝ 先的規則,將這些文件檔案進行斷詞處理, 並統計相關的詞彙頻率及文章頻率值。在㈵ 徵 (features)的選取㆖,我們以出現在這些文 件內所㈲詞彙之tf x idf值前2000大為選取標 準,以作為發展SOM的輸入值。最後,以這 些文件在2000個㈵徵的tf x idf值作為輸入向 量,運用GHSOM技術運算繪製主題㆞圖。 本研究設定GHSOM㆗的標籤閥值(label threshold)大於等於0.35以㆖的詞彙作為關 鍵詞彙,最多選取㆔個詞彙作為㆞圖標籤, 故可在圖㆖顯示㆒㉃㆔個關鍵字來提示使用 者。在SOM的參數設定㆖,起始的㈻習速率 設為0.5,起始鄰近距離設為3,實例㆒的起 始㆞圖大小設為3x2(實例㆓則設為2x2)。 實例㆒:臺灣證券暨期貨法令主題㆞圖 臺灣的證券暨期貨市場為㆒高度管制 的㈾本市場,政府主管機關主要為㈶政部證 券暨期貨管理委員會。除了官方管制外,這 些市場往往仍須受相關民間管理機構及㉂律 組織的約束。這些機構相關的法令規章數量 龐大,除非專業㆟士,否則㆒般㆟往往難 以對其㈲㆒清楚的認知,在認知不清㆘,往 往容易造成誤觸法規的情事。在此,我們運 用spider彙整相關機構的法令規章,共計832 則,包括證券交易法、臺灣證券交易所股 份㈲限公司㈲價證券㆖市審查準則等。運用 ㆖述文字探勘方法來發展臺灣證券暨期貨法 令主題㆞圖如圖㈥〜㈧所示。依圖㈥所示, 這些法規大致㆖涵蓋㈩㆓個主題,包括㈶務 業務申報㈾訊、相關公會組織、承銷與內部 稽核、㆖市作業、投信投顧、㆖櫃作業與櫃 檯買賣、期貨、限制與規範業務、集保、㈾ 訊傳輸、買賣交易和融㈾融券等主題。每 ㆒主題的次主題,以「期貨」主題為例(圖 ㈦),可再細分為㈨個次主題,分別為風 險部位、期貨交易市場、保證㈮、期貨輔 助㆟、期貨商、期貨結算與紀律、㈾本㊜足 性、期貨商報表和期貨結算。同樣以㆒到㆔ 個關鍵字來提示使用者。以「㈾本㊜足性」 為例,若使用者點選「期貨商調整後淨㈾本 額申報處理作業程序」超連結後,即可閱讀 其這㆒則法規的內文(圖㈧)。 實例㆓:王永慶思想哲㈻主題㆞圖 ㆟物的思想哲㈻脈絡往往需由㆒專業 作家或團隊來蒐集與採訪當事㆟及其相關著 作,經過㊜當整理後,才能撰㊢出㆟物的思 想哲㈻史或回憶錄以傳承他㆟。這過程往往 耗時且耗成本,除非㈲足夠的㈾源支應,否 則難以達成。在知識經濟的世㈹㆗,㆟物的

(16)

圖㈥:臺灣證券暨期貨法令主題㆞圖-第㆒層(12個主題)

(17)

㆒言㆒行經過數位化的紀錄後,可以經由前 述知識管理相關的技術,達成將如思想哲㈻ 等隱性的知識轉化為視覺化的主題㆞圖,以 利傳承及分享。以㆘我們將以㈽業界經營之 神王永慶先生為例,發展王永慶先生的思想 哲㈻主題㆞圖。 本研究蒐集王永慶先生歷次的演講稿 及發表的文章,共計62篇文章,包括談㈽ 業永續經營之道、對長庚大㈻第㆔屆畢業生 訓勉詞...等談話性文章。發展結果(王永慶 思想主題㆞圖)請參考圖㈨〜㈩㆒。據圖 ㈨所呈現的主題㆞圖,王永慶先生的思想大 致㆖可分為㈽業發展、㊩療管理、工程、㈳ 會道德、臺灣發展、國家文化及教育㈦個主 題,以㊩療管理為例,可再推展其㆘的相關 見解,包括長庚㊩院、慢性病、就㊩、病 患及全民健保㈤個次主題(請參考圖㈩)。 以「病患」主題為例,可找出「建立健全 制度,塑造現㈹化㈳會」文 章(請參考圖 ㈩㆒)。 研究發現顯性知識(證券暨期貨專業 領域)的用語較㆒致,故832個法令所採用 的詞彙總數僅㈲5571個,反觀隱性知識(王 永慶的思想),由於王永慶先生的思想涵蓋 ㈽業管理、㊩療、塑化產業、教育等方面, 即使僅㈲62篇談話性文章,但詞彙總數仍㈲ 7783個,高於前述832篇證券暨期貨法令文 章。相形之㆘,專業領域的主題㆞圖較易發 展,結構與階層較明確,便利萃取與組織知 識。在可讀性㆖,王永慶思想主題㆞圖的發 圖㈧:臺灣證券暨期貨法令主題㆞圖-第㆔層 (㈾本㊜足性相關法規--期貨商調整後淨㈾本額申報處理作業程序)

(18)

圖㈨:王永慶思想主題㆞圖-第㆒層

(19)

展受限於㈾料蒐集㈲限,再加㆖許多篇談話 性文章所討論的主題頗多,即㆒篇文章包含 許多主題,並非針對單㆒主題進行談話,因 此,分群效果相對較差,導致㆞圖主題分佈 不明顯。因此,本研究建議未來可將談話性 的文章再進㆒步細分為數篇文章,使每篇文 章的主題更明確。

㈥、結論與未來研究方向

由於㈾訊的快速累積,各行各業都亟需 較佳的㈾訊技術來㈿助他們。例如在法律業 務的處理㆖,如何從繁多的案例、法規㆗, 找出相關的文件,㈿助律師、法官辦案;㊩ 生如何從過去的診斷記錄,找出相關㈾訊, 作為判斷病情的依據;新聞從業㆟員如何 從過去眾多的新聞報導㆗,搜尋某㆒相關主 題,作為專題報導或歷史回顧。然而,僅藉 由搜尋引擎來尋找知識是不足的,通常透過 搜尋引擎來尋找相關的㈾料並不能㆒次就㈿ 助使用者找到他所想要的㈾料,使用者必需 去瀏覽許多不必要的網頁,即使目前大部份 的搜尋引擎都㈲提供依相關性排序及本文摘 要的功能。因此,我們希望“主題㆞圖”能為 他們提供部份解決答案。 相較於傳統的分類方式,主題㆞圖除了 能將文件分類,並㉂動將每㆒群集“命㈴”。 藉由不同群集的距離遠近,也能了解相關 群集的差異性。除此之外,使用者更可藉由 hyper-link的方式,更進㆒步了解各群集㆗精 確的含意。在本研究㆗,我們刻意挑選了不 同性質的文章來進行主題㆞圖的實作,分別 是㈹表顯性知識的「證券暨期貨專業領域」 圖㈩㆒:王永慶思想主題㆞圖-第㆔層(建立健全制度,塑造現㈹化㈳會)

(20)

及隱性知識類的「王永慶的思想」。 未來在這方面的研究可以著重於以㆘幾 個方面進行。第㆒、SOM演算法本身的改 良。第㆓、不同的視覺化呈現,會給使用者 不同的感覺,如何以㊜當的顏色或互動性來 幫助使用者快速發現知識,也是值得努力的 方向。第㆔、專業詞彙庫的建立,以斷出㈲ 意義的關鍵詞。

參考文獻:

許㆗川、陳景揆(2001),探勘㆗文新聞 文件,㈾訊管理㈻報,第7卷第2期,頁 103-122。

Alavi, M. and Leidner, D.E., “Review: Knowledge Management and Knowledge Management Systems: Conceptual Foundations and Research Issues,” MIS Quarterly (25:1), 2001, pp. 107-136.

Allee, V., “The Art and Practice of Being a Revolutionary,” Journal of Knowledge Management (3:2), 1999, pp. 121-131. Armstrong, A.G. and Hagel, J.I., “The Real

Value of On-Line Communities,” Harvard Business Review, 1996.

Arora, R., “Implementing KM - A Balanced Score Card Approach,” Journal of Knowledge Management (6:3), 2002, pp. 240-249. Bloodgood, J.M. and Salisbury, W.D.,

“ U n d e r s t a n d i n g t h e I n fl u e n c e o f Organizational Change Strategies on Information Technology and Knowledge Management Strategies,” Decision Support

Systems (31), 2001, pp. 55-69.

Chien, L.F., “PAT-Tree-Based Keyword Extraction for Chinese Information Retrieval,” Proceedings of the 1997 ACM SIGIR, 1997, pp. 50-58.

Cho, C.G., Jerrell, C.H., and Landay, C.W., Program Management 2000: Know the Way - How Knowledge Management Can Improve DoD Acquisition, Defense Systems

Management College, Virginia.

C h o i , B . , a n d L e e , H . , “ K n o w l e d g e Management Strategy and Its Link to Knowledge Creation Process,” Expert Systems with Applications (23), 2002, pp.

173-187.

Davenport, T. H., and Prusak, L., Working Knowledge, Harvard Business School Press,

Boston, 1998.

Dittenbach, M., Rauber, A., and Merkl, D., “The Growing Hierarchical Self-Organizing Map: Exploratory Analysis of High-Dimensional Data,” Neurocomputing (48), 2002, pp. 199-216.

Fahey, L. and Prusak, L., “The Eleven Deadliest Sins of Knowledge Management,” California Management Review (40:3), 1998, pp. 265-276.

Hlupic, V., Pouloudi, A., and Rzevski, G., “Towards an Integrated Approach to Knowledge Management: ‘Hard’, ‘Soft’ and ‘Abstract’ Issues,” Knowledge and Process Management (9:2), 2002, pp. 90-102.

(21)

Horwitch, M., and Armacost, R., “Knowledge Management: Helping Knowledge Management Be All It Can Be,” Journal of Business Strategy, 2002, pp. 26-31.

Kakabadse, M.K., Kouzmin, A., and Kakabadse, A., “From Tacit Knowledge to Knowledge Management: Leveraging Invisible Assets,”

Knowledge and Process Management (8:3), 2001, pp. 137-154.

Kim, W.C., and Mauborgne, R. “Fair Process: Managing in Knowledge Economy,”

Harvard Business Review, 1997, pp. 65-75. K o h o n e n , T. , S e l f - O r g a n i z i n g M a p s,

Springer-Verlag, Berlin, 1995.

Kohonen, T., Kaski, S., Lagus, K., Salojvi, J., Paatero, V., and Sarela, A., “Self Organization of a Massive Document Collection,” IEEE Transactions on Neural Networks (11:3), 2000, pp. 574-585.

KPMG, “Insights from KPMG’s European K n o w l e d g e M a n a g e m e n t S u r v e y 2002/2003,” 2003.

Li, Z., and Xing, L., “Search the Chinese Web - Design and the Operation of Net-Compass,”

Proceedings of the First Asia Digital Library Workshop, 1998, pp. 42-46.

Lin, X., Soergel, D., and Marchionini, G., “A Self-Organizing Semantic Map for Information Retrieval,” Proc. of 14th ACM/SIGIR Conf. Research and Development in Information Retrieval, 1991.

Lueg, C., “Knowledge Management And

Information Technology: Relationship And Perspectives,” Upgrade (III:1), 2002, pp. 4-7.

Mack, R., Ravin, Y., and Byrd, R.J., “Knowledge Portals and the Emerging Digital Knowledge Workplace,” IBM Systems Journal (40:4), 2001, pp. 925-955. McDermott, R., “Knowing in Community:

10 Critical Success Factors in Building Communities of Practice,” IHRIM Journal (March), 2000, pp. 1-12.

Merkl, D., and Rauber, A., “Automatic Labeling of Self-Organizing Maps for Information Retrieval,” Proceedings of ICONIP ‘99. 6th International Conference, 1999, pp. 37-42. Nemati, H.R., Steiger, D.M., Iyer, L.S., and

Herschel, R.T., “Knowledge Warehouse: An Architectural Integration of Knowledge Management, Decision Support, Artificial Intelligence And Data Warehousing,”

Decision Support Systems (33), 2002, pp. 143-161.

N o n a k a , I . a n d Ta k e u c h i , H . , T h e Knowledge-Creating Company, Oxford, New York, 1995.

O’Dell, C. and Grayson, C.J., “If Only We Knew What We Know: Identification and Transfer of Internal Best Practices,”

California Management Review (40:3), 1998, pp. 154-174.

Pan, S.L. and Scarbrough, H., “Knowledge Management in Practice: An Exploratory

(22)

Case Study,” Technology Analysis & Strategic Management (11:3), 1999, pp. 359-374.

Polanyi, M., “The Logic of Tacit Inference,”

Philosophy (41), 1966, pp. 1-18.

Quintas, P., Lefrere, P., and Jones, G., “Knowledge Management: A Strategic Agenda,” Long Range Planning (30:3), 1997, pp. 385-391.

Rauber, A. “LabelSOM: On the Labeling of Self-Organizing Maps,” Proceedings of the International Joint Conference on Neural Networks (IJCNN’99), Washington, DC, 1999.

Salton, G., A uto m atic Text Processing, Addison-Wesley, MA, 1989.

Shaw, N.G., Mian, A., and Yadav, S.B., “A Comprehensive Agent-Based Architecture for Intelligent Information Retrieval in a Distributed Heterogeneous Environment,”

Decision Support Systems (32), 2002, pp. 401-415.

Shim, J.P., Warkentin, M., Courtney, J.F., Power, D.J., Sharda, R., and Carlsson, C., “Past, Present, and Future of Decision Support Technology,” Decision Support Systems (33), 2002, pp. 111-126.

Swap, W., Leonard, D., Shields, M., and Abrams, A.L., “Using Mentoring and Storytelling to Transfer Knowledge in Workplace,” Journal of Management Information Systems (18:1), 2001, pp.

95-144.

Tyndale, P., “A Taxonomy of Knowledge Management Software Tools: Origins and Applications,” Evaluation and Program Planning (25), 2002, pp. 183-190.

Wong, K.F., and Li, W.J., “Intelligent Chinese Information Retrieval - Why Is It So Difficult?” Proceedings of the First Asia Digital Library Workshop, 1998.

Wu, Z., and Tseng, G., “Chinese Text S e g m e n t a t i o n f o r Te x t R e t r i e v a l : Achievements and Problems,” Journal of the American Society for Information Sciences

(44), 1993, pp. 532-542.

Yang, C., Yen, J., and Yung, S., “Chinese Indexing Using Mutual Information,”

Proceedings of the First Asia Digital Library Workshop, 1998, pp. 57-64.

Yang, C.C., Chen, H., and Hong, K., “Visualization of Large Category Map for Internet Browsing,” Decision Support Systems (35), 2003, pp. 89-102.

Yang, H., and Lee, C., “A Text Data Mining Approach Using a Chinese Corpus Based on Self-Organizing Map,” The Fourth International Workshop on Information Retrieval with Asian Languages, 1999.

參考文獻

相關文件

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

Define instead the imaginary.. potential, magnetic field, lattice…) Dirac-BdG Hamiltonian:. with small, and matrix

Professor of Computer Science and Information Engineering National Chung Cheng University. Chair

隨著科技的進步,展覽場的導覽系統已從過去導遊、磁帶機或 CD 播放 器講解的時代轉換成行動導覽的時代。目前行動導覽方式大都以 RFID 或 QR

美國麻省理工學院Peter Senge教授,於1990年 出版「第五項修練:學習型組織的藝術和實 務」(The Fifth Discipline: The Art and. Practice

Associate Professor of Department of Mathematics and Center of Teacher Education at National Central

Assistant Professor, Industrial Engineering and Management Chaoyang University of Technology. Chen Siao Gong JULY 13 , 2009 Chen

Associate Professor of Information Management Head of Department of Information Management Chaoyang University