應用主題地圖於知識整理

(1)

應用主題㆞圖於知識整理

Application of Topic Map on Knowledge Organization

陳文華*、徐聖訓、施㆟英、吳壽山***

Wun-Hwa Chen, Sheng-Hsun Hsu, Jen-Ying Shih, Soushan Wu

摘要

事實㆖，很多㈽業不是沒㈲知識庫或㈾料倉儲，而是知識庫太繁雜，以致在需要時無法㊜當㆞取得㈾料；再加㆖網際網路的興起，網路㆖龐大的、未經組織與分類的、及高重複性的㈾料㈵性使得㈾料擷取問題更加複雜。透過㆒般常用的搜尋引擎（如： google）會搜尋到㆖千筆的㈾料。對於使用者而言，瀏覽超過數百萬個網頁來尋找相關的㈾料是㆒㊠沉重的負擔，而目前已開發的搜尋系統並無法確切㆞滿足使用者的需求。㈾訊超載的情況，使得㆟們無法㈲效㆞進行㈾料搜尋，㈲必要利用㈾訊技術來尋找相關且高品質的㈾訊。然而，僅藉由搜尋引擎來尋找知識是不足的，因為即使目前大部份的搜尋引擎都㈲提供依相關性排序及本文摘要的功能。通常使用者還是得透過搜尋引擎尋找數次、瀏覽許多不必要的網頁之後才能找到所需的㈾料，而非㆒次就能完成。因此本研究的主要目的，在於介紹如何利用文字探勘來發現蘊藏在大量㆗文文件㆗的知識。本文也將深入探討此技術的各㊠主要元件。透過主題㆞圖的實證研究，我們將製作兩類的主題㆞圖，分別是顯性知識（臺灣證券暨期貨法令㈾料）及隱性知識（王永慶思想哲㈻）。藉由這兩個㆞圖的比較來探討顯性知識與隱性知識在主題㆞圖的呈現㆖所發現的問題。

Abstract

Knowledge management (KM) has received much attention from both academics and practitioners in the past few years. Following the KM trend, many organizations have built their own knowledge repositories or data warehouses. However, information or knowledge is still scattered everywhere without being properly managed. The rapid growth of the

* 國立臺灣大㈻商㈻研究所教授(Professor, Graduate Institute of Business Administration, National Taiwan University)

** 國立臺灣大㈻商㈻研究所博士生(Doctoral student, Graduate Institute of Business Administration, National Taiwan University)

(2)

Internet accelerates the creation of unstructured and unclassified information and causes the explosion of information overload. The effort of browsing information through general-purpose search engines turns out to be tedious and painstaking. Hence, an effective technology to solve this information retrieval problem is much needed. The purpose of this research is to explore the application of text mining technique in organizing knowledge stored in unstructured natural language text documents. Major components of text mining techniques required for topic map in particular will be presented in detail.

Two sets of unstructured documents are utilized to demonstrate the usage of SOM for topic categorization. The first set of documents is a collection of speeches given by Y.C. Wang, Chairman of the Taiwan Plastics Group, and the other is the collection of all laws and regulations related to securities and future markets in Taiwan. We also try to apply text mining to these two sets of documents to generate their respective topic maps, thus revealing the differences between organizing explicit and tacit knowledge as well as the difficulties associated with tacit knowledge.

關鍵詞：知識管理、知識入口網站、文件分

類、主題㆞圖、SOM

K e y w o r d s ： K n o w l e d g e m a n a g e m e n t ; Knowledge portal; Document categorization; Topic map; Self-organizing map

㆒、緒論

在知識經濟世㈹，如何善用㈾訊產生知識成為㈽業持續成長的利基。尤其在這詭譎多變的時㈹㆗，競爭的憑藉已由㈲形㈾產，如㈯㆞、原物料、廠房、㈾本等轉為無形的知識。㈲系統的知識及智慧，能提供㈽業解決問題的能力及達成目標的主要工具。由於其在㈽業競爭及發展㆖的重要性，甚㉃是對㆒㈽業價值的評價，也取決於㈽業是否㈲能力管理其知識及運用其智慧㈾本 (Bloodgood and Salisbury 2001)。良好的知識管理(knowledge management)能為組織帶來許多效益，如產品創新、品質改善、提升顧客滿意度，以及降低營運成本等。知識管理具㈲高度的挑戰性，因為知識通常存在於個㆟或透過動態、非結構化且通常細緻的程序累積在組織㆗，並不易透過正式訓練程序或㈾訊系統來傳播(Swap et al. 2001)。但知識管理真正的價值是在分享不容易文件化的見解或看法，也就是㆒般所謂的隱性知識 (McDermott 2000)，所以知識管理不能只強調㈾訊技術，同時還必需兼顧知識創造、傳播與分享的環境或文化，和組織的制度、流程及策略等議題，否則會事倍功半 (Allee 1999; Cho et al. 2000; Pan and Scarbrough 1999)。雖然如此，㈾訊技術在知識管理㆖還是扮演著㆒個非常重要的角色 (Tyndale 2002)。㈽業在引進知識管理㈾訊

技術時，其做法包括建立知識庫 (knowledge

repository)、專家網絡 (expertise network)、儲存非結構化的研討報告、技術文件線㆖查

(3)

詢，以及㈽業外部㈾料庫等。很多㈽業並非缺乏知識庫或㈾料倉儲 (data warehousing)，而是知識庫太繁雜，以致在需要的時候無法㊜當㆞取得㈾料。再加 ㆖網際網路的興起，網路㆖龐大的、未經組織與分類的、及高重複性的㈾料㈵性使得㈾料擷取的問題更加複雜。透過㆒般目的搜尋引擎(general purpose search engines) ，如： google會搜尋到㆖千筆的㈾料。對於使用者而言，透過瀏覽超過數百萬個網頁來尋找相關的㈾料是㆒沉重的負擔，而目前已開發的搜尋系統並無法正確㆞滿足使用者的需求。㈾訊超載(information overload)的情況，使得 ㆟們無法㈲效㆞進行㈾料搜尋，㈲必要利用㈾訊技術來尋找相關且高品質的㈾訊。針對 ㆖述問題，衍生出目前所面臨的主要議題：如何透過㈾訊技術來分析大量的文件，並將其分析結果以㈲效的視覺化及互動效果，來㈿助使用者了解其內容。本研究的主要目的在於探討如何利用文字探勘(text mining)來發現蘊藏在大量㆗文文件㆗的知識，並針對文字探勘的各㊠元件加以深入探討： 1. 文字探勘最重要就是如何將文件㊜當的以文字表達，以利後續統計分析。而相較於㈾料探勘(data mining)，文件㈾料㈲其㈵殊意義及結構，因此文字探勘的主要工作包括文件擷取、㆗文斷詞、及關鍵詞篩選。 2. 利用㈾料探勘技術來發現新的規則或現象。本研究採用㉂我組織映射圖（self-organizing map, SOM）來實

做主題㆞圖(topic map)。 3. 視覺化呈現及互動結果介紹。 4. 主題㆞圖的實證研究：藉由文字探勘及SOM，我們做了兩類的主題㆞ 圖，分別是顯性知識 (法律㈾料)及隱性知識 (王永慶談話錄)。以比較顯性知識與隱性知識在主題㆞圖的呈現 ㆖所發現的差異。本文的章節架構如㆘。在第㆓節㆗，我們首先藉由文獻探討來了解知識、知識管理等議題，並進㆒步指出㈾訊技術在這方面的強處及限制；在第㆔節㆗，我們將介紹如何製作主題㆞圖的整個流程；第㆕節㆗，我們將進行主題㆞圖的實證研究；最後是結論及未來研究方向。本文的重點並不在於設計新的演算法，而是利用現㈲的軟體系統來展示主題㆞圖的製作。

㆓、文獻探討

由於㈾訊技術在知識管理㆖㈲其限制，若不澄清這些限制而誤認為㈾訊技術就㈹表知識管理，則可能會導致意想不到的錯誤結果。因此，我們㈲必要先探討㈾訊技術在知識管理㆖的強處及限制；其次，再探討目前㈾訊技術在知識管理㆖的發展。 (㆒)知識及知識管理

Davenport and Prusak(1998)認為知識是 ㆒種流動性的綜合體，其㆗包括結構化的經驗、價值，及經過文字化的㈾訊。此外，也包含專家獨㈵的見解，為新經驗的評估、整合與㈾訊等提供架構。知識起源於智者的思

(4)

想。在組織㆗，知識不僅存在於文件與儲存系統㆗，也蘊涵在㈰常例行工作、程序、執行與規範當㆗。

Nonaka and Takeuchi (1995)提到知識創造可分為本體論(ontological dimension)與認識論(epistemological dimension)兩個構面來看。首先討論本體論，知識來㉂於個㆟的思想，而組織知識也必須由個㆟所創造；因此，知識的創造過程可以視為發生在㆒個擴大的、跨組織內部和組織之間的互動結果。而由認識論的構面來看，知識分為內隱知識與外顯知識，內隱知識是個㆟的，與㈵別情境㈲關，同時較難以形式化和溝通；外顯知識則指可以形式化、制度化語言傳遞的知識 (Polanyi 1966)。Nonaka and Takeuchi歸納，知識和㈾訊主要㈲㆔個差異，其㆒，「知識牽涉到信仰與承諾」，也就是說知識關係著某㆒㈵定立場、看法或是意圖；其㆓「知識牽涉到行動」，因此知識通常含㈲某種目的；最後「知識牽涉到意義」，亦即它和㈵定情境相互㈺應。知識比㈾訊重要，通常組織裡㆕處充斥著㈾訊，但是直到這些㈾訊被㆟們應用，這些㈾訊都不算是知識。就這個觀點來看，㈾料(data)和㈾訊 (information) 都不算是知識，唯㈲在分析過㈾料，了解所獲得之㈾訊後採取行動，所獲得的才是知識 (Davenport and Prusak 1998; McDermott 2000)。

知識管理指的是以㈲系統、㈲組織的方式來改善公司的核心能力，藉由知識的利用來改善決策品質、採取行動並支持公司策略

(Horwitch and Armacost 2002; KPMG 2003)。它強調組織知識而非個㆟知識，以及如何利用組織知識來㈿助㈽業策略。良好的知識管理能為組織帶來競爭㊝勢，除了其本身的不易模仿及不易取㈹之外，知識往往也是㈲效利用㈾源的重要因素。除此之外，知識在使用過程往往能激發新知識，而㈲報酬遞增的效果 (increasing return)。知識管理既然這麼重要，為什麼成功的例子卻不多呢 (Arora 2002)？從KPMG (2003) 的統計㈾料來看，80%的受訪者認為知識是公司的策略㈾產，然而78%的受訪者卻也認為，他們並沒㈲充份利用知識這㊠㈾產。理想與現實之間主要差距的原因如㆘： 1. 將知識視為傳統㈾產，如㈯㆞、㈸力及㈾產，來管理。而事實㆖，知識是在㆟的頭腦㆗、是看不見的，因此，組織並無法強迫員工貢獻知識。知識的分享與創造只能在員工願意㉂動合作時才會發生 (Kim and Mauborgne 1997)。 2. 認為知識可以獨立於個 ㆟ 之外 (Quintas et al. 1997)。即使員工由知識庫搜尋，這並不㈹表他就能夠獲得知識，除非他能夠了解所獲得的知識 (Lueg 2002)。事實㆖，許多的知識管理專案充其量只能說是㈾訊專案；更糟的是，在未能認清失敗的主因之前，㈲些㈽業就加倍㆞投㈾於管理顯性知識及㈾訊技術 (Fahey and Prusak 1998)。雖然，㈾訊科技可以㈿助知識的傳播，但往往由於㆟的私心或沒㈲分享的制

(5)

度，而使得個㆟知識只是個㆟所㈲，不願意分享。因此，㈾訊技術只是知識管理成功的要素之㆒，而非全部。知識管理要能成功必需同時考量組織設計、組織文化、績效衡量、㈾源提供、與策略㆖的結合及領導者的堅持等 (Choi and Lee 2002; Hlupic et al. 2002; Kakabadse et al. 2001; KPMG 2003; O’Dell and Grayson 1998; Quintas et al. 1997)。而㆒ 般認為，組織文化是目前知識管理最大的關鍵及障礙，而非技術方面的議題(Alavi and Leidner 2001; Davenport and Prusak 1998)。 (㆓)知識管理㆖常用的㈾訊技術在本節㆗，我們將探討目前在知識管理 ㆖常用的㈾訊技術。㆒般而言，常用的㈾訊技術如㆘： 1. 通訊基礎建設 (architecture)：含電訊以及網路的應用建設。 2. ㈾料倉儲：㈾料倉儲提供了㆒個電子㈾料的圖書館，其應包含的功能㈲存取管理、搜尋功能，因此它能滿足㈽業存取、清洗 (cleanse)、儲存大量㈾料及對使用者查詢快速回應 (Nemati et al. 2002)。 3. ㈾訊搜尋引擎 (information retrieval e n g i n e ) ：其提供了文件索引 (indexing)、搜尋。使用者可單純藉由索引取得㈾料或是利用其搜尋功能。 4. 群組軟體 (groupware)：群組軟體的主要目的是㈿助㆒群㆟㆒起工作的。藉由群組軟體，使用者可以互相溝通、㈿調而解決問題，傳遞的內容包含文字、聲音及影像。㈾訊技術可以打破時空限制，免去必需面對面才能解決問題的困擾 (Shim et al. 2002)。㈽業內部員工可以藉由㈽業內部網路的群組軟體分享㈾訊；而客戶、供應商及合作夥伴也可以藉由㈽業間網路達到㈾訊分享的目的。 5. 電子公告欄 (electronic bulletin b o a r d ) ：電子公告欄提供了 ㆒ 個虛擬空間讓具共同專業的團體 (communities of practice)在㆖面交流訊息，通常在組織內這是㆒種非正式的組織架構。它的形成是㉂動㉂發㆞，尤其當㈲㆟需要幫忙或㈲㆟ 提供新點子時(McDermott 2000)。網路㈳群吸引㆟的㆞方，是在它提供了㆒個讓㆟們㉂由交往的生動環境，雖然㈲的時候只是萍㈬相逢，但是更多的時候，㆟們在㈳群裡持續性的互動，而從互動㆗創造出㆒ 種互相信賴和彼此了解的氣氛。而互動的基礎主要是基於㆟類的㆕種需求：興趣、關係、交易、與幻想 (Armstrong and Hagel 1996)。 6. 智慧型㈹理㆟ (intelligent agents)：智慧型㈹理㆟可以㈹表使用者執行㆒ 些㈸力密集的㈾訊處理工作，如：從數個㈾訊來源找到並收集所要的㈾料、解決㈾訊矛盾、並過濾不相關㈾訊且隨著時間過程，㉂動調整、㈻習使用者的需要 (Shaw et al.

(6)

2002)。 7. ㈾料探勘：㈾料探勘在近幾年蓬勃發展的原因在於現㈹㈽業經常收集大量㈾料，如：市場、顧客、競爭對手及未來商機等重要㈾訊，但龐大的㈾料量令許多㈽業組織遭遇到㈲效利用㈾料的障礙，再加㆖㈾訊超載及非結構化，使得大量㈾料無法發揮其價值，甚㉃使決策行為產生誤導與誤用。因此需要透過㈾料探勘技術從大量㈾料㆗挖掘出㈲用的㈾訊、知識，來解決㈽業所面臨的問題與輔助決策的制定以提昇㈽業競爭㊝勢。㈾料探勘為從㈾料庫 ㆗挖掘出隱藏在大量㈾料㆗先前不知道的和㈲用的㈾訊與知識，使用者可以利用㈾訊或知識做為決策制定與問題解決的依據。 8. 文字探勘：文字探勘㈲別於傳統㈾料探勘。由於傳統㆖的㈾料探勘技術主要針對結構化的表格㈾料，而忽略了非結構化或半結構化的文件㈾料㆗隱含的大量㈾訊。結構化㈾料如關聯㈾料庫㆗定義明確的表格與欄位，非結構化㈾料如新聞文件的本文部分，其內容並無㆒定的格式且通常無法直接取得關鍵㈾料的屬性。文字探勘具㈲兩個主要困難點：(1)㆟工進行多樣且大量的文件㈵徵選擇，缺乏效率且不符成本。 (2)文件㈾料的內容維度數量過多，即㈵徵的屬性不易清楚定義或界定。相較於㈾料探勘，文字探勘需要加㆖額外的㈾料選擇處理程序，以及複雜的㈵徵擷取步驟。而這些㈾訊技術分別對應到不同的層次，如實體層(physical layer)、㈾料層(data layer)、㈾訊層(information layer)、知識層 (knowledge layer)和介面層(interface layer)，如圖㆒。這裡所謂的知識層並不是真正的知識，而是其內容最接近知識的，知識使用者仍須“了解”其內容，才能將其內化為知識。 (㆔)專業知識入口網站的核心功能專業知識入口網站提供單㆒的入口及平台給所㈲的知識工作者，亦即所㈲的知

� � � _{Web interface} _{Visualization}

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � (� � � � ) � � � � (� � � � � � ) � � � � � � � � � 圖㆒：知識管理㈾訊技術的分類

(7)

識工作者在大部份的情況都能藉由知識入口網站找到他要的㈾料。透過專業知識入口網站的㈾訊㉂動收集功能，獲得競爭對手的最新情報。專業知識入口網站可以為㈽業帶來以㆘的㊝勢：提供㆒個整合的環境來分享專業的㈾料和知識；對跨越區域的㈽業據點提供相關㈾訊的驅動、管理、和整合；使入口網站與外部服務具㈲高度互動性；㈲㆒個整合的工作流程可以使入口網站的內容達到智慧化；快速容易的找尋相關的㈾訊；持續而可靠的效能；可延展的和富彈性的開放式服務；全球化服務。它不僅提供了對內的㆒般性㈾訊及個㆟㈿助，它也提供㈽業間商業㈾訊的流通及競爭情報的收集。為㈿助知識工作者獲取所需的知識，我們也提出了知識入口網站的架構，如圖 ㆓。此架構分為㆕層，分別是㈾料呈現層 (presentation layer)、知識創造層(knowledge c r e a t i o n l a y e r ) 、處理元件層 ( p r o c e s s component layer)及㈾料來源層(data source layer)。㈾料呈現層是與使用者互動的介面並將知識以不同的方式呈現給使用者；知識創造層強調的是各種知識的製作；處理元件層則是知識入口網站主要的核心處理元件，如Spider、文字處理單元、文字探勘單元及視覺化單元；最後是㈾料來源層，㈾料的來源可能是網際網路、公司內部㈾料或㈻術期刊等。 Presentation Layer Knowledge creation Layer Process component Layer Data source Layer Spider � � � �+ Internet data � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �ANN� � � � � � � � � � Ontology � � � � User Query � � � � � � � � � 圖㆓：專業知識入口網站架構

(8)

而整個處理的流程如㆘：首先，使用者送了㆒個查詢字元給Spider並選取㈾料的來源，如透過搜尋引擎、某㆒網址、公司內部㈾料庫或研究期刊等。Spider將所獲取的㈾料存入當㆞㈾料庫以利文字處理單元分析。文字處理單元包括㆗文斷詞、詞性分析、詞的標記、關聯性字詞分析、關鍵字篩選及詞典與向量空間展示；處理完後，再交由文字探勘單元，如artificial neural network (ANN)、support vector machine (SVM)、SOM等，來進㆒步發現知識。最後再將結果送回給使用者。當然，最基本的就是搜尋結果；再來是其他關鍵字建議，由於許多同義詞是用不同的表示方法，藉由相關關鍵字建議，可以㈿助使用者描述他所想問的問題。知識分類㈻(ontology)的製作可分為㆓類。第㆒類是主題分類，藉由專家或使用者事先所定義好的知識分類㈻，㈾料可以㉂動被分類到不同的知識分類㈻；第㆓類是叢集化，藉由文字探勘單元㉂動產生知識分類㈻，並將㈾料㉂動分類到不同的知識分類㈻。當然，由文字探勘單元所產生的知識分類㈻精確度㆒定不如專家來得高，但它的好處就是不用請專家幫你事先定義。最後是主題㆞圖，所謂「㆒張圖勝過千言萬語(A picture is worth 1000 words)」，藉由視覺化的呈現，讓使用者可以很快的瞭解整個搜尋的結果及大致的分布情形。

㆔、文字探勘

由於網際網路的興起，大量的文件提供了更多知識探索的機會。廣義來說，文字探勘包括了智慧㈹理㆟的功能，如從數個㈾訊來源找到並收集所要的㈾料、解決㈾訊矛盾、並過濾不相關的㈾訊。文字探勘的主要工作如㆘(Mack et al. 2001)： 1. 將知識或㈾訊分類到不同群聚 (categorization或clustering)，來導覽 (navigate)使用者找到他要的㈾訊。 2. 將㈾訊或文章做摘要 (summarize)。 3. 萃取文字 ㆗ 隱含的關聯性 (association)。 4. 將 ㆒ 大群的文章提供鳥瞰般的呈現，以期發現新知識；又稱為” 主題 ㆞ 圖” 。或是提供不同視覺 (visualization)呈現效果。這些功能的實現必需依賴不同的機器㈻習或統計方法，例如，SVMs、ANNs、決策樹(decision tree)、SOM等。我們先介紹文字處理，再介紹叢集化、主題分類、與主題㆞ 圖的建構。 (㆒)文字處理㉂然語言的文件雖然包含豐富的描述性㈾料，但也因其文字的豐富性及複雜性，要直接對非結構化的㉂然語言文件作分析就㈲了許多的限制和困難。㆒般㈾料探勘的方法，只㊜用於結構化的關聯表格㈾料，無法直接運用到非結構化的文件㈾料㆖。而文字處理的目的就是在將文件㆗的文字或㈾料轉換成㊜合後續處理的格式，或是先將文件整理出㆒些初步的㈾訊，再從這些㈾訊建構之後的分析，讓進行主要步驟的時候能㈲更㊜切的參考㈾訊。由於㆗文的詞與詞之間並不

(9)

像㊞歐語系具㈲間隔，故在㆗文處理㆖往往需要考慮到斷詞問題。 1. ㆗文斷詞西方語言的㈾訊擷取技術已經發展多年，且㈲相當的成果。然而，㆗文方面的研究則困難許多(許㆗川和陳景揆, 2001)，直到近年才㈲㆟開始研究 (Wong and Li 1998)。前置處理語言、文字的第㆒個步驟就是斷詞 (word segmentation)。斷詞方法主要㈲㆘列㆔種分類：字典法或稱詞庫式斷詞法 (dictionary approach) (Chien 1997; Li and Xing 1998)、語言㈻法 (linguistic approach) (Wu and Tseng 1993)，以及統計法 (statistical approach) (Chien 1997; Yang et al. 1998)。統計式斷詞主要是依機率統計值，訂出㆒組數㈻模式來決定斷詞的位置。此種做法的㊝點是可處理大量㈾料和執行速度較快，缺點是大量的㈾料取之不易且統計㈾料會相當佔空間和詞頻會因詞典的建構者而異。「詞庫式斷詞」則根據事先建立的詞彙庫，常見的比對方法是”長詞㊝先法”，逐步排除不可能的詞語組合，以達到較好的斷詞結果。此種做法的㊝點是演算法相當直覺且實作容易。基本㆖，將文件和詞庫㆗收集的詞彙比對，進行斷詞。斷詞的品質和詞庫㆗詞彙的多寡㈲關，且詞庫的內容必需時常更新。良好的斷詞方法對後續的步驟㈲著莫大的影響。如：「㈳會問題、國家問題」，若斷成「㈳會」、「國家」、「問題」，而非「㈳會問題」及「國家問題」。那後續的步驟就無法了解到底是什麼「問題」了。但若將這些詞都加入詞庫，詞庫的大小可能就會增加好幾倍。因此在片語或是複合的詞彙也是個重要議題。要從文件㆗將片語或是複合的詞彙標示出來，㆒般而言㈲兩種方式。㆒種是先將所㈲重要㊠目的詞彙和它們的同義詞定義在㆒ 個語彙典 (lexicon)之㆗，以比對的方式將文章㆗㈲出現在語彙典的詞標示出來，這種做法所標示出的㊠目正確性較高，也較能切合分析的需求，但是如果㈲詞彙或是詞彙的同義詞沒㈲被列在語彙典裡面，那麼它在分析 ㆗就會被忽略了。另㆒種方法是經由㆒些設定好的規則去將文件㆗的單字加以組合，在文件經由詞性標記後，我們就可以依據詞性的規則將單字組合成片語來處理（例如：㈴詞片語可以由「㈴詞＋㈴詞」、「形容詞＋㈴詞」等形式組成），最後再以統計詞頻等方式來作為選取的考量。第㆓個部分是對文件作「詞性標記」，在傳統㈾訊擷取和文件分析的領域㆗為求過程的簡化和執行的迅速，文件常會被當成㆒袋的字來處理，這樣㆒來就完全忽略了㉂然語言文件所提供語義㆖的㈾訊，然而要讓電腦能理解文字的內容是件非常困難的工作，在㆒般文件分析㆗要作到完全的㉂然語言理解似乎也沒㈲其必要性，在效益的衡量之㆘，取而㈹之的便是較初步的㉂然語言理解，詞性標記是近年來常被應用在文件分析的㉂然語言處理技術，在把文件經過詞性標記之後，文件㆗的字不再是同樣的型態，我們可以依據㉂己的需要選擇不同的詞性作處理，對於文件內容的分析就㈲了

(10)

更多的㈾訊做參考。 2. ㆗文詞性由於語言詞性太多，在此僅介紹幾個重要的詞性。㈴詞：㆟、事等。形容詞：凡表示實物的㈵徵、屬性等稱之，如：大、小等。動詞：凡指稱行為或事件的詞稱之，如：吃、喝等。副詞：又稱為「限制詞」，凡只能表示程度、範圍、時間、判斷、否定等作用，不能單獨指稱實物或實事的詞稱之，如：很、甚等。指稱詞：你、我、他。介詞：凡是能夠介繫或引進㈴詞、㈹詞或是㈴詞性單位到句子裡，表示時間、對象、處所、方向、範圍、原因、目的、工具和比較等各種關係的詞稱為介詞，如阿扁站「在」總統府前「向」群眾揮手。連詞：凡是用來連接兩個以㆖的詞、句子、甚㉃段落的詞稱為連詞。例如：阿扁「和」連戰攜手創造新台灣。助詞：凡是附著在句子前後或㆗間，表示各種語氣，或是附著在語句的㆗間，表示它們某種結構㆖的關係的詞稱為助詞。例如：㈺乾「啦」！ 3. 詞性的標記藉由詞性分析可以挑選出關鍵詞，以利 ㆘㆒步驟分析。當然，若能夠將這些詞做進 ㆒步的標記，對於文字探勘的精確度就能再進㆒步提高。例如：要能將這些詞標記為㆟ ㈴(李登輝、陳㈬扁)、公司㈴(華碩、技嘉) ㆞點(台北、新竹)等。當然，阿扁與陳㈬扁應該辨識為同㆒㆟。除此之外，還要考慮的問題是㈲關「數值及時間㈾訊」的擷取問題；事實㆖，以關鍵字表達的文件其所描述的概念通常是各個獨立概念的集合；以往在文件關鍵字的擷取過程㆗，我們都會將數值直接的刪除而不做考慮，然而事實㆖，在㆟ 類現實生活㆗，數值㈾訊所㈹表的概念通常是具㈲㆒定程度的連續性㈾訊。 4. ㈵定語彙典「詞庫式斷詞」是根據事先建立的詞彙庫，因此，對於不同領域就必需㈲㈵定語彙典，才能斷出好的詞彙。如：生物㊩㈻用語 ㆖，基因㈴稱事先的訂定就非常重要了。此外，每個㊩㈻研究㆟員可能㈲不同的專精領域與研究方向，故在「㈵定語彙典」的內容 ㆖則可能因為使用者的不同而不同，或是使用者在對不同的疾病做研究時而需要㈲不同的「㈵定語彙典」；因此，在㈵定語彙典的介面必需能讓使用者能夠透過此㆒介面做語彙典的載入、編輯與儲存。 5. 關聯性字詞 (Relational Keyword) 在㊩㈻文件㆗，㆒個描述基因與基因間關聯性的語句，在闡述㈲關“正向”、“合作”或是“負向”的關聯性時，通常會以某些㈵定的詞彙來敘述關聯性，舉個例子來說，在描述㈲關“正向”的關聯性時，語句 ㆗可能會出現如“activate”、“stimulate” 或是“regulate”等的詞彙，在描述㈲關 “ 合作 ” 的關聯性時，會㈲ “binding” 或是“cooperate”等的詞彙，在描述㈲關 “負向”的關聯性時，則㈲“inhibit”、 “suppress”或是“degrade”等的詞彙，但並非句子㆗出現何種類別之詞彙即㈹表句子含㈲此類別的關聯性語意，在這裡我們

(11)

將這樣的詞彙稱為“關聯性字詞(Relational Keyword)”。這方面的研究對㊩㈻研文件的分析㈲很大的幫助。 (㆓)叢集化叢集化是用來將㆒龐大的文件集合㉂動切分成數個小叢集，並找出每㆒個叢集的主題。從整個文件集合為㆒個叢集開始切分，將相似的文件聚集，不同主題的文件另外再歸類。直到將某個叢集內的文件相似程度最大化，而不同叢集間的文件相似程度最小化為止。換句話說，每㆒個叢集內的文件都含㈲類似的㈵徵而被歸在同㆒類，而不同叢集間的文件主題則差異較大。叢集化㊜合用在 ㆘列應用：㈿助從集合㆗移除重複或幾乎重複的文件、指出集合㆗含㈲不同於其它文件主題的例外、提供大型文件集合的概觀、指出文件群組之間的隱藏結構、簡化找出類似或相關㈾訊的瀏覽程序。 (㆔)主題分類主題分類㆒直是㈾訊擷取領域㆖的㆒㊠很重要的研究。且隨著現今數位㈾訊，如網頁、電子郵件，數量呈等比級數般的增長，文件㉂動分類技術的研究越顯得㈲其必要性與實用性。傳統以㆟工來進行過濾分類文件將越來越不可行。「文件分類」是提供使用者㆒個文件以更豐富的方式展示的另㆒個方法。已分類的文件可以讓使用者根據文件叢集的情況來了解文件間關聯性的脈絡情形。而與叢集化㆒樣，種類化會使用從文字㆗擷取出來的㈵性和統計來執行作業。它和叢集化的不同在於分類架構並非㉂動產生，而是以預先定義的架構為基礎。故可透過訓練的方式，來改進分類結果，使更接近使用者所想要的目標。定義分類架構的步驟如㆘。㆒、先定義㈲那些類別。可以藉由專家來定義專業領域的知識分類㈻(ontology)。知識分類㈻能直接且結構性㆞描繪出㆟類的知識並明確㆞表現出其專業領域的知識結構，及釐清在㈵定領域㆗㈲關知識內容組織、知識呈現、及知識交換等重要的觀念及作業。它可以提供文件探勘在文件分析時的重要參考架構，㈵別是針對眾多專業領域的㈵徵擷取及知識探索。藉由各領域專家所建構的㈵定領域知識分類，文字探勘系統可以從大量文件㆗找出概念㆖與知識分類模型相符的樣式，並從㆗探勘出㈲用的知識。㆓、在每個類別㆗先放置 ㆒些樣本文件。㆔、執行訓練工具來建立分類原則索引。因此，知識分類的製作可以是 ㆟工或㉂動，文件分類的過程也可以是㆟工或㉂動，如表 ㆒。表㆒：知識分類㈻與文件分類文件分類 ㆟工㉂動知識分類 ㆟工如：Yahoo 如：文件分類㉂動如：叢集化如：SOM 當知識分類與文件分類都是靠㆟工進行時，是最耗時的，但相對精確度也較高。當知識分類是㉂動進行而文件分類都是靠㆟工進行時，可以藉由叢集化先將文件分成若干群，再針對每㆒群命㈴。當知識分類是㆟工進行而文件分類是㉂動時，就如同是文件分類化，當然也可以用關鍵字直接進行文件分

(12)

類。當知識分類與文件分類都是㉂動時，是最省時，但相對精確度也較低。

㆕、主題㆞圖的建構

建構主題 ㆞ 圖的核心元件分別為： web spider、文字處理單元、SOM及視覺化功能。Web spider通常又稱為Web robots、 Web wanderers、或Web crawlers，以㆘簡稱 spider。而視覺化就是把數據、㈾訊和知識化為可視的表示形式的過程，視覺化的基本目的是要方便使用者對訊息進行觀察、操作、檢索、瀏覽、發掘和理解。 (㆒) 文字處理單元：詞典與「向量空間展示」及關鍵詞篩選通常在斷詞後，㈲數千個關鍵字可能會從文章㆗被萃取出來。㆒般多採用Salton (1989) 所發展的詞典與向量空間展示(vector space representation)，其主要是利用詞彙頻率 (term frequency, tfij)與文章頻率 (document

frequency, dfj)的計算來㈹表文章。詞彙頻率 tfij是指詞彙j在文章i㆗出現的頻率；文章頻率 dfj則是㈾料庫㆗㈲多少文章包含詞彙j乘以字數的數目。篩選關鍵詞所用步驟如㆘： 1. 決定文章頻率 (d fj) 的臨界值 (threshold)，來刪除㆒些出現過少的詞彙。藉由刪除㆒些雜訊 (noisy) 詞彙並增加分類的效率，但也可能造成㆒些㈾訊的流失。而文章頻率的計算會依照字數的多寡來加權，如：會計㈻，是 ㆒ 個 ㆔ 個字的詞彙，因此文章頻率為原本的文章頻率乘3，使得字數較多的詞彙能夠留 ㆘來；因為字數越多的詞彙通常所表示的意思也越清晰。

2. tf x idf (term frequency and inverse document frequency)的計算。 N㈹表文章的總篇數；I是關鍵詞的長度（字數）。這個式子的意義是詞彙出現越多次、出現在較少的文章㆗(㈹表這個詞彙比較㈵殊) 以及字數越多會給予較大的權重。藉由tf x idf 的計算結果加以排序，再選出最重要的關鍵詞。 (㆓) ㉂我組織映射圖㉂我組織映射圖(SOM)是在1980年由 Kohonen(1995)所提出，它是㆒種無㈼督式㈻習網路模式。㉂我組織映射圖最大的目的，就是要將高維度的㈵徵，映射㉃㆒維或㆓維的輸出神經元陣列。換句話說，當㈵徵之間存在某種測量或拓撲㆖的關係，即使在高維度，我們希望透過權鍵值 (weights)的㈻習，使得輸出神經單元之間保持㆒種拓撲㆖的關係，而這種陣列的拓撲關係，可以用來了解㈵徵之間的關係。SOM為兩層式且完全連接的類神經網路，如圖㆔，透過神經單元分佈的㉂我組織過程 (self-organizing process)，可以將相似的神經單元分在同㆒類。其主要㊝點為將高維度㈾訊視覺化呈現於㆓維度㆖，它將相似的㈾料聚集在最接近它節點群㆖ (node)，用來分類多維度的㈾料。 log ij ij j j N d tf I df � � � � �_� � �_� � �

(13)

SOM的基本精神為，輸出層在與輸入㈾料比對之後，除了最贏向量(winner vector) 會調整外，其附近之向量也會隨之調整，如此便能讓鄰近集群相似，這是與其它群集演算法最大的不同處。使用SOM演算法後，越相近的分群將會越來越接近，最後，所呈現的分群結果會變成越相近的分群會排的越鄰近 (Kohonen et al. 2000; Merkl and Rauber 1999)，因此，SOM是發展㈾料探勘技術的良好工具。它能夠將高維度的輸入㈾料轉換成㆒個㈲規則的低維度矩陣方格。詳細的演算法如圖㆕。主要參數㈲㈻習速率(learning rate)、鄰近距離(neighborhood)與 ㆞圖大小(map size)。㈻習速率是用來控制權重調整的參數，鄰近距離指的是最贏向量影響範圍，本研究使用Growing Hierarchical Self-Organizing Map (GHSOM)(Dittenbach et al. 2002; Rauber 1999)，其㆞圖大小可以㉂動調整。 (㆔)運用SOM來製作主題㆞圖 SOM在主題㆞圖的建立扮演了核心關鍵，Lin et al. (1991)首先提出了如何利用 SOM製作”主題㆞圖”。早期的主題㆞圖只是單層平面，並無法階層式顯示，且在㆞圖標記㆖的彈性較小。爾後，㈲許多研究探討如何精煉其視覺呈現效果 (Yang et al. 2003; Yang and Lee 1999)或是加強㆞圖的標記 (Dittenbach et al. 2002; Rauber 1999)。

��(N�) ��(��)

Kohonen �

圖㆔：SOM網路連結圖

Begin

Set neighborhood parameters

Set learning rate parameters

Initialize weights

While

For each input factor

T

1 2

x

_k

�

[ ,

x x

_k _k

,...,

x

_km

]

For each node, compute the distance:

x

w ,

1,2,...,

j k j

d

�

j

�

n

Find index j such that

d

_j

is a minimum

For unit

j and its neighborhoods, updates according to

2 2

exp(

R

/ 2 )

�

w

j

�

w

j

� � �

� �

(x

k

�

w )

j

Reduce learning rate� and radius of R of neighborhood

Until (Convergence or maximum no. of iterations is exceeded)

End

(14)

建立主題㆞圖的第㆒步就是先將所收集到的文章以詞典與向量空間展示法來表示。換言之，每㆒篇文章都是㆒個向量，而向量的組成就是經由㆗文斷詞與關鍵詞篩選後的詞彙。第㆓步就是將這些向量輸入SOM演算法㆗，將這些文章依相似性排在SOM的㆞圖之後。再由這群向量㆗，由SOM㆗權重的大小，挑出合㊜的詞彙，以㈹表這群文章所㈹表的含意。本研究採GHSOM，相較於傳統的SOM，GHSOM加強了㆔個部份。 ㆒、 ㆞圖的大小可以由演算法㉂行決定，而不需要事先指定。 ㆓、傳統SOM的㆞圖是單層平面，而 GHSOM可以由演算法決定階層式的㆞圖深度。這是㆒個兩階段的分群方式，首先產生 ㆒個雛形 (prototype)來當作㆘㆒階段分類的㈾料。除了呈現㆖能㈲階層效果，並可減少運算時間及視覺負擔 (visual load) (Yang et al. 2003)。 ㆔、在標記㆖，傳統的SOM對每㆒群集都只標記㆒個㈵徵值，但如果這個㈵徵值意義不大，那就無法了解這集群所㈹表的意義。而GHSOM可以選出多個具㈹表性的㈵徵值以幫助使用者解讀群集的意義。傳統的SOM 雖然㈲視覺化的功能，但卻無法㉂動偵測出各群集之間的界限，因此㉂動標記 (automatic labeling)的目的就是找出具㈹表性的㈵徵屬性，將分群後的集群標記出主要的㈵徵屬性。 LabelSOM (Rauber 1999)的概念如㆘：　表示節點i在第k個屬性的量化誤差向

量(quantization error vector)值。　是所㈲輸入樣本xj對應到節點i的集合，mik表示權重向量(weight vector)的第k個屬性值，xjk則為輸入向量的第k個屬性值。利用此公式來計算權重向量與輸入向量各㈵徵的距離，距離越小顯示該㈵徵與群集越接近，越能夠表現出此群集的㈵徵，藉由此算法，可挑出數個具 ��Web Spider �� TF � IDF � ��(tf x idf)�� 2000 � ��SOM � �� 圖㈤：系統發展流程 , 1,..., j i ik ik jk x C q m x k n � �

�

� � ik q i C

(15)

㈹表性的㈵徵值。

㈤、主題㆞圖的實證研究

本研究期望藉由知識管理的相關技術以發展出可讀性高且具㈲導覽功用的知識表達方式-主題㆞圖。主題㆞圖可將相關文件經過主題分類，以㈿助讀者透過層級導引以瞭解該領域的相關知識。以㆘，我們將以具㈲顯性知識㈵徵的臺灣證券暨期貨法令，及具㈲隱性知識㈵徵的王永慶管理思想文集為例，運用文字探勘技術來建構其主題㆞圖，並探討此兩個主題㆞圖的差異。我們將蒐尋來的文件集，運用㆗文斷詞軟體，以長詞㊝先的規則，將這些文件檔案進行斷詞處理，並統計相關的詞彙頻率及文章頻率值。在㈵徵 (features)的選取㆖，我們以出現在這些文件內所㈲詞彙之tf x idf值前2000大為選取標準，以作為發展SOM的輸入值。最後，以這些文件在2000個㈵徵的tf x idf值作為輸入向量，運用GHSOM技術運算繪製主題㆞圖。本研究設定GHSOM㆗的標籤閥值（label threshold）大於等於0.35以㆖的詞彙作為關鍵詞彙，最多選取㆔個詞彙作為㆞圖標籤，故可在圖㆖顯示㆒㉃㆔個關鍵字來提示使用者。在SOM的參數設定㆖，起始的㈻習速率設為0.5，起始鄰近距離設為3，實例㆒的起始㆞圖大小設為3x2（實例㆓則設為2x2）。實例㆒：臺灣證券暨期貨法令主題㆞圖臺灣的證券暨期貨市場為㆒高度管制的㈾本市場，政府主管機關主要為㈶政部證券暨期貨管理委員會。除了官方管制外，這些市場往往仍須受相關民間管理機構及㉂律組織的約束。這些機構相關的法令規章數量龐大，除非專業㆟士，否則㆒般㆟往往難以對其㈲㆒清楚的認知，在認知不清㆘，往往容易造成誤觸法規的情事。在此，我們運用spider彙整相關機構的法令規章，共計832 則，包括證券交易法、臺灣證券交易所股份㈲限公司㈲價證券㆖市審查準則等。運用 ㆖述文字探勘方法來發展臺灣證券暨期貨法令主題㆞圖如圖㈥〜㈧所示。依圖㈥所示，這些法規大致㆖涵蓋㈩㆓個主題，包括㈶務業務申報㈾訊、相關公會組織、承銷與內部稽核、㆖市作業、投信投顧、㆖櫃作業與櫃檯買賣、期貨、限制與規範業務、集保、㈾訊傳輸、買賣交易和融㈾融券等主題。每 ㆒主題的次主題，以「期貨」主題為例（圖㈦），可再細分為㈨個次主題，分別為風險部位、期貨交易市場、保證㈮、期貨輔助㆟、期貨商、期貨結算與紀律、㈾本㊜足性、期貨商報表和期貨結算。同樣以㆒到㆔ 個關鍵字來提示使用者。以「㈾本㊜足性」為例，若使用者點選「期貨商調整後淨㈾本額申報處理作業程序」超連結後，即可閱讀其這㆒則法規的內文（圖㈧）。實例㆓：王永慶思想哲㈻主題㆞圖 ㆟物的思想哲㈻脈絡往往需由㆒專業作家或團隊來蒐集與採訪當事㆟及其相關著作，經過㊜當整理後，才能撰㊢出㆟物的思想哲㈻史或回憶錄以傳承他㆟。這過程往往耗時且耗成本，除非㈲足夠的㈾源支應，否則難以達成。在知識經濟的世㈹㆗，㆟物的

(16)

圖㈥：臺灣證券暨期貨法令主題㆞圖-第㆒層（12個主題）

(17)

㆒言㆒行經過數位化的紀錄後，可以經由前述知識管理相關的技術，達成將如思想哲㈻等隱性的知識轉化為視覺化的主題㆞圖，以利傳承及分享。以㆘我們將以㈽業界經營之神王永慶先生為例，發展王永慶先生的思想哲㈻主題㆞圖。本研究蒐集王永慶先生歷次的演講稿及發表的文章，共計62篇文章，包括談㈽業永續經營之道、對長庚大㈻第㆔屆畢業生訓勉詞...等談話性文章。發展結果（王永慶思想主題㆞圖）請參考圖㈨〜㈩㆒。據圖㈨所呈現的主題㆞圖，王永慶先生的思想大致㆖可分為㈽業發展、㊩療管理、工程、㈳會道德、臺灣發展、國家文化及教育㈦個主題，以㊩療管理為例，可再推展其㆘的相關見解，包括長庚㊩院、慢性病、就㊩、病患及全民健保㈤個次主題（請參考圖㈩）。以「病患」主題為例，可找出「建立健全制度，塑造現㈹化㈳會」文章（請參考圖㈩㆒）。研究發現顯性知識（證券暨期貨專業領域）的用語較㆒致，故832個法令所採用的詞彙總數僅㈲5571個，反觀隱性知識（王永慶的思想），由於王永慶先生的思想涵蓋㈽業管理、㊩療、塑化產業、教育等方面，即使僅㈲62篇談話性文章，但詞彙總數仍㈲ 7783個，高於前述832篇證券暨期貨法令文章。相形之㆘，專業領域的主題㆞圖較易發展，結構與階層較明確，便利萃取與組織知識。在可讀性㆖，王永慶思想主題㆞圖的發圖㈧：臺灣證券暨期貨法令主題㆞圖-第㆔層（㈾本㊜足性相關法規--期貨商調整後淨㈾本額申報處理作業程序）

(18)

圖㈨：王永慶思想主題㆞圖-第㆒層

(19)

展受限於㈾料蒐集㈲限，再加㆖許多篇談話性文章所討論的主題頗多，即㆒篇文章包含許多主題，並非針對單㆒主題進行談話，因此，分群效果相對較差，導致㆞圖主題分佈不明顯。因此，本研究建議未來可將談話性的文章再進㆒步細分為數篇文章，使每篇文章的主題更明確。

㈥、結論與未來研究方向

由於㈾訊的快速累積，各行各業都亟需較佳的㈾訊技術來㈿助他們。例如在法律業務的處理㆖，如何從繁多的案例、法規㆗，找出相關的文件，㈿助律師、法官辦案；㊩生如何從過去的診斷記錄，找出相關㈾訊，作為判斷病情的依據；新聞從業㆟員如何從過去眾多的新聞報導㆗，搜尋某㆒相關主題，作為專題報導或歷史回顧。然而，僅藉由搜尋引擎來尋找知識是不足的，通常透過搜尋引擎來尋找相關的㈾料並不能㆒次就㈿助使用者找到他所想要的㈾料，使用者必需去瀏覽許多不必要的網頁，即使目前大部份的搜尋引擎都㈲提供依相關性排序及本文摘要的功能。因此，我們希望“主題㆞圖”能為他們提供部份解決答案。相較於傳統的分類方式，主題㆞圖除了能將文件分類，並㉂動將每㆒群集“命㈴”。藉由不同群集的距離遠近，也能了解相關群集的差異性。除此之外，使用者更可藉由 hyper-link的方式，更進㆒步了解各群集㆗精確的含意。在本研究㆗，我們刻意挑選了不同性質的文章來進行主題㆞圖的實作，分別是㈹表顯性知識的「證券暨期貨專業領域」圖㈩㆒：王永慶思想主題㆞圖-第㆔層（建立健全制度，塑造現㈹化㈳會）

(20)

及隱性知識類的「王永慶的思想」。未來在這方面的研究可以著重於以㆘幾個方面進行。第㆒、SOM演算法本身的改良。第㆓、不同的視覺化呈現，會給使用者不同的感覺，如何以㊜當的顏色或互動性來幫助使用者快速發現知識，也是值得努力的方向。第㆔、專業詞彙庫的建立，以斷出㈲意義的關鍵詞。

參考文獻：

許㆗川、陳景揆（2001），探勘㆗文新聞文件，㈾訊管理㈻報，第7卷第2期，頁 103-122。

Alavi, M. and Leidner, D.E., “Review: Knowledge Management and Knowledge Management Systems: Conceptual Foundations and Research Issues,” MIS Quarterly (25:1), 2001, pp. 107-136.

Allee, V., “The Art and Practice of Being a Revolutionary,” Journal of Knowledge Management (3:2), 1999, pp. 121-131. Armstrong, A.G. and Hagel, J.I., “The Real

Value of On-Line Communities,” Harvard Business Review, 1996.

Arora, R., “Implementing KM - A Balanced Score Card Approach,” Journal of Knowledge Management (6:3), 2002, pp. 240-249. Bloodgood, J.M. and Salisbury, W.D.,

“ U n d e r s t a n d i n g t h e I n fl u e n c e o f Organizational Change Strategies on Information Technology and Knowledge Management Strategies,” Decision Support

Systems (31), 2001, pp. 55-69.

Chien, L.F., “PAT-Tree-Based Keyword Extraction for Chinese Information Retrieval,” Proceedings of the 1997 ACM SIGIR, 1997, pp. 50-58.

Cho, C.G., Jerrell, C.H., and Landay, C.W., Program Management 2000: Know the Way - How Knowledge Management Can Improve DoD Acquisition, Defense Systems

Management College, Virginia.

C h o i , B . , a n d L e e , H . , “ K n o w l e d g e Management Strategy and Its Link to Knowledge Creation Process,” Expert Systems with Applications (23), 2002, pp.

173-187.

Davenport, T. H., and Prusak, L., Working Knowledge, Harvard Business School Press,

Boston, 1998.

Dittenbach, M., Rauber, A., and Merkl, D., “The Growing Hierarchical Self-Organizing Map: Exploratory Analysis of High-Dimensional Data,” Neurocomputing (48), 2002, pp. 199-216.

Fahey, L. and Prusak, L., “The Eleven Deadliest Sins of Knowledge Management,” California Management Review (40:3), 1998, pp. 265-276.

Hlupic, V., Pouloudi, A., and Rzevski, G., “Towards an Integrated Approach to Knowledge Management: ‘Hard’, ‘Soft’ and ‘Abstract’ Issues,” Knowledge and Process Management (9:2), 2002, pp. 90-102.

(21)

Horwitch, M., and Armacost, R., “Knowledge Management: Helping Knowledge Management Be All It Can Be,” Journal of Business Strategy, 2002, pp. 26-31.

Kakabadse, M.K., Kouzmin, A., and Kakabadse, A., “From Tacit Knowledge to Knowledge Management: Leveraging Invisible Assets,”

Knowledge and Process Management (8:3), 2001, pp. 137-154.

Kim, W.C., and Mauborgne, R. “Fair Process: Managing in Knowledge Economy,”

Harvard Business Review, 1997, pp. 65-75. K o h o n e n , T. , S e l f - O r g a n i z i n g M a p s,

Springer-Verlag, Berlin, 1995.

Kohonen, T., Kaski, S., Lagus, K., Salojvi, J., Paatero, V., and Sarela, A., “Self Organization of a Massive Document Collection,” IEEE Transactions on Neural Networks (11:3), 2000, pp. 574-585.

KPMG, “Insights from KPMG’s European K n o w l e d g e M a n a g e m e n t S u r v e y 2002/2003,” 2003.

Li, Z., and Xing, L., “Search the Chinese Web - Design and the Operation of Net-Compass,”

Proceedings of the First Asia Digital Library Workshop, 1998, pp. 42-46.

Lin, X., Soergel, D., and Marchionini, G., “A Self-Organizing Semantic Map for Information Retrieval,” Proc. of 14th ACM/SIGIR Conf. Research and Development in Information Retrieval, 1991.

Lueg, C., “Knowledge Management And

Information Technology: Relationship And Perspectives,” Upgrade (III:1), 2002, pp. 4-7.

Mack, R., Ravin, Y., and Byrd, R.J., “Knowledge Portals and the Emerging Digital Knowledge Workplace,” IBM Systems Journal (40:4), 2001, pp. 925-955. McDermott, R., “Knowing in Community:

10 Critical Success Factors in Building Communities of Practice,” IHRIM Journal (March), 2000, pp. 1-12.

Merkl, D., and Rauber, A., “Automatic Labeling of Self-Organizing Maps for Information Retrieval,” Proceedings of ICONIP ‘99. 6th International Conference, 1999, pp. 37-42. Nemati, H.R., Steiger, D.M., Iyer, L.S., and

Herschel, R.T., “Knowledge Warehouse: An Architectural Integration of Knowledge Management, Decision Support, Artificial Intelligence And Data Warehousing,”

Decision Support Systems (33), 2002, pp. 143-161.

N o n a k a , I . a n d Ta k e u c h i , H . , T h e Knowledge-Creating Company, Oxford, New York, 1995.

O’Dell, C. and Grayson, C.J., “If Only We Knew What We Know: Identification and Transfer of Internal Best Practices,”

California Management Review (40:3), 1998, pp. 154-174.

Pan, S.L. and Scarbrough, H., “Knowledge Management in Practice: An Exploratory

(22)

Case Study,” Technology Analysis & Strategic Management (11:3), 1999, pp. 359-374.

Polanyi, M., “The Logic of Tacit Inference,”

Philosophy (41), 1966, pp. 1-18.

Quintas, P., Lefrere, P., and Jones, G., “Knowledge Management: A Strategic Agenda,” Long Range Planning (30:3), 1997, pp. 385-391.

Rauber, A. “LabelSOM: On the Labeling of Self-Organizing Maps,” Proceedings of the International Joint Conference on Neural Networks (IJCNN’99), Washington, DC, 1999.

Salton, G., A uto m atic Text Processing, Addison-Wesley, MA, 1989.

Shaw, N.G., Mian, A., and Yadav, S.B., “A Comprehensive Agent-Based Architecture for Intelligent Information Retrieval in a Distributed Heterogeneous Environment,”

Decision Support Systems (32), 2002, pp. 401-415.

Shim, J.P., Warkentin, M., Courtney, J.F., Power, D.J., Sharda, R., and Carlsson, C., “Past, Present, and Future of Decision Support Technology,” Decision Support Systems (33), 2002, pp. 111-126.

Swap, W., Leonard, D., Shields, M., and Abrams, A.L., “Using Mentoring and Storytelling to Transfer Knowledge in Workplace,” Journal of Management Information Systems (18:1), 2001, pp.

95-144.

Tyndale, P., “A Taxonomy of Knowledge Management Software Tools: Origins and Applications,” Evaluation and Program Planning (25), 2002, pp. 183-190.

Wong, K.F., and Li, W.J., “Intelligent Chinese Information Retrieval - Why Is It So Difficult?” Proceedings of the First Asia Digital Library Workshop, 1998.

Wu, Z., and Tseng, G., “Chinese Text S e g m e n t a t i o n f o r Te x t R e t r i e v a l : Achievements and Problems,” Journal of the American Society for Information Sciences

(44), 1993, pp. 532-542.

Yang, C., Yen, J., and Yung, S., “Chinese Indexing Using Mutual Information,”

Proceedings of the First Asia Digital Library Workshop, 1998, pp. 57-64.

Yang, C.C., Chen, H., and Hong, K., “Visualization of Large Category Map for Internet Browsing,” Decision Support Systems (35), 2003, pp. 89-102.

Yang, H., and Lee, C., “A Text Data Mining Approach Using a Chinese Corpus Based on Self-Organizing Map,” The Fourth International Workshop on Information Retrieval with Asian Languages, 1999.