智慧型新聞資訊整合暨社群網路分析系統

(1)

行政院國家科學委員會補助專題研究計畫 ■成果報告

□期中進度報告智慧型新聞資訊整合暨社群網路分析系統

計畫類別：■個別型計畫 □整合型計畫計畫編號：NSC96-2628-E-011-084-MY3 執行期間：96 年 8 月 1 日至 99 年 7 月 31 日執行機構及系所：

計畫主持人：李漢銘教授國立台灣科技大學資訊工程系共同主持人：

計畫參與人員：黃瓊緯、黃嘉新、毛敬豪、許福元、談家珍、周家慶、邱坤彥、

陳威達、陳俊佑、林桀宏、何紹威、陳俊翰、林雅惠

成果報告類型(依經費核定清單規定繳交)：□精簡報告 ■完整報告

本計畫除繳交成果報告外，另須繳交以下出國心得報告：

□赴國外出差或研習心得報告

□赴大陸地區出差或研習心得報告

■出席國際學術會議心得報告

□國際合作研究計畫國外研究報告

處理方式：除列管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢中華民國九十九年七月三十一日

(2)

中英文摘要 ……… 2

壹、前言 ……… 3

貳、 研究目的 ……… 4

參、文獻探討……… 4

肆、 研究方法 ……… 7

伍、 結果與討論 ……… 11

陸、 參考文獻 ……… 12

柒、國科會補助專題研究計畫成果報告自評表……… 17

(3)

中文摘要

學術發展的根基在於研究學者積極不斷地研究創新與發展，但研究的永續發展有賴於經費的挹注，而經費分配的原則，必須依靠一套公平的審查機制，所以學術研究與學術審查是學術發展的過程中很重要的學術活動。而學術審查的運作必須考量到，專家推薦的專業性與利益衝突的考量等，審查過程中任何非學術因素的存在一定要加以排除。研究學者透過網際網路進行學術研究，則必須考量到因大量閱讀而產生的資訊焦慮感與減少資訊接收負荷量卻仍能有效取得研究領域重要的概念與發展趨勢，讓研究學者有更多的時間能專注於研究計畫的創新上，以加速科技研究與學術發展的腳步。因此本研究計畫提出「國科會專題計畫審查專家推薦系統平台」，藉以解決以上所提出的問題，其中包含三個主要部分，第一部份為知識庫自動化建構，提供自動化工具作為研究平台運作的基礎。第二部份為學術審查，在專業推薦方面，提出集合眾人智慧與考量利益衝突的專家推薦系統。第三部份為學術研究，透過文獻自動 Survey 的機制，提供學術研究即時性與創新性的需求。本研究所提出的學術審查、

研究與社群的構想，望能提供學術發展的進步環境。

關鍵字：專家推薦, 利益衝突, 維基百科, 眾人智慧, 知識本體論

英文摘要

Academic development is based on the continuous researches that active researchers conduct, but sustainable development depends on research funds. However, funding allocation must rely on a fair review mechanism. As a result, research and review process are very important academic activities in the process of academic development. There are several aspects in the academic review: the professionalism of expert recommendation, conflict of interest considerations. Any non-academic factors must be excluded in the academic review process. There are two issues must be considered that researchers performing research through the internet: after reading a lot of information result in information anxiety, reduction of information received can still achieve the key concepts of research area and the trends of development, so researchers have more time to focus on innovation research to accelerate the development of academic research. In this research project, "National Science Council Project Review expert recommendation system platform" is proposed to address the above issues. It contains three main components. The first part is the automation of knowledge base construction, which provides automated tools for the operation of building the foundation for the study. The second part is the academic review. In the professional recommendation, we propose the expert recommendation system combining the collection of crowd wisdom and consideration of conflict of interest. The third part is academic research, the mechanism of the literature Survey automatically, providing academic research and innovation of real-time requirements. The proposed review of academic, research and community vision, hope to provide academic progress in the development environment.

Keyword：Expert Finding, Conflict Of Interest, Wikipedia, Collaborative Intelligence, Ontology

(4)

壹、前言

本研究計畫初始的構想是希望透過網際網路上公開的新聞資訊作整合處理，從大量的新聞文件中，探勘出有用的特徵（Pattern）或知識[27]，進而從各個領域的歷史新聞文件中發掘出隱含的變化及社會現象的消長。透過新聞事件報導的多寡，可以反應社會現象的趨勢。例如，失業相關新聞的增加，

可能表示國家經濟發展有衰退趨勢；石油的不斷調漲，可能影響產業的發展，因而造成股市的波動等。

整合歷史新聞事件上的各種相關訊息，幫助使用者能在短時間之內，充分獲得該事件的資訊，並將已存在的概念建立關係連結，呈現給使用者的是一種以概念為導向（Concept-Oriented）的分析結果。透過本研究計畫所研發的「智慧型新聞資訊整合暨社群網路分析系統」，可以輔助政府機構及民眾持續地追蹤與掌握較完整的新聞內容，可以更有效地進行預測。

但由於國科會審查計畫之迫切需求性，因此本計畫執行至第二年時，將原先所規劃的研究技術，

轉而導向至「國科會專題計畫審查專家推薦系統平台」的研究。本研究與計畫原先的規劃，僅在應用層面上不同，其餘核心技術大致相同。其中所運用的核心技術包括：資訊探勘[40][41]、機器學習[54]、

人工智慧[53]、智慧型代理人[36]、自然語言[39]、及資訊檢索[23]等。同樣是透過網際網路上公開的學術研究相關資源作整合處理，進行「學術社群知識庫」的建置，進而對所建置的知識庫透過以上所列之核心技術進行資訊的加值處理，藉此獲得學術社群資源之間所隱含的關聯，進行學術資料的探勘與學術社群網路的分析。

本研究計畫為期三年，第一年的研究成果與所開發的相關資訊系統，主要是協助本研究計畫建置一個「學術社群知識庫」，作為「國科會專題計畫審查專家推薦系統平台」的研究基礎。相關的研究成果包括：(1)透過查詢擴充技術及支援向量機(SVM)，解決中文姓名翻譯的問題[34][73]；(2)利用網路文件延伸引用文獻關係之研究，來解決引用文獻之作者身分模糊不清的問題[30][68]；(3)開發「個人著述列表網頁搜尋系統(Publication List Pages Finder，PLF)」[65]與「個人著述列表網頁中自動化擷取引用文獻系統（Citation Extractor）」[31]，以使「學術社群資料庫」的建置工作能更為有效率。第二年進行

「國科會專題計畫審查專家推薦系統平台」的研究與開發，相關的研究成果包括：(1)應用眾人智慧

（Collaborative Intelligence）建置出的語意網路量測專家學者候選人與被查詢專題計畫之間的相關度，

並參考專家者的著作質量後決定審查委員順序的「專家推薦系統」[32][73]；(2)透過社群互動模式在資料不完整的人際網路裡偵測利益衝突的資訊，以解決初審委員與專題計畫申請者之間的利益衝突問題 [74]，並已將此利益衝突資訊加入「專家推薦系統」之中。本系統並經國科會工程處資訊（二）學門使用驗證後，的確可增加可被推薦的專家數量，處理審查利益迴避問題，降低平均每人之計畫審查數。

第三年則延續前兩年的研究成果做更進一步的精進與延伸，相關的研究成果包括：(1)透過維基百科

（Wikipedia）[58]進行「模糊領域知識本體（Fuzzy Domain Ontology）」的自動化建構，以精進「學術社群知識庫」的知識內容，藉以提昇現有系統模組運作之效能；(2)提出 Survey Topic Modeling（STM）

演算法，此方法主要是透過關鍵字找出相關文獻資料，再經由這些文獻的引用資料找出更多的文獻資料，並針對所蒐集的文獻內文利用 LDA（Latent Dirichlet Allocation）[11]演算法統整及歸納出所屬的主題（Topic）。

本計畫之研究成果在學術研究方面，已有 2 篇 SCI/EI 期刊論文的發表，並多次藉由參與國際會議發表了 5 篇研討會論文，將本研究之成果推廣至國際，並與國際相關領域之研究人員進行心得及經驗交流，目前並有 15 項研發成果正在申請專利中。同時培育畢業之博碩士生共 5 人，並成功發展了一套

「專家推薦系統」協助安排合適的專家進行計畫審查，此系統經國科會工程處資訊(二)學門使用驗證後，的確可增加可被推薦的專家數量，處理審查利益迴避問題，降低平均每人之計畫審查數。

(5)

本成果報告書於第二節將說明本研究計畫之研究目的，第三節則進行文獻探討說明現有相關研究之概況，第四節詳述本研究計畫之完整系統架構與各系統模組所使用的相對應研究方法，第五節則說明本研究計畫的成果與未來研究的展望。本研究計畫所提出的系統模組及其相對應的研究方法，皆有相對應的著作發表，因此更進一步的研究方法與相關的實驗結果，請參閱文中所提及的參考文獻。

貳、 研究目的

行政院國家科學委員會（以下簡稱國科會）為政府主導科技發展的主管機關，主要任務包含「推動全國整體科技發展」、「支援學術研究」、「發展科學工業園區」，其中「支援學術研究」的任務中，透過經費補助各大專校院及研究機構從事專題研究，藉以推動國內科技研究工作[69]。另外為提昇計畫的研發水平，並使經費的執行更有效率，因此必需對申請單位所提出的專題計畫進行審查作業。首先由國科會辦理審查作業單位與學門召集人討論所推薦的複審委員名單，經由國科會相關規定核定聘任之。複審委員依據專題計畫申請案之性質，並遵循國科會相關審查「利益迴避規定」，推薦二至四位「相關領域專家」擔任該計畫之初審委員。再由學門召集人及複審委員共同召開會議，討論並決議初審委員的人選，進行該計畫之書面審查作業[68]。但每年國科會專題計畫審查作業，複審委員時常需要在很短時間內完成推薦的作業，這對複審委員的臨場反應與記憶力是極大的考驗。因此建立一套公平、公正、公開的計畫審查機制，有賴於一套智慧型的「專家推薦系統」來輔助，才能讓補助的經費發揮其最大效益，也是國內學術研究永續發展的基礎。

但追溯學術發展的源頭，仍有賴於研究學者積極不斷地研究創新與發展，才能源源不絕地提供學術發展所需的能量。以前研究學者進行研究時，必需花費很多的時間與精神，親自到圖書館找期刊及相關書籍與資料。現在的研究學者只要透過網路，便可以輕易地搜尋到相關的學術研究資源，在研究資料的來源、取得的速度與數量上已獲得相當大的進步。尤其在接觸新的研究領域前，經常會透過網際網路搜尋許多相關的文獻進行研讀，但大量的閱讀經常讓研究學者得到資訊焦慮感，對於研究上反而產生負面的效果。也有一些研究學者藉由研讀相關領域 Survey 格式的文獻，來減少資訊接收的負荷量，卻仍能有效取得該領域的重要概念與發展的趨勢。Survey 格式的文獻經常由一些特定領域的研究學者針對該領域所進行的調查、整理與分析，最後呈現該研究領域的現況、趨勢以及相關延伸閱讀的文獻。但學術研究時常會有新穎的研究議題或領域，Survey 格式的文獻無法及時產出來滿足研究學者的需求。因此如能提供一套智慧型的「研究支援系統」，讓研究學者在進行相關文獻的查閱與探討上能更有效率，讓研究學者能專注於研究計畫的創新上，以加速科技研究與學術發展的腳步。

參、文獻探討

以下將針對本計畫之各研究範疇，說明國內外相關之研究情形。

1. 作者身份消歧（Authorship disambiguation）

從網際網路搜尋人名相關資訊是個相當方便且普遍的行為，但隨著網際網路蓬勃發展，大量的人名相關網頁資訊不斷產生，使用者必須花費相當多的時間來瀏覽並過濾所取得的人名資訊。

這問題主要來自於人名並不具有唯一性，但針對人名所提供的分類目前較少而且分類的效果也有待改進。其中利用特定樣板規則或傳統的文件向量化，來計算不同頁面間相似度的方法是較為普遍的，部分研究學者以 Agglomerative clustering 方法[25]與 Content-based 的向量空間模型（Vector Space Model）[7]對同一個人的網頁進行聚類，雖然此方法對於處理語料庫形式的資料集（Corpus

(6)

dataset）有不錯的成效，但面對大量非平衡文字數量的網頁式文件，在執行成效上則不是非常理想。針對此問題我們提出以基於網際網路中的虛擬社會網路鏈結特性，將群聚的方式透過網頁中的超連結達成，並利用超連結文字進一步將部份不包含鏈結資訊的網頁選取到適當的分群中[71]。

另外對於研究學者所發表的著作，通常會以引用文獻 (Citation) 的格式來紀錄。為了方便查詢與統計分析，書目數位圖書館 (Bibliographic Digital Library) 會將引用文獻分類索引。但常常因為資訊量不足與資訊混淆的問題，使得同一作者的引用文獻會被辨識為不同作者，不同作者的引用文獻卻會被認為是同一作者，導致同名作者的引用文獻無法正確地被書目數位圖書館依照實際作者的身分進行索引。本計畫延續以往的基礎[33][67]進行研究，提出了一種作者身分消歧方法來解決上述的兩個問題，此方法可藉由搜尋網路文件來擴充引用文獻的資訊量，並利用此資訊來幫助引用文獻的作者身分消歧。透過基於學習配對的聚類方法將同一作者的引用文獻聚為一類，並提出配對過濾器來減輕高度混淆資訊影響消歧結果[30]。

2. 智慧型資訊擷取器

網際網路上大量的專家學者的著作清單網頁，對於引用文獻與學術網路分析的加值應用上，

是一項很重要的研究資源。一般專家學者著作擷取可以藉由兩種方式取得，一種是透過 DBLP 的方式，另外的方式就是透過專家個人網頁的擷取，這兩種方式都是使用社群網路的概念擷取資料 [61]。本計畫所要建置發展的「學術社群知識庫」，對於引用文獻的資料更是一項不可或缺的資訊。

但如何能自動地擷取出引用文獻的資料則是一個很大的挑戰，因為這些著作列表網頁都是每一位研究學者手工精心編輯而成，而頁面的編排則是依據每位研究學者的喜好，且網頁的樣式版型有可能隨時改變。為解決此問題，從早期所提出的以手工編碼（Hand-coded）為基礎的擷取器[5][50]，

到以機器學習為基礎並利用 Wrapper Induction 的方式，來產生擷取規則並自動地生成包覆程式[9]

[14][26][42][56]。但以上所提的兩種解決方案都需要大量的人力投入，之後便陸續有研究學者提出自動化的擷取方法，例如：IEPAD（Information Extraction based on Pattern Discovery）[8]，MDR

（Mining Data Records in Web pages）[6]，DEPTA（Data Extraction based on Partial Tree Alignment）

[63]，NET（Nested data Extraction using Tree matching and visual cues）[62]等。

3. Wikipedia 相關之應用

Wikipedia 的定義是「一種允許使用者透過簡單的標記語言來創作與連結一組網頁的社會計算系統」[57]，由於任何人都可以修改，使得 Wikipedia 的內容更新速度很快，且每個文章的頁面都會被分門別類。如果有錯誤內容出現也能即時修正，使得 Wikipedia 的資料在品質和數量上都可以媲美大英百科全書[13]。在語意關聯度的問題中，由於 Wikipedia 的每個文章的頁面都有一個以上的分類，藉由每個分類對應到分類樹上的位置，可以藉此計算出文字的語意關聯度[19][28]

[38]，並且可以透過 Wikipedia 改進自然語言處理的準確度[20]，也有結合多個 Ontology 來增進語意比對能力的方法[3][52]，或是透過 Wikipedia 頁面中 Anchor 比對來處理姓名分歧的問題[59]。

在文件分類的問題中，也有利用 Wikipedia 分類樹結構和頁面上的 Anchor 來改良文件比對的方法 [47]；而在萃取文章概念的問題中，分類樹的每個節點尌代表一個主題，因此也有很多研究在探討使用 Wikipedia 來表達文章概念[37][17][46][66]。由於 Wikipedia 的諸多特性，因此在本研究計畫中將會使用 Wikipedia 作為本系統的外部知識庫，藉以處理與語意關聯度、姓名分歧、文件分類和文件概念萃取等相關問題上。

4. 專家推薦系統（Expert Finding System）

以知識本體論(Ontology)與社群網路技術(Social Networks)建構一個專家推薦系統，協助推薦學術論文或研究計畫審查專家時，擴大審查專家名單，增加審查專家基底，並降低每位專家審查之件數，提高審查效率，並可避免利益衝突。另外，藉由社群網路(Social Networks)的分析，挖掘

(7)

研究學者或計畫申請人之人際關係，如師生、同學等，以避免審查專家與計畫申請人有利益衝突。

專家領域評估(Experts Domain Evaluation)，在認知科學中，要決定一個專家的領域其實是很困難的，通常一個專家都是跨好幾個領域，這個問題就跟一個人會有好幾種角色的意思一樣[35]。

計畫相似度判斷(Proposals Ontology)，一個專家搜尋系統即是依照使用者的問題查找出可以解決使用者問題的專家名冊。但傳統的作法主要是依照各個專家的專業能力做人工建檔，使用者再依據資料庫所提供之分類項尋找適合自己問題的專家。或是依照各個專家在相關文獻主題中出現的次數多寡來決定與使用者問題的關聯程度。如此不但將耗費大量人力並且也無法完整表達各個專家對於各主題的熟悉程度。此系統利用各個專家的著作建立該名專家專業能力資料，並且利用維基百科中的分類鏈結關係計算各個專家與計畫書領域的親疏遠近，且已證明利用維基百科的方法可以增進效率[21][51]。

本研究計畫在「專家推薦系統」的研究上分為三個階段，第一階段我們開發了 AEFS(Authoritative Expert Finding System)，透過語言模型分析社群網路來尋找專家[10][70]。第二階段的研究則改進了 AEFS 在支援多學科搜尋時所遭遇的問題，開發 EFS(Expert Finding System) 改成以專家個人的學術著作與申請計畫，透過 Wikipedia 鏈結分析以找出可被推薦的專家，並將專家的專長資訊與申請計畫進行相關度計算後加以排序[29][74]。第三階段則將其轉換為分類的問題，開發 RRS(Reviewer Recommendation System)利用專家個人的學術著作標題擷取出關鍵字並對應到 Wikipedia 之知識條目資料庫，並建立每個 Wikipedia 條目之專家名單後，利用申請計畫名稱擷取出關鍵字並對應到 Wikipedia 之知識條目資料庫，計算兩者的相似度並統計量化其專業性，最後排序出與該申請計畫相似度最高之前 50 位審查專家列表[32][72]。此階段並同時考慮審查委員與計畫申請者「利益衝突的問題」，透過社群互動模式在資料不完整的人際網路裡偵測利益衝突的資訊，並將此資訊加入「專家推薦系統」之中。

5. 利益衝突（Conflict Of Interest）

是指人與人之間具備某種利益關係，在對他人做決策時會以本身存有的偏見做決定[2][43]。

利益衝突的偵測被廣泛的運用在個各領域，本計畫則想在一般的學術活動層面來探討利益衝突的表現形式。在利益衝突偵測上，文件的蒐集與探勘是很重要的一環。但大部分的學者都忽略從網路上蒐集回來的資料大都不完整，其原因歸於人為疏失、個人隱私保護的問題[49]，最重要的是我們不能保證網際網路裡面所蒐集到的資料是最完整的[24]。基於這些原因，使得所有利益關係的人無法在所建立的學術協同合作網路(Collaboration Network)偵測出來，這對於某些需要比較嚴謹的利益衝突偵測系統，遺失的衝突關係(Missing Relationship)會導致出現一些不被預期的結果。

專家社群網路分析(Experts Social Network Analysis) ，本計畫強調在資料不完整的環境裡利用社群互動模式(Social Interaction)偵測出有利益衝突關係的研究。在學術合作的環境裡，我們觀察到（1）大部分的人喜歡與權位較高的學者（Authoritative People）合作在相同或是相似的研究領域；（2）人們經常透過朋友的朋友互相結識進而互相合作。經由所觀察到的人際互動關係型態，

我們運用在偵測出遺失的衝突關係[45][48]。一開始從現有的資料建出協同合作網路，將我們所觀察到的特殊網路形態(Network Topology)再加上連結預測（Link Prediction）方式找出遺失的關係。

6. 主題模型(Topic Model)

主題模型(Topic Model)，主要是將文章的內容擷取出重要的主題，建構出另外一種知識的表示方式，有研究指出從主題的萃取，可以延伸到概念構圖的應用[12]。主題模型不只是對文章做分類[1][64]，更是要將文章中蘊含的主題擷取出來。近期的研究是由 David M. Blei, Andrew Y. Ng, Michael I. Jordan 所提出了主題萃取的聚類演算法（Latent Dirichlet Allocation，LDA）[16]，所採取的方法是每篇文章裡都假設包含數個主題，主題是由一群字所組成，若兩篇文件的內容相似，

(8)

則主題內容的分佈也會相似。後續也有研究提出 CTM 改善 LDA 的缺點[15]，也有結合連結跟 LDA 和結合 PLSA 的方法[44]。

肆、研究方法

本研究計畫第一年主要的研究目標是建置一個「學術社群知識庫」，以作為後續相關研究的基礎，

但「學術社群知識庫」並非第一年就結束建置的工作，會依後續研究的需求，持續進行調整與修正。

第二年主要是以「專家推薦系統」為研究的主軸，第三年則延續前兩年的研究成果做更進一步的精進與延伸，包含透過維基百科進行「模糊領域知識本體」的自動化建構，以精進「學術社群知識庫」的知識內容。另外我們也同時進行潛藏語意分析（Topic Modeling）相關研究，利用主題萃取的聚類演算法（Latent Dirichlet Allocation，LDA），針對文獻部分的文本內容進行主題與概念的萃取。希望未來能逐步將本研究計畫現階段協助複審委員進行專家推薦的作業，能進一步延伸至協助初審委員進行計畫審查的作業。並且能從「學術審查」的階段更進一步延伸，提供支援研究人員進行「學術研究」的功能。以下將針對本研究計畫完整的系統架構與每一個階段所採取研究方法做一完整的說明。

1. 系統架構

本研究計畫之系統架構，如圖一所示，主要分為三個部分，分別為「學術社群知識庫」的建置與

「專家推薦系統」的開發，以及「學術研究支援」的相關研究。每個部分皆包含數個系統模組，各模組的發展皆有其關連性，以下將簡述各系統模組的功能與其所採取的研究方法。另外「知識庫」的資訊與知識的內容包含專家學者的著作文獻、專長、計畫書以及領域知識本體等，提供所有系統模組的存取。外部資源部分，則包含 Wikipedia、其它 Internet 上的資源等。另外系統平台上的角色，則包含複審委員(Editor) 、初審委員（Reviewer）與研究人員（Researcher）等。

圖一系統架構 2. 「學術社群知識庫」的建置

在「學術社群知識庫」的建置部分，本研究計畫發展了一套專家學者的著作列表網頁搜尋

（Publication List pages Finder，PLF）模組[65]與引用文獻自動擷取（Automatic Citation Extractor，ACE）

模組[31]，其中 PLF 模組設計的主要概念是專家學者的著作列表網頁中，經常包含許多的引用文獻

Expert Recommender

Reviewers Editor

COI Finder

Expertise Knowledge

Database Internet

Publication List pages

Finder

Automatic Citation Extractor Chinese Name

Translator Author Name Disambiguator Domain Modeler

Publication

&

Proposal Database

Survey Topic Modeler Fuzzy Domain

Ontology Builder

Domain Ontology

Researchers Proposal Papers

Submit

Collaborative Intelligence

(9)

（Citations）資訊，而且會提及某特定研究學者，讓系統可以透過此線索自動地進行搜尋比對。使用者或者是系統自動輸入專家學者的姓名，便可以自動傳回所要查詢的專家學者的著作列表網頁資料。接著 ACE 模組將 PLF 模組所傳回的著作列表網頁資料，透過著作列表網頁的文件物件模型（Document Object Model）樣式，視覺樣式以及文字語意，並利用聚類器合成（Cluster Ensemble）技術[4][60]整合分析上述多樣性之特徵值，整合出一強健的聚類結果，再根據聚類結果，將網頁編碼成一字串序列（Web Page Sequence），並透過重複特徵樣式分析（Tandem Analysis）技術[18][22][55]自動化分析此字串序列，

使其具有自動化適應著作清單網頁樣版更新之能力，達到正確的擷取出引用文獻資料，而不會受網頁版本變更而影響擷取結果之目的。

由於在翻譯中文姓名的方法中存在許多不同種類的羅馬拼音系統，而且常會在翻譯的過程中添加與本身中文姓名不相關的文字。將專家學者的姓名正確地翻譯成英文，對於 PLF 模組在網際網路上搜尋專家學者的著述列表網頁將有很大的幫助。針對中文姓名翻譯的問題，本研究計畫採用先前的研究成果[34][74]，開發一個中文姓名翻譯器（Chinese Name Translator，CNT）模組，此模組透過中文姓名之翻譯分類的方法、查詢擴充技術、支援向量機（Support Vector Machine，SVM）與“發音＂與“距離＂這兩種特徵來設法取得可能的姓名翻譯。利用查詢擴展技術能夠有效且更精確的回收同時含有輸入人名與其英文翻譯的網頁，而利用支援向量機透過範例的訓練學習，來判別姓名翻譯候選的正確與否可減少使用啟發式法則時，因主觀判斷而產生的副作用。另外對於作者姓名混淆（Name Ambiguity）

的處理，本計畫延續以往研究的基礎並利用網路文件延伸引用文獻關係之研究[30][67]，發展了一套姓名排歧（Name Disambiguator，ND）模組，對於引用文獻之作者身分模糊不清的問題，提供了一個解決的方案。透過 PLF 結合 CNT 與 ND 模組，可以讓專家學者的著作列表網頁資料的搜尋能更為精準，

最後再結合 ACE 模組自動地擷取文獻引用資料，可以讓「學術社群知識庫」的建置工作能更為有效率。

3. 「專家推薦系統」的開發

「專家推薦系統」主要的目的是協助複審委員能找到適合的專家學者進行專題計畫的初審作業，

希望能透過系統的協助自動地提供較多且合適的專家學者審查名單，藉以增加審查名單的基底，降低每位初審委員審查的件數以提高審查效率。為此本研究計畫提出「應用眾人智慧於專家推薦系統」

[32][72]，每一位專家學者的著作標題，透過領域建模工具（Domain Modeler，DM）模組，標記每一位專家學者所屬的專長領域，並透過維基百科對應處理（Wikipedia Mapping）後，取得一些對應其研究主題的維基百科頁面標題（Wikipedia Page Title，WPT），而被查詢的專題計畫文件也以同樣的步驟進行處理，最後將領域建模後的知識存入專長知識庫（Expertise Knowledge Database，EKD）中。透過事先將專家學者與被查詢的文件進行分類，此方法可以有效改善傳統搜尋相關專家學者，需要將全部的專家學者候選人與被查詢專題計畫文件進行比較所耗費的時間。專家推薦（Expert Recommender，

ER）模組，則是藉由 DM 模組所建置的 EKD 知識庫，利用眾人智慧所建置出的語意網路來量測專家學者候選人與被查詢專題計畫文件之間的相似度，來判定專家學者是否符合初審委員的專長與資格，

並依據專家學者著作的質量來量化其權威性，最後得出一個分數並加以排序以決定初審委員的順序。

本研究計畫所發展的「專家推薦系統」具有另一個特色是考量利益衝突的問題，藉由社群網路

（Social Networks）的分析，挖掘專題計畫申請人之人際關係，如師生，同學等，以避免利益衝突。因此本研究計畫中加入了利益衝突搜尋（Conflict Of Interest Finder，COI Finder）模組[75]，在利益衝突問題的處理上，文件的蒐集與探勘是很重要的一環。但大部分的學者都忽略從網路上蒐集回來的資料大都不完整，其原因歸於人為疏失、個人隱私保護的問題，最重要的是我們不能保證網際網路裡面所蒐集到的資料是最完整的。基於這些原因，使得所有利益關係的人無法在所建立的學術協同合作網路偵測出來，這對於某些需要比較嚴謹的利益衝突偵測系統，遺失的衝突關係會導致出現一些不被預期的結果。本模組主要的目的是希望透過不完整的學術協同合作網路中，利用社群互動模式以偵測出可

(10)

能存在的利益衝突關係。在學術協同合作的環境裡的人際互動關係模式中，我們觀察到以下兩種現象：

（1）大部分的人喜歡與權位較高的學者合作在相同或是相似的研究領域；（2）人們經常透過朋友的朋友互相結識進而互相合作。本模組依據所觀察到的現象，提出特殊網路形態的假設，從現有的資料建出學術協同合作網路，再利用我們所觀察到的特殊網路形態推論出被遺失的關係。

4. 「模糊領域知識本體」的自動化建構

知識本體論（Ontology）扮演著機器之間對於知識傳遞及交換的媒介，包含了許多不同的領域

（Domain），能代表領域的特性一般稱之為概念（Concept）。近年來研究各領域間的概念相似度已有相當的突破，但對於 Ontology 的建構與維護的發展上則較為緩慢。近年來以網路社群共同維護的維基百科（Wikipedia）讓這個問題得以獲得進一步的突破，Wikipedia 將概念以類似樹狀結構的特殊資料結構儲存，以利日後概念的更動與轉換。本研究利用 Wikipedia 概念架構，首先萃取出文件標題的字詞後對應至 Wikipedia 的概念架構中，找出能表達該字詞意涵的概念。由於能表達的概念通常不只一個，所以我們提出將字詞與概念的關聯進行模糊推論來解決此問題，本方法不使用直觀的字詞表達形式，取而代之的是使用概念化方式找出一些意義相近的字詞背後所代表的概念。圖二為「Fuzzy Domain

Ontology」自動化建構模組完整的系統架構，所有運作主要分為三個階段，包含資料預處理階段、眾人智慧對應階段以及領域建構階段。

圖二「Fuzzy Domain Ontology」自動化建構-系統架構

第一階段為資料前置處理階段，本階段中提到兩個解析名詞及片語的模組，其中之一為詞性標注

（POS Tagger）模組，另一個為詞彙過濾（Lexical Filter）模組。本階段主要的目的是將文件的標題經過處理後，產出足以代表這些標題的名詞及片語詞組。

第二階段為 Wikipedia 對應階段，本階段主要目的是將前一階段所產出的名詞集合，對應至 Wikipedia 分類架構下的樹狀結構表。其中之一為 Wikipedia 頁面對應（Wiki Page Mapping，WPM）模組，另一個為 Wikipedia 類別對應（Wiki Category Mapping，WCM）模組。由於 Wikipedia 分類架構更新頻繁，為顧及各模組間資料存取的一致性，本系統將名詞集合對應出的結構表存入領域知識（Domain knowledge base），提供其他模組存取使用。另外，亦可在 Wikipedia 無預警斷線時，本系統仍能維持運作。WPM 所負責的工作是將名詞集合中的名詞逐一作為關鍵字，透過 Google 搜尋引擎對 Wikipedia 網站進行區域搜尋，以取得每一個關鍵字在 Wikipedia 中所對應的條目。本模組不直接使用 Wikipedia

(11)

的站內搜尋功能，而是透過 Google 搜尋引擎，主要是因為 Google 搜尋引擎能夠使用模糊比對找出名詞的變形或者相近的字詞，而 Wikipedia 搜尋引擎僅能精確比對每個字母。WCM 模組所負責的工作是將 Wikipedia 分類頁面的網址，對應出它的分類架構，找出類別、所屬類別及衍生類別。當解析完所有的名詞之後，上述所有產出的類別即為架構表，存入知識庫方便與其他模組共享。

第三階段為 Ontology 建置階段，在本階段的兩個模組主要的目的是進行 Ontology 的建置，其中之一為代表性概念搜尋（Concept Representer Finder，CRF）模組，另一為模糊性關聯產生（Fuzzy Relation Generator，FRG）模組。本階段將前一階段的名詞集合所對應的 Wikipedia 分類架構圖，經過處理後將產出字詞語所有概念架構出的不同領域之間的模糊關聯度。其中 CRF 模組所負責的工作是將數個分散於架構表中的數個名詞對應類別，利用樹狀結構的特性，找出它們共有的母類別，當找不到母類別或者子類別間相距太遙遠以至於母類別的階層數量龐大時，本模組訂立終止搜尋條件，用以阻止極度不相干的名詞組卻強迫搜尋關連概念的問題。FRG 模組負責將所有代表性概念依照演算法定義的字詞距離，整合成概念數量較少的領域集，由於一個概念可分屬不同領域，故每個概念都可計算出其與所有補同領域之間的字詞距離，亦稱為模糊關聯度。模糊性關聯度產出後，即可代表一組文章最相關的數個領域。

5. 學術研究支援相關研究

研究學者接觸新的研究領域前，經常需要研讀許多相關的文獻，但大量的閱讀經常讓研究學者得到資訊焦慮感，對於研究上反而產生負面的效果。Survey 格式的文獻經常由一些特定領域的研究學者針對該領域所進行的調查、整理與分析，最後呈現該研究領域的現況、趨勢以及相關延伸閱讀的文獻。

但學術研究時常會有新穎的研究議題或領域，Survey 格式的文獻無法及時產出來滿足研究學者的需求。因此本研究計畫提出 Survey Topic Modeling（STM）模組，透過關鍵字找出相關的文獻，再經由文獻的引用資訊找出更多相關的文獻，再透過 LDA 演算法統整及歸納出所屬的主題（Topic），亦稱之為概念（Concept）。圖三為 STM 模組完整的系統架構，所有運作主要分為三個階段，包含文章搜尋階段、資料預處理階段與建立主題階段，以下將簡要描述 STM 模組內各元件之功能與特性。

圖三 Survey Topic Modeling 系統架構

第一階段為文獻搜尋階段，本階段包含兩個模組，其中一個為文獻搜尋模組，另一個為文獻評分模組。透過文獻搜尋模組將研究學者所下的關鍵字，經過處理後取得所有與關鍵字有關的文獻集合，

接著透過文獻評分模組，將資料庫中的文獻，依照下面六大評分標準做出評等，包含是否為 Survey 文

(12)

章、是否為著名學者所著（通常採用的定義為 H-index）、是否為國際級的學術會議所發表、是否為開啟新學門的關鍵著作、是否有極高的被引用次數（通常採用的定義為 Citation count）。透過本階段中兩個模組處理後，將產出評等之後的文獻資料。

第二階段為資料預處理階段，本階段中包含兩個模組，其中一個為章節分類模組，另一個為關鍵字萃取模組。章節分類模組所負責的工作為擷取出文獻中的 Abstract、Introduction、Related Work、Key Words 四個最具代表性的段落中的文字。關鍵字萃取模組所負責的工作為解析出每個段落中字詞的詞性，也就是將一串句子解析出何者為名詞、何者為動詞、何者為形容詞等，透過文法性質與字詞前後對應關係的解析，將產出所有與這些特定領域的相關文獻有關的關鍵字。

第三階段為建立主題階段，其中一個為 LDA 解析模組，另一則為主題關聯計算模組。本階段所將處理的資料為前一階段所產出的關鍵字集合，經過處理後將產出該集合所能代表的主題，而當主題不只一個時，將依照相似主題與關鍵字集合之間的關聯度作出排序。LDA 解析元件所負責的工作為利用 LDA 演算法萃取每一篇文章的 Abstract、Introduction、Related Work、Key Words 四個段落中的代表關鍵字集，使用字詞在語意上的相似度距離做出主題的聚類，進而產出所有與該領域相關之主題。而每一個主題都由關鍵字集中的部分所建構，另外相同的關鍵字可出現在不同的主題中。主題關聯計算模組所負責的工作為計算所有主題中的關鍵字與該領域的相似度之總和。

伍、 結果與討論

本研究計畫目前已成功發展了一套智慧型的「專家推薦系統」以協助安排合適的專家學者，進行專題計畫的審查作業，此系統經國科會工程處資訊（二）學門使用驗證後，的確可增加可被推薦的專家學者數量，處理審查利益迴避問題，並有效降低平均每位初審委員之專題計畫審查數。針對智慧型的

「研究支援系統」研究上，本研究計畫提出 Survey Topic Modeling（STM）方法，透過文獻部分的文本內容進行主題與概念的萃取，希望能以此部分的研究為起點，能逐步將本研究計畫目前「學術審查」

的階段更進一步延伸，提供支援研究學者進行「學術研究」的階段。

未來希望能逐步將本研究計畫現階段協助複審委員進行專家推薦的作業，能進一步延伸至協助初審委員進行計畫審查的作業。建置一個智慧型的「學術審查平台」，將「違反學術倫理」的問題偵測功能加入，尤其近年來網際網路的蓬勃發展，抄襲問題日趨嚴重，如何防堵此類違反學術倫理的研究計畫偷渡過關，是推動公平審查機制需要努力的課題。另外「評分者一致性」的問題，所造成的系統性評分誤差，是另一項可以持續研究的方向。最後，如何能讓審查委員可以透過此平台的協助，自動取得可以評量研究計畫的相關資訊提供初審委員參考，讓初審委員有更多的時間去評估計畫書的創新性，

以確保最後計畫審查結果的品質，則是未來更為長久的目標。

本計畫之研究成果在學術研究方面，已有 2 篇 SCI/EI 期刊論文的發表，並多次藉由參與國際會議發表了 5 篇研討會論文，將本研究之成果推廣至國際，並與國際相關領域之研究人員進行心得及經驗交流，目前並有 15 項研發成果正在申請專利中。同時培育畢業之博碩士生共 5 人，並成功發展了一套

「專家推薦系統」協助安排合適的專家進行計畫審查，此系統經國科會工程處資訊(二)學門使用驗證後，的確可增加可被推薦的專家數量，處理審查利益迴避問題，降低平均每人之計畫審查數。

期刊（共 2 篇）

 Jung-Ying Wang, Cheng-Kang Liu and Hahn-Ming Lee, 2008, “MAPS: An integrated system for protein sequence annotation using SVM,” Journal of the Chinese Institute Engineers, vol. 31, no. 5. 計畫編號：NSC96-2628-E-011-084-MY3 (本期刊 EI 收錄；SCI 收錄)

 Chih-Ming Chen, Hahn-Ming Lee and Yu-Jung Chang, 2009, “Two Novel Feature Selection

(13)

Approaches for Web Page Classification,” Expert Systems with Applications: An International Journal, vol. 36, issue 1, pp. 260-272. 計畫編號：NSC96-2628-E-011-084-MY3 (本期刊 SCI 收錄)

會議論文（共 5 篇）

 Kai-Hsiang Yang, Tai-Liang Kuo, Hahn-Ming Lee and Jan-Ming Ho, "A Reviewer Recommendation System Based on Collaborative Intelligence," in Proceedings of the 2009 IEEE/WIC/ACM International Conference on Web Intelligence (WI 2009), Italy, Sept. 15-18 2009. 計畫編號： NSC96-2628-E-011-084-MY3

 Kai-Hsiang Yang, Chun-Yu Chen, Hahn-Ming Lee and Jan-Ming Ho, "EFS:Expert Finding System Based on Wikipedia Link Pattern Analysis," in Proceedings of the 2008 IEEE International Conference on Systems, Man and Cybernetics (SMC 2008), Singapore, Oct. 12-15 2008. 計畫編號： NSC96-2628-E-011-084-MY3

 Kai-Hsiang Yang, Hsin-Tsung Peng, Jian-Yi Jiang, Hahn-Ming Lee and Jan-Ming Ho, "Author Name Disambiguation for Citations Using Topic and Web Correlation," in Proceedings of the European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2008), Aarhus, Denmark, Sept. 14-19 2008. 計畫編號：NSC96-2628-E-011-084-MY3

 Kai-Hsiang Yang, Shui-Shi Chen, Ming-Tai Hsieh, Hahn-Ming Lee and Jan-Ming Ho, "CRE: An Automatic Citation Record Extractor for Publication List Pages," in Proceedings of the workshop (WMWA'08) of Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD-2008), Osaka, Japan, May 20-23 2008. 計畫編號：NSC96-2628-E-011-084-MY3

 Chiung-Wei Huang, Chih-Yuan Chien, Chun-Nan Hsu, and Hahn-Ming Lee, 2007, “Automatic Hypertext Table Understanding by using Logical Structure Description Algorithm,” accepted by 2007 International Conference on Innovative Computing, Information and Control (ICICIC-2007), Kumamoto, Japan, Sept. 5-7, 2007. (EI indexed)

專利（申請中共 15 件）

編號專利名稱申請

國別

申請

種類申請日申請號

0980106US

利用社群互動模式之利益衝突偵測系統與方法

CONFLICT OF INTEREST DETECTION SYSTEM AND METHOD USING SOCIAL INTERACTION MODELS

美國發明 2010/08/04 12/850597

0980028US

使用在可擴展性標示語言之串流路徑查詢機制系統與方法 STREAMING QUERY SYSTEM AND METHOD FOR EXTENSIBLE MARKUP LANGUAGE

美國發明 2010/07/23 12/842622

0980029US

引用文獻記錄擷取系統、方法及程式產品 CITATION RECORD EXTRACTION SYSTEM AND METHOD, AND PROGRAM PRODUCT

美國發明 2010/07/12 12/834757

0980098US 專家清單推薦系統以及方法 EXPERT LIST

RECOMMENDATION METHODS AND SYSTEMS 美國發明 2010/06/25 12/823181

0980098TW 專家清單推薦系統以及方法台灣發明 2010/01/26 099102048

0980106TW 利用社群互動模式之利益衝突偵測系統與方法台灣發明 2010/01/14 099100883

0980027US 預測熱門影片的系統及方法、及電腦程式產品 HOT 美國發明 2009/11/04 12/612436

(14)

VIDEO PREDICTION SYSTEM BASED ON USER INTERESTS SOCIAL NETWORK

0970092TW 一種結合同步及非同步知識傳播之系統與方法台灣發明 2009/09/21 098131778

0980028TW

使用在可擴展性標示語言之串流路徑查詢機制系統與方

法台灣發明 2009/08/04 098126158

0980029TW 引用文獻記錄擷取系統、方法及程式產品台灣發明 2009/08/03 098126042

0980027TW 預測熱門影片的系統及方法、及電腦程式產品台灣發明 2009/06/12 098119681

0980030TW 互動教學系統台灣發明 2009/06/10 098119335

0960104TW 一種利用網頁資訊翻譯中文姓名之系統及方法台灣發明 2008/01/16 097101631

0960105TW 一種利用引用文獻蒐尋特定領域專家之系統與方法台灣發明 2008/01/16 097101630

0960057TW 互動式學習系統台灣發明 2007/11/19 096143675

陸、參考文獻

[1] A.K.F. Lui, S.C. Li, and S.O. Choy, “An evaluation of automatic text categorization in online discussion analysis,” Seventh IEEE International Conference on Advanced Learning Technologies, ICALT 2007, pp.

205--209, 2007.

[2] A.-M. Boanerges, N. Meenakshi, D. Li, S. Amit, A. I. Budak, J. Anupam, and F. Tim. Scalable semantic analytics on social networks for addressing the problem of conflict of interest detection. ACM Trans.

Web, 2(1):1–29, 2008.

[3] AA Krizhanovsky, and F. Lin, “Related terms search based on WordNet/Wiktionary and its application in Ontology Matching,” in Proceedings of the 11th Russian Conference on Digital Libraries,2009, pp.

363-369.

[4] Alexander Strehl and Koydeep Ghosh, “Cluster Ensembles- A knowledge Reuse Framework for Combining Multiple Partitions,” Journal of Machine Learning Research, vol.3, pp. 583-617, 2002.

[5] B. Chidlovskii, U. Borgho®, and P. Chevalier: Towards sophisticated wrapping of Web-based information repositories. The 5th International RIAO Conference, Montreal, Quebec, Canada, pp.

123-135 (1997)

[6] B. Liu, R. Grossman, and Y. Zhai Mining: data records in Web pages. The ACM SIGKDD International Conference on Knowledge Discovery & Data Mining pp. 601-606 (2003)

[7] Bagga and B. Baldwin, “Entity-Based Cross-Document Coreferencing Using the Vector Space Model,”

In Proc. of the 17th International Conference on Computational Linguistics, Association for Computational Linguistics, pp. 79-85, 1998.

[8] C.-H Chang and S.-C Lui: IEPAD: Information extraction based on pattern discovery. The 10th International Conference on World Wide Web pp. 223-231 (2001)

[9] C.-N. Hsu and M.-T. Dung: Generating finite-state transducers for semi-structured data extraction from the Web. Information Systems 23(8), pp. 521-538 (1998)

[10] Chia-Ching Chou, Kai-Hsiang Yang, Hahn-Ming Lee, “AEFS: Authoritative Expert Finding System Based on a Language Model and Social Network Analysis,” in Proceedings of the 12th Conference on Artificial Intelligence and Applications (TAAI), 2007

[11] D. Blei, A. Ng, and M. Jordan, “Latent dirichlet allocation,” The Journal of Machine Learning Research,

(15)

vol. 3, pp. 993–1022, 2003.

[12] D. Leake, A. Maguitman and T. Reichherzer, “Topic extraction and extension to support concept mapping,” the Sixteenth FLAIRS, May 12-14, 2003, St. Augustine, Florida, USA.

[13] D. Milne, O. Medelyan, and I.H. Witten, “Mining domain-specific thesauri from wikipedia: A case study,” in Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence,2006, pp. 442-448.

[14] D. Pinto, A. McCallum, X. Wei and W. Bruce Croft: Table Extraction Using Conditional Random Fields.

The 26th ACM SIGIR (2003)

[15] D.M. Blei and J.D. Lafferty, “A correlated topic model of science,” Annals of Applied Statistics,Vol. 1, no. 1 , pp. 17--35, 2007.

[16] D.M. Blei, A.Y. Ng, and M.I. Jordan, “Latent dirichlet allocation,” The Journal of Machine Learning Research, Vol. 3 , pp. 993-1022, 2003.

[17] D.N. Milne, I.H. Witten, and D.M. Nichols, “A knowledge-based search engine powered by Wikipedia,”

in Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, 2007, pp. 445-454.

[18] Dina S. Gary B. and Justin T. “Tandem Repeats over the Edit Distance,” In Proceedings European Conference on Computational Biology, vol. 23, pp. e30-e35, 2006.

[19] E. Gabrilovich, and S. Markovitch, “Computing semantic relatedness using wikipedia-based explicit semantic analysis,” in Proceedings of the 20th International Joint Conference on Artificial Intelligence, 2007, pp. 1606-1611 .

[20] E. Gabrilovich, and S. Markovitch, “Wikipedia-based semantic interpretation for natural language processing,” Journal of Artificial Intelligence Research, 2009, vol. 34, issue 1, pp. 443-498..

[21] Evgeniy Gabrilovich and Shaul Markovitch, “Overcoming the Brittleness Bottleneck using Wikipedia:

Enhancing Text Categorization with Encyclopedic Knowledge,” in Proceedings of the 21st National Conference on Artificial Intelligence (AAAI), 2006, pp. 1301-1306.

[22] Ezekil F. Adebiyi, Tao Jiang and Michael Kaufmann, “An Efficient Algorithm for Finding Short Approximate Non-tandem Repeats”, Bioinformatics, vol. 17, supplement 1, pp.S5-S12, 2001

[23] G. G. Chowdhury, Introduction to modern information retrieval, London: Facet, 2004.

[24] G. Kossinets. Effects of missing data in social networks. Social Networks, 28(3):247–268, July 2006.

[25] G. Mann and D. Yarowsky, “Unsupervised Personal Name Disambiguation,” In Proc. of CoNLL-7, pp.

33-40, 2003.

[26] I. Muslea, S. Minton and C. Knoblock: A hierarchical approach to wrapper induction. The third annual conference on Autonomous Agents pp. 190-197 (1999)

[27] J.D. Thomas, “News and trading rules,” Ph.D. Thesis, Graduate School of Industrial Administration, Carnegie Mellon University, 2003.

[28] K. Nakayama, T.Hara, and S. Nishio, “Wikipedia link structure and text mining for semantic relation extraction,” presented at the Workshop on Semantic Search (SemSearch 2008) , Tenerife, Spain, 2008.

[29] Kai-Hsiang Yang, Chun-Yu Chen, Hahn-Ming Lee and Jan-Ming Ho, “EFS:Expert Finging System Based on Wikipedia Link Pattern Analysis,” in Proceedings of the 2008 IEEE International Conference on Systems, Man and Cybernetics (SMC), 2008.

[30] Kai-Hsiang Yang, Hsin-Tsung Peng, Jian-Yi Jiang, Hahn-Ming Lee and Jan-Ming Ho, “Author Name

(16)

Disambiguation for Citations Using Topic and Web Correlation,” in Proceedings of the European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2008), Aarhus, Denmark 14-19 Sept. 2008.

[31] Kai-Hsiang Yang, Shui-Shi Chen, Ming-Tai Hsieh, Hahn-Ming Lee and Jan-Ming Ho, “CRE: An Automatic Citation Record Extractor for Publication List Pages,” The 12th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2008), May 20-23, 2008, Osaka, Japan.

[32] Kai-Hsiang Yang, Tai-Liang Kuo, Hahn-Ming Lee and Jan-Ming Ho, "A Reviewer Recommendation System Based on Collaborative Intelligence," in Proceedings of the 2009 IEEE/WIC/ACM International Conference on Web Intelligence (WI 2009), Italy, Sept. 15-18 2009.

[33] Kai-Hsiang Yang, Ta-Wei Hung, Kun-Yan Chiou, Hahn-Ming Lee, and Jan-Ming Ho, 2006, “Web Appearance Disambiguation of Personal Names Based on Network Motif and Group Annexing Algorithm, ” The 2006 IEEE / WIC / ACM International Conference on Web Intelligence (WI 2006), Hong-Kong, China, December 18-22, 2006.

[34] Kai-Hsiang Yang, Wei-Da Chen, Hahn-Ming Lee and Jan-Ming Ho, “Mining Translations of Chinese Name from Web Corpora by Using Query Expansion Technique and Support Vector Machine,” 2007 IEEE/WIC/ACM International Conference on Web Intelligence (WI 2007), Silicon Valley, USA, Nov.

2-5, 2007.

[35] Kuhn, D. and Schauble, L. and Garcia-Mila, M, Cross-domain development of scientific reasoning, Cognition and Instruction, 1992

[36] L.C. Jain, Z. Chen, N. Ichalkaranje, Intelligent agents and their applications, Heidelberg ; Physica-Verlag, New York, 2002.

[37] M. Pei, K. Nakayama, T. Hara, and S. Nishio, “Constructing a global ontology by concept mapping using Wikipedia thesaurus,” in Proceedings of the 22nd International Conference on Advanced Information Networking and Applications - Workshops Applications, AINA,2008, pp. 1205-1210.

[38] M. Strube, and S.P. Ponzetto, “WikiRelate! Computing semantic relatedness using Wikipedia,” in Proceedings of the National Conference on Artificial Intelligence - Volume 2,2006, vol. 2, pp.

1419-1424.

[39] M.D. Harris, Introduction to natural language processing, Reston, Va.Reston Pub. 1985.

[40] M.H. Dunham, Data mining introductory and advanced topics, Upper Saddle River, N.J. Prentice Hall/Pearson Education, 2003.

[41] M.J.A. Berry, G.S. Linoff, Data mining techniques for marketing, sales, and customer relationship management, Indianapolis, Ind.: Wiley, 2004.

[42] N. Kushmerick: Wrapper induction: efficiency and expressiveness Artificial Intelligence. Artificial Intelligence 118(1-2):15-68 (2000)

[43] N. Matunda and O. Sylvia. The role graph model and conflict of interest. ACM Trans. Inf. Syst. Secur., 2(1):3–33, 1999.

[44] Nallapati, R.M. and Ahmed, A. and Xing, E.P. and Cohen, W.W., “Joint latent topic models for text and citations,” Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 542--550, 2008.

[45] P. Mutschke. Mining networks and central entities in digital libraries. a graph theoretic approach applied

(17)

to co-author networks. pages 155–166, 2003.

[46] P. Schonhofen, “Identifying document topics using the Wikipedia category network,” in Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence, 2006, pp. 456-462.

[47] P. Wang, J. Hu, H.J. Zeng, and Z. Chen, “Using Wikipedia knowledge to improve text classification,”

Knowledge and Information Systems, 2009, vol. 19, Issue 3, pp. 265-281.

[48] Pedersen, T. and Purandare, A. and Kulkarni, A., Name discrimination by clustering similar contexts , Proceedings of the Sixth International Conference on Intelligent Text Processing and Computational Linguistics, 2005

[49] R. Agrawal and R. Srikant. Privacy-preserving data mining. SIGMOD Rec., 29(2):439–450, 2000.

[50] S. Chawathe, H. Garcia-Molina and J. Hammer: The TSIMMIS project: integration of heterogeneous information sources. Journal of Intelligent Information Systems 8(2):117-132 (1997)

[51] Somnath Banerjee, “Boosting Inductive Transfer for Text Classification Using Wikipedia,” in Proceedings of the Sixth International Conference on Machine Learning and Applications (ICMLA), 2007 , pp. 148-153.

[52] T. Zesch, C. Muller, and I. Gurevych, “Extracting pexical semantic knowledge from Wikipedia and Wiktionary,” presented at Proceedings of the Conference on Language Resources and Evaluation (LREC), Marrakech, Morocco,2008

[53] T.L. Dean, J. Allen, J. Aloimonos, Artificial intelligence: theory and practice, Pearson Education POD, 2002.

[54] T.M. Mitchell, Machine learning, New York: McGraw-Hill, 1997.

[55] Thorsten Joachims, Tamara Galor and Ron Elber, “Learning to Align Sequences: A Maximum-Margin Approach,” Lecture Notes in Computational Science and Engineering, IISN 1439-7358, vol.49, 2006.

[56] W. Cohen, M. Hurst and L. Jensen: A flexible learning system for wrapping tables and lists in HTML documents. The 11th International World Wide Web conference (2002)

[57] Wiki. Available: http://zh.wikipedia.org/wiki/Wiki. [Accessed Dec. 18, 2009].

[58] Wikipedia, available at http://www.wikipedia.org/.

[59] X. Han, and J. Zhao, “Named entity disambiguation by leveraging wikipedia semantic knowledge,” in Proceeding of the 18th ACM conference on Information and knowledge management, 2009, pp. 215-224.

[60] Xiaoli Zhang Fern and Carla E. Brodley, “Solving Cluster Ensemble Problems by Bipartite Graph Partitioning,” In Proceedings of International Conference on Machine Learning, 2004.

[61] Y. Jin, Y. Matsuo, and M. Ishizuka. Extracting social networks among various entities on the web. pages 251–266, 2007.

[62] Y. Zhai and B. Liu: NET - A system for extracting Web data from flat and nested data records. The 6th International Conference on Web Information Systems Engineering (2005)

[63] Y. Zhai and B. Liu: Web Data Extraction Based on Partial Tree Alignment. The 14th International Conference on World Wide Web pp. 76-85 (2005)

[64] Y.M. Goh, M. Giessand, C. McMahon and Y. Liu, “From faceted classification to knowledge discovery of semi-structured text records,” Foundations of Computational Intelligence: Data Mining, Vol. 6, pp.

151-169, 2009.

[65] Yang, K.H., Chung, J.M., Ho, J.M.: PLF: A Publication List Web Page Finder for Researchers. In:

Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence, pp. 295–298 (2007)

(18)

[66] Z. Syed, T. Finin, and A. Joshi, “Wikipedia as an ontology for describing documents,” in Proceedings of the Second International Conference on Weblogs and Social Media,2008, pp. 136-144.

[67] 江建毅, “引用文獻之作者身分消歧-利用網路文件延伸引用文獻關係之研究,＂國立台灣科技大學資訊工程研究所碩士論文, 民國 95 年.

[68] 行政院國家科學委員會（民 98 年 4 月 23 日）。「行政院國家科學委員會補助專題研究計畫作業要點」【公告】。臺北市：行政院國家科學委員會。民 98 年 12 月 19 日，取自： http://web1.nsc.gov.tw/file2/INTRAFILES/announcement/dest//402881d02332ed0c01235e9792db0160/

1251704594737.doc

[69] 行政院國家科學委員會簡介（無日期）。民 98 年 12 月 19 日，取自：行政院國家科學委員會網頁：http://web1.nsc.gov.tw/ct.aspx?xItem=6477&CtNode=298&mp=1

[70] 周家慶, “基於語言模型及社群網路分析之權威專家搜尋系統,＂國立台灣科技大學資訊工程研究所碩士論文, 民國 96 年.

[71] 邱坤彥, “網際網路人名實體對應消歧-利用社會網路關係之鏈結基礎與內容基礎資訊,＂國立台灣科技大學資訊工程研究所碩士論文, 民國 96 年.

[72] 郭泰良, “應用眾人智慧於專家推薦系統,＂國立台灣科技大學資訊工程研究所碩士論文, 民國 98 年.

[73] 陳威達, “使用查詢擴展技術及支援向量機由網路資料集挖掘中文姓名翻譯,＂國立台灣科技大學資訊工程研究所碩士論文, 民國 96 年.

[74] 陳俊佑, “基於維基百科鏈結分析為主之專家搜尋系統,＂國立台灣科技大學資訊工程研究所碩士論文, 民國 97 年.

[75] 陳秋宜, “利用社群互動模式在資料不完整的人際網路裡偵測利益衝突,＂國立台灣科技大學資訊工程研究所碩士論文, 民國 98 年.

(19)

柒、國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價值（簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性）、是否適合在學術期刊發表或申請專利、主要發現或其他有關價值等，作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■ 達成目標

□ 未達成目標（請說明，以 100 字為限）

□ 實驗失敗

□ 因故實驗中斷

□ 其他原因說明：

本計畫原先所擬定的「智慧型新聞資訊整合暨社群網路分析系統」研究，

雖然國科會審查計畫之迫切需求性，於計畫執行至第二年時，將原先所規劃的研究技術，轉而導向至「國科會專題計畫審查專家推薦系統平台」的研究。但本研究仍與計畫原先規劃所使用的核心技術相同，僅在應用層面上不同。符合本計畫原先設定的目標，並達到預期的效益與成果。

2. 研究成果在學術期刊發表或申請專利等情形：

論文：■已發表 □未發表之文稿 □撰寫中 □無專利：□已獲得 ■申請中 □無

技轉：□已技轉 □洽談中 ■無其他：

(1) 完成及發表數篇國內外研討會會議論文。

(2) 成功發展了一套「專家推薦系統」協助安排合適的專家進行計畫審查，此系統經國科會工程處資訊(二)學門使用驗證後，的確可增加可被推薦的專家數量，處理審查利益迴避問題，降低平均每人之計畫審查數。