• 沒有找到結果。

中文文本超鏈結自動建構方法之研究

N/A
N/A
Protected

Academic year: 2021

Share "中文文本超鏈結自動建構方法之研究"

Copied!
5
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫成果報告

中文文本超鏈結自動建構方法之研究

The Study of Automatic Constr uction of Hyper links

in Chinese Texts

計畫編號:NSC 89-2213-E-002-067

執行期限:88 年 08 月 01 日至 89 年 07 月 31 日

主持人:陳信希

國立台灣大學資訊工程學系

計畫參與人員:

丁永偉

一、中文摘要 近幾年來,文本數位化的現象日漸普 遍。大量數位化的資料透過網際網路,傳 播各處。數位圖書館,電子書,...,也提供 不同型態、素材的資料,大量機讀資料捶 手可得。如何輔助使用者在浩瀚的資料堆 中,快速準確的找到所要的資料,是研究 的重點。資訊檢索和瀏覽是目前使用者擷 取資訊的兩大模式,由於瀏覽模式對使用 者來說具有簡單方便,一目瞭然的特性, 很適合用在創作電子書、建立數位化圖書 館、以及網頁製作等應用上。在這種情況 下,我們有必要針對如何建立一個好的 ” 導覽架構”,作進一步的探討。本計畫報告 提出文本間超鏈結的自動建立的方式。 關鍵詞:中文語言處理,自然語言處理, 超文本建構,資訊檢索,語意模型,瀏覽 系統。 Abstr act

Digitizing is very common recently. Much digitized information is disseminated elsewhere through Internet. Digital libraries, electronic books, and so on provide multi collections. How to help users extract information from large-scale digitized database quickly and accurately becomes an important issue. Information retrieval and browsing are two basic models for acquiring information. Browsing is simple and convenient for users, thus the model is useful for many applications such as electronic books, digital libraries, web pages, and so on. How to develop an elegant browsing model is worthy of studying. This project report presents the automatic construction of

hyperlinks in Chinese texts.

Keywor ds: Browsing System, Chinese

Language Processing, Hypertext

Construction, Information Retrieval, Natural Language Processing, Semantics Model.

二、緣由與目的 由於近幾年來網際網路的蓬勃發展, 愈來愈多的文件以 HTML 的格式呈現在網 路上,而文件與文件之間也可以藉由超鏈 結(Hyper-link)互相串連,形成一個文件 網路,因此一份文件可以藉由超鏈結連結 到其它相關網頁,使用者可以藉由一份文 件的超鏈結無限延伸視野。諸如此類的情 形如數位圖書館( Digital Library ) 、電子百 科全書、新聞鏈結 …等,愈來愈多的應用 使得我們必需正視文件之間鏈結該如何建 立。 由於使用者由一份文件瀏覽至下一篇 文件時,是一種 ”導覽模式”,也就是文件 的產生者建立一些超鏈結,使用者藉由這 些超鏈結的導引,閱讀相關的其它文件。 由於這種、”導覽行為”的日漸普遍,我們 覺得有必要對這種導覽行為,以及如何建 立一個好的 ”導覽架構”,作進一步的探 討。 由於現在流通於網路上的文件數以萬 計,並且隨時在不停地更動,要如何能夠 對大量的資料進行快速有效的分析,建立 合宜的導覽架構,並且能反映文件動態的 增刪,也是一個刻不容緩的議題。 在文件鏈結系統的建構上,有兩個最 主要的問題,第一個是如何找出文件中可 能的鏈結點,第二個是這些鏈結點該連結 到那裡; 整體來說,這牽涉到使用者所感興

(2)

趣的主題以及如何建議使用者去尋找相關 的資料,在後面的部分,我們會以 “實體” 這個詞彙來表示一個能的鏈結點。 自動鏈結技術所必須直接面對的問題 就是實體的辨識,包括偵測與標定邊界, 以及在不同文件的實體間建立鏈結,而如 何偵測一篇文件中的重要實體,實體的重 要性與文件主題有沒有關係,都是我們要 分析的問題。另外我們也會分析文件類別 與實體型態,並且找出常常出現的實體型 態,以決定這些重要的實體型態對於文件 鏈結的影響程度。 由於我們不能預測所要處理的文件數 量與型態,因此,我們大概也無法期待能 由所要處理的文件中訓練得出什麼資訊, 所以一個強健又能保持一定精確度的實體 辨識流程是我們所要致力完成的。而文件 鏈結的精確率與回收率也是影響系統效能 的關鍵,我們也會去分析它,並嘗試找出 影響它的幾項原因。 若要建立文件之間的鏈結,首先必須 決定鏈結所必須扮演的角色,一般來說, 若是以文件相似程度為鏈結存在與否的標 準,則鏈結的存在意味著兩篇文件有相同 或相似主題,若是以詞與文件的相似程度 為鏈結存在的依據,則鏈結的存在便代表 著文件的主題就是該詞代表的意義。M. Agosti 等人 [ Agosti, Colotti & Gradenigo, 91] 曾提出過文件之間可以建立 4 種鏈 結,即文件與文件鏈的鏈結(D-D links)、索 引點與所引點的鏈結(T-T links)、文件與索 引點的鏈結(D-T links)以及索引點與概念 間的鏈結(T-C links),我們在此提出一個以 建立實體( Entity )與實體之間的鏈結方 法,而鏈結的存在表示有兩個相同實體存 在,或者兩個實體的表現行為相似。 三、結果與討論 3.1 文件分析部分 一篇文件的實體通常是一篇文件的基 本元素。使用者可由這些實體拼湊出整份 文件所要表達的內容,因此使用者也很有 可能要對這些實體做更深一層的認識,因 此,選擇實體,就變成幫助使用者選擇相 關資訊的一個重要步驟。那到底什麼樣的 字串該被當作實體呢?在我們的考量之 下,只要是使用者有可能感興趣的地方, 都應該被視為實體。在這樣的考量之下, 我們發現一些事實,人名、組織名及事件 名幾乎都會是使用者有興趣的地方。又如 地名在大部份的文件中,會是使用者感興 趣的資訊。其它的一般名詞,在不同類型 的文件中,有著不相同的情況,例如:”石 頭” 在旅遊類的文件中似乎不會引起使用 者興趣;但是若在礦物類,就很有可能引 起使用者興趣。再如: ”天王星” 在物理 或天文類的文件中幾乎是很顯眼的字串, 不管 ”天王星” 是文件主要內容還是隨便 提提。 有了以上的瞭解,我們覺得如果要選 擇實體必需先對文件類別做分類,再根據 文件類別選擇某些類別的鏈結點當作鏈結 處。在我們的模型中,我們根據中研院 Sinica Corpus,得到了 67 類的文件類別, 以及由梅家駒等人所編之“同義詞詞林”, 得到了 1364 類的實體類別,而每一類的文 件,都有對應的實體類別串列,對於任一 類別的文件只有對應於該類別的實體串列 的字串才有可能成為可能的鍊結點。 就如前面所提,由於人名、組織名與 地名在大部份的文件都是重要的實體,並 且根據實驗分析,人名、組織名與地名在 文件中也站有相當高的比例,因此,以專 門的方法來辨識這些實體是絕對有必要 的,因此我們使用了中文人名辨識模組、 英譯人名辨識模組、地名辨識模組與組織 名辨識模組與 N-gram 模組來辯識這些常 出現且重要的實體。 除此之外,我們也提出了一個辨識其 它實體的方法,我們期待這樣能使得在實 體的辨識上能夠更為完備。 3.2 導覽部份 由於目前資料的流通非常快速,因 此,系統應該要能對資料的變動作出適當 的反應且及時的反應,才可以讓使用者的 檢索發揮最大效率。 為了能夠即時且正確的建立鏈結,系 統的作法是將所有實體概念資料存放在實 體資料庫內,一開始時,所有的實體概念 的狀態(status)都是 0 (SLEEP),也就是沒有 任何的鏈結,此時,系統會逐一檢查每一

(3)

個實體概念看看是否有其它的實體概念擁 有相同的實體字串,如果有,就把擁有相 同 實 體 字 串 的 實 體 概 念 設 定 為 活 動 1 (ACTIVE) 狀態,這些處於活動狀態的實體 就可以互相鏈結,在系統將實體概念設定 為活動狀態的同時,也意味著系統必須修 改實體所在的檔案,使得該實體在檔案中 呈現高亮度,並可接受使用者點選。 對於之後新加入的文件,系統會先去 辨識文件中的實體,形成實體概念,之後, 系統採取相同的作法,也就是去撿查新的 實體概念是否有在實體資料庫中有沒有對 應的其它實體概念,如果有,變去更動相 關實體概念的狀態與修改文件。 對於文件的刪除,系統的作法是,在 刪除一篇文件時,同時也會刪除處於這篇 文件中的所有實體,此時系統必須對該文 件中的所有實體作一次撿查,如果一個實 體處於沉睡狀態,則系統可以忽略,如果 處於活動狀態,意味著有其它的也處於活 動狀態的實體也會鏈結到本篇文件,這時 必須在去檢查會鏈結到本篇文件的實體數 目,如果不只一個,系統還是可以忽略, 如果只有一個,系統必須將該實體狀態設 定為 0 (SLEEP) ,以免該實體鏈結到一個 不存在的文件。 對於暫時隔離文件的做法,與刪除文 件的處理流程接近,但是系統必須保存一 份背份,以作為將來回復之用。 根據我們實際使用導覽系統的經驗, 過多的鏈結點對使用者來講除了有一種不 舒服的感覺外,更糟糕的是出現密度較低 的 鏈 結 點 會 被 密 度 高 的 鏈 結 點 所 “遮 蔽”,也就是使用者自然而然不會去注意密 度較低的鏈結點,這對於使用者來說,無 疑是一項資訊的損失。因此,系統在標示 鏈結點的時候,也會考慮到鏈結點密度的 因素。 當一個實體被系統標示為鏈結點 後,下一個相同的實體至少要離該鏈結點 500 Bytes 才會被標示為鏈結點。 待文件分析部份完成後,就可以進入 導覽模式瀏覽文件了部份。使用者可以由 任一起始文件開始,藉由系統選擇的鏈結 點往下繼續瀏覽其它文件了。 瀏覽其它文 件的方式是由使用者點選一個鏈結點,之 後系統便會將與此鏈結點相關的文件呈現 給使用者。本系統是多重鏈結模式,所以 呈現的文件數目可能不只一個,一般的情 況,使用者首先看到的不是文件本身,而 是文件名稱、文件類別、文件摘要等相關 資訊。由於文件之間是透過相同的實體產 生鏈結,也就是說,若文件之間存在著鏈 結,那表示文件內都有提到同一個實體 ( 日期、人、地、組織、思想、理論 ) 而 兩份文件之間也有可能透過數個不同的實 體互相鏈結。 3.3 實驗與分析 本實驗是針對新聞類的文件所作的分 析。我們收集了 30 篇關於體育的新聞稿來 作分析,新聞來源包括 民生報、聯合報以 及中國時報,每一篇報導都先經過處理, 將不必要的 HTML 標頭去除,而每一篇文 件的平均大小為 2.3 K bytes,大約 1000 字。 實體擷取部份,實體回收率:所有分 析文件內共有個 382 實體,只有其中 302 個被 標 示出。 因此 實體回 收率為 79.0 %。實體精確率:系統共針測到了 395 個 實體,但只有其中 302 個是真正的實體, 因此實體精確率為 76.4 %。鍊結點部份, 鏈結點回收率:所有分析文件內應該要有 個 184 個鏈結點,系統共找出其中 162 個。因此鏈結點的回收率為: 88.0 %。鏈 結點精確率:系統共建議了 178 個鍊結點, 但其中只有 162 個是正確鏈結點。因此, 鏈結點的精確率為: 91.0 %。實體搜尋部 分,此部份是根據正確的鏈結點所做的分 析,也就是系統所找出的 162 個正確的鏈 結點。以我們的正確答案來看,這 162 個 正確的鏈結點的鏈結數總和為 437 個,也 就是說平均一個鏈結點可以鏈結到 2.69 個 相關實體,而系統建議的鏈結數總和為 373 個,而鏈結點對真正相關實體的平均回收 率是 85.3 ﹪,也就是有 14.7 ﹪的實體因 為實體字串與鏈結點字串不同而無法產生 鏈結。 對於鏈結到不相關實體的原因,我們 做了更深入的分析:大部分的情況是實體 之間擁有相同的字串但畢竟是有所不同 的。我們根據無法百分之百回收相關實體 的鏈結點作了進一步的分析。無法百分之

(4)

百回收相關實體的鏈結點共有 38 個,這 38 個鏈結點的鏈結數總為 125 個,也就是 說平均一個鏈結點應該要鏈結到 3.29 個相 關實體,而系統建議的鏈結數總共為 57 個,而鏈結點對真正相關實體的平均回收 率是 46.5 ﹪。而這 38 個鏈結點中,其中 是組織名的有 28 個,地名有 6 個,人名 的有 2 個,比賽或會議有 2 個。 對於實體回收率部分,雖然有 88﹪的 實體都能被回收,但是我們仍然發現只有 實體字串不同,就很難產生鏈結,僅僅是 期待由文件之內找到相同實體的不同外型 (實體字串)似乎會遇到許多的瓶頸,尤 其文件的來源不同,對一個實體的描述方 法可能差異很大,因此,由語言處理上的 技術去搜尋一個實體的特徵,再去比較這 些實體特徵的相似性,應該是有必要的。 由於這裡所分析的是新聞的文件,即 使這些新聞的來源不同(中國時報、聯合 報、民生報)但是對於各種實體的表達方 式仍有相當的一致性,所以系統對於實體 的搜尋仍能保持相當的正確率與回收率。 不過可以發現到的是,即使對於實體的描 述一致,但是實體也會有簡稱與縮寫,這 裡所碰到的主要問題也是在簡稱與縮寫部 分,完全不同的描述方法在這裡似乎影響 性並不是很大。 四、計畫成果自評 整體而言,研究內容與原計畫所列的 工作項目完全相符,並已經達成預期的目 標,所提出的整合系統適合在學術期刊或 會議上發表。 五、參考文獻

Agosti, M.; Colotti, R.; and Gradenigo, G. ( 1991) “A Two–Level Hypertext Retrieval Model for Legal Data,”Proceedings of SIGIR, pp. 316-325. Agosti, M.; Crestani, F. and Melucci, M. (1996)

"Design and Implementation of a Tool for the Automatic Construction of Hypertexts for Information Retrieval," Information Processing and Management, 32(4), pp. 459-476.

Agosti, M.; Crestani, F.; and Melucci, M. (1997) "On the Use of Information Retrieval Techniques for the Automatic Construction of Hypertext,"

Information Processing and Management, 33(2), pp. 133-144.

Allan, J. (1995) Automatic Hypertext Construction, Ph.D. Dissertation, Department of Computer

Science, Cornell University.

Allan, J. (1996) "Automatic Hypertext Link Typing,"

Proceedings of the ACM Hypertext'96 Conference, Washington, DC, pp. 42-52.

Allan, J. (1997) "Building Hypertext Using Information Retrieval," Information Processing and Management, Vol. 33, No. 2.

Baron, L., Tague-Sutcliffe, J., and Kinnucan, M.T. (1996) "Labeled, Typed Links as Cues When Reading Hypertext Documents," Journal of the American Society for Information Science, 47(12), pp. 896-908.

Chen, Hsin-Hsi; Ding, Y.W. and Tsai S. C. (1998) “Named Entity Extraction for Information Retrieval,” Computer Processing of Oriental Languages (accepted).

Chen, Hsin-Hsi; Ding, Y.W.; Tsai C. J. and Bian, G. W. (1998) “Description of the NTU System Used for MET2. ” Proceedings of 7th Message Understanding Conference.

Chen, Hsin-Hsi and Lee, J.C. (1996) “Identification and Classification of Proper Names in Chinese Texts,”Proceedings of COLING96, pp. 222-229 Green, S.J. (1997) Building Hypertext Links in

Newspaper Articles Using Semantic Similarity, Technical Report, Department of Computer Science, University of Toronto.

Green, Stephen J. (1997) “Automatic Link Generation: Can We Do Better Than Term Repetition?”

Proceedings of WWW Conference.

Mahesh, Kavi (1997) “Hypertext Summary Extraction for Fast Document Browsing," AAAI Spring Symposium on Natural Language Processing for the World Wide Web, pp.95-103. Silverstein, Craig and Pedersen, Jan O. (1997)

“Almost-Constant-Time Clustering of Arbitrary Corpus Subsets,” Proceedings of ACM SIGIR, pp.60-66.

Shin, Dongwook; Nam , Sejin and Kim, Munseok (1997) “Hypertext Construction Using Statistical and Semantic Similarity,” Proceedings of ACM International Conference on Digital Libraries, pp.57-63.

Tebbutt, John (1998a) "User Evaluation of Automatically Generated Semantic Hyperlinks in a Heavily Used Procedural Manual," http://www.itl.nist.gov/div894/894.02/works/paper s/ user_eval.html.

Tebbutt, John (1998b) "Finding Links," Proceedings of the ACM Hypertext'96 Conference, http://www.itl.nist.gov/div894/894.02/works/paper s/ finding_links.html.

Thistlethwaite, P. (1997) "Automatic Construction and Management of Large Open Webs," Information Processing and Management, 33(2), pp. 161-173. 梅家駒; 竺一鳴; 高蘊琦; 殷鴻翔 (1993) 同義詞

(5)

行政院國家科學委員會補助專題研究計畫成果報告

※※※※※※※※※※※※※※※※※※※※※※※※※※

※      ※

※ 

   

中文文本超鏈結自動建構方法之研究

 

   ※

※      ※

※※※※※※※※※※※※※※※※※※※※※※※※※※

計畫類別:個別型計畫

計畫編號:NSC89-2213-E-002-067-

執行期間:88 年 08 月 01 日至 89 年 07 月 31 日

計畫主持人:陳信希

執行單位:國立台灣大學資訊工程學系

中 華 民 國八十九年十月二十二日

參考文獻

相關文件

Corollary 13.3. For, if C is simple and lies in D, the function f is analytic at each point interior to and on C; so we apply the Cauchy-Goursat theorem directly. On the other hand,

Corollary 13.3. For, if C is simple and lies in D, the function f is analytic at each point interior to and on C; so we apply the Cauchy-Goursat theorem directly. On the other hand,

As Alexander Graham Bell said, “Great discoveries and improvements invariably involve the cooperation of many minds.” That is why this competition is so unique and

CeBIT is the world's largest trade fair showcasing digital IT and CeBIT is the world's largest trade fair showcasing digital IT and5. telecommunications solutions for home and work

– The futures price at time 0 is (p. 275), the expected value of S at time ∆t in a risk-neutral economy is..

¾ To fetch a Web page, browser establishes TCP connection to the machine where the page is and sends a message over the connection asking for the

The fuzzy model, adjustable with time, is first used to consider influence factors with different features such as macroeconomic factors, stock and futures technical indicators..

The purpose of this thesis is to propose a model of routes design for the intra-network of fixed-route trucking carriers, named as the Mixed Hub-and-Spoke