• 沒有找到結果。

網路中文文件自動摘要

N/A
N/A
Protected

Academic year: 2021

Share "網路中文文件自動摘要"

Copied!
11
0
0

加載中.... (立即查看全文)

全文

(1)

網路中文文件自動摘要

摘要 傳統搜尋引擎自動摘要設計方式 多半截取網頁的前幾十個字元,作為輔 助性說明。惟觀其所截取的文句,多無 什意義,非但無法提供充足的內文判斷 資訊,更甚者,或可能誤導了使用者。 本研究剖析網路文件標記特性及中文 字詞詞性,研發跨主題的自動摘要系 統。經使用者實際測試後,在網頁內容 判斷、摘要可讀性,以及選用意願的評 估項目,優於目前一般搜尋引擎的自動 摘要設計。經交叉比對分析,發現年齡 在 20 歲(含)以上者,以及學歷愈高者 (研究所以上),有極顯著偏好本研究 的自動摘要之傾向。是否透露不同年齡 層與學歷程度對摘要有不同的需求,則 有賴未來繼續研究。 關鍵詞:自動摘要、中文斷詞、網路超 文件、資訊檢索、搜尋引擎 一、前言 傳統上,一般學術性質的期刊, 多半會提供簡短的摘要,作為輔助使用 者瞭解論文大意或判斷是否進一步閱 讀全文的參考。近年來由於全球資訊網 (World Wide Web)的普及,帶動許多上 網的人口,也改變了一般人的閱讀及寫 作習慣,這使得各式各樣電子型式的資 料大量出現,網際網路儼然成為前所未 有的知識大寶庫。為協助使用者找尋資 料,各種搜尋引擎(search engine)也積極 扮演著導路的角色。然而,當使用者下 達一個搜尋指令時,搜尋引擎動輒回報 數百筆,甚至數千筆以上的資訊。五彩 繽紛的網頁內文,原多未附含摘要敘 述,有些搜尋引擎雖然已有自動摘要之 設計,惟其設計方式多半截取網頁的前 幾十個字元,作為輔助性說明,由於網 路文件有其特殊的寫法,觀其所截取的 文句,多無什意義,非但無法提供充足 的內文判斷資訊,更甚者,或可能誤導 了使用者。 文件自動摘要雖已是自然語言處 理(Natural Language Processing, NLP) 的重要標的之一。然而對於所擷取語句 的可讀性、前後文句的連慣性,卻一直 難有重大突破。對於網路文件自動摘要 的研究,並未見著墨。即是目前風行的 搜尋引擎,也僅著重於搜尋機制的改 良,對於搜尋結果的自動摘要呈現,多 僅視為可有可無的附屬功能。使用者對 於查詢結果仍需逐筆連結進入各網頁 瀏覽。在頻寬有限的網路環境裡,超連 結使用之頻繁,對於網路傳輸之負擔不 蒂雪上加霜。因此引發我們開發可讀性 網路文件摘要系統的動機,希藉此配合 黃純敏 資訊管理系副教授 國立雲林科技大學 斗六/台灣 huangcm@mis.yuntech.edu.tw 吳郁瑩 資訊管理系碩士班研究生 國立雲林科技大學 斗六/台灣 wuyy@tomail.com.tw

(2)

搜尋引擎的檢索結果,自動展現足以表 達網頁內文的簡短摘要,一則節省使用 者逐筆進入網頁瀏覽的時間花費,更可 減少大量不必要的資訊傳遞,提升網路 傳輸效率。對二十一世紀資訊社會的發 展,應有正面的助益。 二、研究主題 基於資訊化時代對於網路文件閱 讀習慣日益形成之需求,本研究希望藉 由傳統自動摘要製作技術,研究其實施 於中文及網路超文件的可行性。主要的 研究議題有三項: (一) 西文自動摘要的方法於中文文 件之適用性。 (二) 傳統文件自動摘要方法於網路 超文件之適用性。 (三) 網路超文件自動摘要之實用 性。 三、文獻探討 3.1 自動摘要定義 自動摘要是指將萃取組合文章內 文重要字句的過程予以自動化之謂。摘 要的目的在於產生一個言簡意垓的文 件描述,它應比文件標題更具敘述性, 但又短的可讓人一眼就明瞭。因此,一 個好的摘要應該能夠有效反應原文所 要傳述的重要意旨。至於摘要的長度 Lancaster(1991) 則 認 為 沒 有 明 確 的 限 制。因為其中牽涉到的因素頗多,包 括:原始文件的長度、原始文件所表達 主題的複雜度及多樣性、原始文件對不 同組織不同個人的重要性、原始文件獲 取的容易度、成本以及目的等等。依 此,自動摘要之精神,除節省時間人力 外,其結果應仍不脫『言簡』『意垓』 之效。 3.2 自動摘要相關研究 語言文字是人類社會中表達意念 最主要的工具。對一篇文件而言,其撰 寫內容往往是針對某一特定主題,所以 文中會存在許多足以代表該主題的關 鍵詞彙,這些關鍵詞彙可視為該文件的 重要資訊。因此,關於自動摘要的研 究,也多是基於上述理念,進行萃取原 始文件中重要句子的過程(Luhn, 1958; Edmundson, 1964)。一般認為評估句子的 重要性可考慮:字彙在文中所出現的頻 率、關鍵詞彙出現的位置、與上下文的 關 係等 (Edmundson, 1969; Rush et al., 1971)。是以多年來學者的研究,多著 重於向量統計或語意分析的技巧,藉以 萃 取 文 中具 有代 表 性的句 子 ( Paice, 1990; Salton, 1983, 1989, 1996)。近年來 因為全球資訊網的興起,資訊檢索技術 也 已 逐 漸 被 應 用 到 探 討 超 連 結 (hyperlink) 自 動 產 生 的 適 用 性 (Allan, 1996; Salton, 1997)。 3.3 中文資料處理 中文文字不若西文文字有明顯的 空白可以將句子中的各個詞彙(term)區 分開,因此,長久以來中文關鍵詞擷取 一直是資訊檢索領域發展的瓶頸。而中 文斷詞最大的問題就是斷詞組合的岐 義性(ambiguity)、複合詞研究以及未知 詞問題(Chiang, et.al.1992)。國內進行中 文字詞分析,以陳克健、黃居仁為首的 中 央 研 究 院 中 文 詞 知 識 小 組 成 效 最 著,其研究成果包括中文詞庫[八萬目 詞]、平衡語料庫、中文語料庫、以及 各種技術專書等。

(3)

已進行的中文字詞分析,可歸納 為三類:詞庫比對法、文法剖析法及統 計 法 (Chen, et al., 1993; Ho, et al., 1993) 。 詞 庫 比 對 法 主 要 利 用 現 有 詞 庫,比對輸入的文件,擷取出文件中出 現在詞庫的字詞。此種作法若有現成詞 庫則操作簡單,更可依據詞性作為關鍵 詞篩選參考,惟對於新生詞彙則無法辨 識。文法剖析法是利用自然語言處理技 術及過濾技術,篩選出文件的關鍵詞彙 組。惟中文語法變化過多且標準制定不 易,使得此種作法處理甚為困難。至於 統計法需透過大量文件的分析,取得足 夠的統計參數(詞頻、門檻值)後,再 擷取滿足參數的語彙。此種作法可有效 擷取新字詞,惟所產生之詞彙甚多,並 無法滿足需詞性對照分析者。 3.4 網路超文件處理 網際網路上所流通的文件,其上 所使用的語言為超文件標記語言(Hyper Text Markup Language, HTML)。它是一 種標示網路文件格式的標準語言。基本 上 HTML 的文件不過是一般普通的文 字檔,再加上一些標記,用以展現有關 字體字形的變化、圖片的設置或是一些 超 連 結 。 當 瀏 覽 器 經 由 網 路 接 收 到 HTML 文件後,不但會將文字與圖檔資 料顯現,同時也會依照標籤,將內容以 適當的方式呈現。全球資訊網的魅力在 於,所有的網頁都是遵守共同的 HTML 標準,使得多采多姿的網頁能在各種平 台呈現一致的特色。當全球資訊網躍居 為資訊傳遞的主要舞台時,網路文件也 自然成指數等級的增長。近年來應用資 訊檢索的技術,建置了為數可觀的搜尋 引擎,網路文件處理成為新興的研究課 題(Sonnenreich and Macinta, 1997)。搜尋

引擎雖然積極扮演著導路的角色,然 而,當使用者下達一個搜尋指令時,搜 尋引擎動輒回報數百筆,甚至數千筆以 上的資訊。五彩繽紛的網頁內文,原多 未附含摘要敘述,有些搜尋引擎雖然已 有自動摘要之設計,惟其設計方式多半 截取網頁的前幾十個字元,作為輔助性 說明,由於網路文件有其特殊的寫法, 觀其所截取的文句,多無什意義,非但 無法提供充足的內文判斷資訊,更甚 者 , 或 可 能 誤 導 了 使 用 者 。 若 分 析 HTML 結構,其中不乏與本文主題相關 者如:<TITLE>, <META>, <H?>等,如 以將這些標籤作為判斷句子重要與否 的線索,依標籤的重要程度,給予不同 的比重,應是不錯的嘗試。 3.5 摘要評估 摘要的評估是一件困難且主觀的 工作。對於自動摘要的評估,學者多從 系統研發成本與成果效益雙方面進行 分析。在成果效益上,多半針對自動摘 要的可讀性,要求使用者提供意見。學 者 的 研 究 指 出 , 以 使 用 者 直 覺 式 (intuitive) 的評估方式雖然簡單,但其 不 一 致 、 主 觀 與 非 量 化 是 其 缺 點 (Brandow, et al.1995)。Edmundson(1969), Salton, et al.(1997)所進行的自動摘要評 估,使用者的反應也都是評估的重要指 標。以使用者進行評估,無法避免的必 然會參雜人為主觀因素於其中,因使用 者背景及需求的不同,所做出來的評 估,也未必能真正的正確。然而,至今 似乎仍無法有一個正確而又客觀的自 動摘要評估法。

(4)

四、研究架構 自動摘要的相關研究在西方已行 之有年,國內在這幾年才開始投入這方 面的研究,而網路超文件自動摘要的研 究則屬一較新的範疇。圖一(見附錄)為 本 研 究 系 統 完 整 架 構 圖 。 系 統 是 在 Microsoft Windows NT 4.0 Server 平台環 境下,使用 PC Pentium 等級的機器,配 備 AMD K6-2-233 的 CPU、64MB 記憶 體,以及 10.1GB 的硬碟,採用 Visual C++ 6.0 程式語言發展。研究中用來產 生自動摘要的樣本,係由人工隨意選取 網路上不限類別之超文件,共計收錄有 醫療、旅遊、圖書館資訊、同志議題、 生命教育、女權主義、音樂、電腦、教 育改革等十多個類別,字數在一千餘字 到萬餘字不等的超文件,共計 300 篇。 摘要呈現的方式,配合搜尋引擎的查詢 結果一併呈現。 在圖一中包含兩個子系統:搜尋 引擎子系統與自動摘要子系統。自動摘 要子系統為本論文研究標的,希望藉由 自動摘要的呈現,增進使用者在搜尋引 擎的查詢效益。圖二為自動摘要子系統 的處理流程圖。在自動摘要子系統中, 由於網路超文件格式不同於一般的文 件資料,加上中文文字不若西文文字有 明顯的空白區隔,所以在實際進行自動 摘要處理流程之前,需先經過文件標籤 剖析及斷詞處理。

4.1 超文件標籤分析子系統

超文件標籤分析子系統的目的

為去除超 文件中 多餘的 標 籤及 符

號。本系統初期僅以中文字為實作

對象,因此英文字亦在排除之列。

由於超文件標籤格式種類繁多且複

雜,需輔以標籤線索資料檔,以記

載標籤所具有的特殊意義,用來當

作辨識重要句子之線索。除此,對

於文件中重要句子出現的位置亦予

記錄,例如:出現在第幾段的第幾

句。在最後重組句子時,上述記錄

均用得到。圖三為此子系統的架構

圖。

4.2 中文斷詞子系統

中文文件在字與字之間,不像

西方文字有明顯的空白可以區分,

故在中文文件的資訊處理上,斷詞

是一道不可避免的程序。圖四為斷

詞子系統架構圖。

本研究所採用的詞庫為,中央

研究院所建構的八萬目詞庫。該詞

庫共收錄有 78410 目詞。一個句子

裡 ,動詞 與 名詞 通 常是句子的 核

心;在自動摘要文獻探討中,亦不

乏採用名詞與動詞當作重要詞彙的

例子(Barzilay,1997)。因此在本研

究中,僅將句子中的名詞與動詞,

視為與內文最相關之重要詞彙。但

有 些不重 要 的名 詞 亦予以惕除 ,

如:定詞 (一些,諸多,許多….)、

量詞 (一幫人,一堆雪,一筆…)、

方 位詞 ( 以外 ,以 上 ,當中 ,方

面…)、代名詞 (我們,妳,汝輩,

吾人…)、姓氏 (吳,張,諸葛…)

等。故在進行斷詞之前,需先進行

詞庫的過濾,作為斷詞子系統比對

時的參考。經過此一處理程序,詞

庫原有 78410 個詞,篩選後剩餘

46243 個詞。

(5)

過濾詞後,接著建立詞庫雜湊

表(Hash Table)以加快詞庫比對速

度。若數個詞彙有著相同的首字,

便使用鏈結串列(Link List)儲存,以

減少記憶體的浪費。在斷詞方面,

本研究採用詞庫比對結合長詞優先

法來進行斷詞作業,如比對不到則

視為未知詞,不加以處理與記錄。

在斷詞的過程中,仍需計算文件中

每個詞彙出現的次數,以及記載詞

彙所出現的位置,以作為自動摘要

子系統計 算句子 重要性 權 值之 依

據。

4.3 自動摘要子系統 由於網路上的文件數量龐雜且增 加快速,系統運作方式應考慮到即時 性,本研究乃採統計方式配合上述超文 件標籤線索檔,作為自動摘要產生的方 法。圖五為自動摘要子系統架構圖。 在自動摘要子系統中,依序可分為六個 步驟進行。 1. 計算重要詞彙得分: 評估準則有四 (1)頻率關鍵詞法 名詞與動詞是一個句子的核心, 因此,在這個部份,文件中每一個名 詞與動詞在本研究中皆視為重要詞 彙,而詞彙的重要程度,則視該詞彙 在文件中所發生次數多寡。 (2)標題關鍵詞法 網路超文件,呈現標題的方式, 可 能 藉 由 <TITLE> 、 <H?> , 以 及 <FONT SIZE> 等三種方式。<TITLE> 是使用在超文件的最開頭,主要在說 明文件的主題。本研究假設每一篇超 文件都能有一個良好定義的主題,因 此給予在主題中的重要詞彙,權重為 5。<H?>標籤有六種等級,從 <H1> ~ <H6> ,<H?> 標籤使用在文件內部, 藉以區分文件中的大小標題,由於 <H5> ~ <H6>字體大小並沒有特殊 之處,也較少有人使用來當做標題, 本研究不予處理。本研究給予所有 <H1>~<H4>標籤相等的權重 3。有些 超文件使用 <FONT SIZE> 來呈現其 主題,其範圍由 1~7,預設值為 3, 也就是一般呈現的字大小是 3,所以 本研究大膽假設 <FONT SIZE> 之值 大於 3 者為具有標題的作用,給予權 重 3;而<FONT SIZE> 小於等於 3 者,表示比較不重要的資訊,無需做 特殊處理。 (3)位置法 一般超文件中,多半是以<P>標籤 來區分句子段落。根據學者評估, Mead 資 料 中 心 的 自 動 摘 要 系 統 Searchable Lead,只是簡單的摘錄文件 中的前 60、150 或 250 個英文詞彙, 便 達 到 了 90% 以 上 的 可 接 受 度 (Brandow, et al.,1995)。故在本研究中 給予文件的第一段 10 的權重。 (4)標籤線索法 超文件提供了某些特殊標籤,用 以呈現其他重要的資訊。<META>標 籤能記錄超文件一些額外的資訊,例 如:作者所給予文件的關鍵字,故本 研究對於出現在<META>標籤中的詞 彙給予權重 5。其他相關標籤線索 如:<B>、<I>、<EM>、<STRONG>、 <BLINK>、<BIG>等所加強表示的詞 彙,多半是作者認為比較重要的詞 彙,故給予其權重 2。 2. 計算句子的得分 t m l l S n k k S TP PW TW SCORE ij ij

     1 1

(6)

經由第一個步驟的分析計算後, 句子的得分可以很輕易的藉由句子 中重要詞彙權重的加總而來。句子得 分計算公式如下: 上述 Sij表示文件中第 i 個句子的 第 j 個子句,TPk代表句子中第 k 個 詞彙的重要性分數,n 是指 Sij子句 中重要詞彙的總數,PWSij表示第 Sij 個子句的位置權重,TlWt為詞彙 Tl 的標籤 t 權重 (Wt),m 表示 Sij 子句 中加權詞彙的總數,最後 SCORESij 即為 Sij子句的總得分。 3. 根據得分數將句子排序 第三個步驟則是將文件中所有句 子,依得分高低降冪排序。 4. 根據擷取原則摘錄句子 由文獻得知,摘要的字數長度並無一 定的標準。本研究採資訊科學大辭典 中對附錄及簡訊性質之資料摘要字 數的建議,決定摘錄的總長度為 125 個字(250 字元)左右。為顧及句子的完 整性,所摘錄的句子將以完整句子為 擷取依據。 5. 按文件順序排列句子 最後一個步驟,是將摘錄出的句 子,按照文件原本的順序組合,使成 為一篇可讀性的摘要文件。並將製作 出來的摘要與原來的超文件資料之 間,建立鏈結關係,便可提供給搜尋 引擎,輔助查詢結果的呈現。 6. 摘要結果呈現 完成了上述自動摘要的製作後, 所 產 生 的 摘 要 便 可 與 搜 尋 引 擎 結 合,作為搜尋引擎查詢結果回報時的 提示訊息。以下列示一些本研究自動 摘要與傳統搜尋引擎自動摘要,針對 同一篇文章所產生的不同摘要結果。 文件主題: 藥品在人體內的旅 行 本研究 自動摘要: 經口服的藥品進入 全身血液循環以 前,會先到肝臟旅 行,有些藥就在此地 被肝臟的酵素破壞 了一大半,藥學上稱 為「肝臟首渡效 應」,會使藥品的療 效打折扣。研究藥品 在人體內的旅行過 程的學問叫做藥品 動力學,藥品動力學 可以幫助我們探討 藥品在體內的行徑 與人體處理藥品的 經過,包括吸收、分 佈、代謝、排出等。 傳統搜尋引擎 自動摘要: [生活用藥常識]藥品 在人體內的旅行本 文作者:和信(原孫 逸仙)醫院藥劑科主 任/陳昭姿 我們 吃下去的食物,...

(7)

五、研究成果與未來發展 本研究以網際網路中文超文件為 摘要主體,經過超文件剖析系統、中 文斷詞系統的分析處理,最後運用統 計方 式計算,擷 取出文件的 摘要字 數。為了驗證本研究自動摘要的適用 性,採取了線上問卷的評估方式,針 對兩種不同摘要(一般搜尋引擎自動 摘要,本研究自動摘要),評估網頁 內容容易判斷程度、可讀性、字數適 當性,以及願意選擇之摘要等項目。 線上 問卷採登載 各校電子佈 告系統 (BBS) 方式,由受測者主動填寫問卷。 經過十天的開放時間,共計有 194 位受 測者上線填寫問卷,其中一份為無效 問卷。問卷資料分三部份做分析:一 為受測者基本資料、二為受測者選填 各項評比項目的百分比,最後為各基 本資料與摘要評估項目的交叉分析。 測驗使用者滿意度的評估方式。評估 結果,在摘要判斷網頁內容的容易程 度,及摘要可讀性上,獲得 60%以上 的認同;在最後摘要的選擇上獲得 54% 的認同,高於選擇傳統搜尋引擎摘要 的 29%。這樣的結果,說明本研究在 系統適用性上實優於目前一般搜尋引 擎。惟經交叉比對基本資料與摘要評 估項目發現,年齡與學歷對摘要各項 評估中,有顯著的差異 (顯著值 P < 0.05)。尤其年齡在 20 歲(含)以上者, 以及學歷愈高者(研究所以上),在所 有評估選項中,都極顯著偏好本研究 的自動摘要。是否透露不同年齡層與 學歷程度對摘要有不同的需求,則有 賴未來繼續研究。 文件主題: 甘蔗 本研究 自動摘要: 甘蔗為禾本科植物,甘 蔗 SaccharumsinensisRoxB ,拉丁學名 「Saccharum」是指糖 或甜的意思, 「Sinensis」即中國, 指甘蔗產於中國。嵇含 作干蔗,謂其莖如竹竿 也,這就是甘蔗的名 源。甘蔗渣中含有對於 小鼠艾氏癌和腫瘤 -180 有抑制作用的多 糖類等藥理作用。 傳統搜尋引擎 自動摘要: [蔬果養生]甘蔗本 文作者:中國醫藥學院 中國藥學研究所教授-邱年永 &... 文件主題: 工商時報新聞 本研究 自動摘要: 【記者梁玉立台北報 導】為加速金融改革, 統合金融、證券、保險 事業的監理事權,行政 院長蕭萬長今天將宣 佈一重大訊息,將在行 政院之下,成立獨立的 「金融監理委員會」或 「金融總署」,該單位 主要將由現行央行金 檢局、財政部金融局第 六組、財政部證期會等 相關單位組成,將直屬 於行政院,至於該單位 首長是由財政部長兼 任,或是另外有專職首 長,則將另作討論。 傳統搜尋引擎 自動摘要: 中時電子報∣ 中國時 報∣ 工商時報∣ 中 時晚報∣ 新聞專輯∣ 新聞檢索∣ 即時新聞 ∣ 新聞攝影 工商時 報 焦...

(8)

總括而言,本研究有下列幾項優 點:1. 較容易判斷網頁內容,2. 可讀 性較佳,3. 自動摘要產生之速度快(文 章字數在二千字以內,產生速度約 2 秒),4. 節省製作成本,5. 可應用於 各種不同類別文件。惟在發展上為判斷 詞性,仍受限於現有詞庫,以致新詞仍 無法納入,如此一來,極有可能忽略了 文件中有用的資訊。此外,本研究純粹 以統計方式擷取句子,在句子意義考量 上,難免有所缺失,若能在統計方法之 外,輔以人工智慧的方法,或改用其他 相關演算法,或許能夠找出文章中真正 的重要句子,更是未來值得探討的的方 向。 參考文獻

[1] Allan, J. (1996). Automatic Hypertext Link Typing. Hypertext ’96, The

Seventh ACM Conference on

Hypertext (pp. 42-52). New York:

Association for Computing Machinery. [2] Barzilay, Regina & Elhadad, Michael.

(1997). Using Lexical Chains for Text Summarization. available at http://www.cs.bgu.ac.il/summarization-test.

[3] Brandow, R., Mitze, K. & Rau, L. F., (1995). Automatic Condensation of Electronic Publications by Sentence Selection,Information Processing &

Management 31(5),pp.675-685.

[4] Chen, et al., (1993). Some Distributional Properties of Mandarin Chinese – a Study based on the Academia Sinica Corpus. In

Proceedings of the First Pacific Asia

Conference on Formal &

Computational Linguistics. , pp. 81-95.

[5] Chiang, et al., (1992). Statistical Models for Word Segmentation and Unknown Word Resolution. In

Proceedings of COLING V 92, pp.

123-146.

[6] Edmundson, H. P. (1964). Problems in Automatic Abstracting.

Communications of the ACM .7(4),

pp.259-263.

[7] Edmundson, H.P. (1969). New Method in Automatic Extracting. Journal of the Association for Computing Machinery.

16, pp.264-289.

[8] Ho, et al. (1993). Using Syntactic Markers and Semantic Frame Knowledge Representation in Automated Chinese Text Abstraction.

In Proceedings of the First Pacific Asia

Conference on Formal &

Computational Linguistics. , pp.

122-131.

[9] Lancaster, F. W. (1991). Indexing And Abstracting In Theory And Practice.

Ann Arbor: Gushing-Malloy Inc. [10] Luhn, H. P. (1958). The Automatic

Creation of Literature Abstracts. IBM

Journal of Research and Development.

2(2), pp.159-165.

[11] Paice, C.D. (1990). Constructing Literature Abstracts by Computer : Techniques and Prospects., Information

Processing & Management

26(1),171-186.

[12] Rush, J.E., Salvador, R. & Zamora, A. (1971). Automatic abstracting and indexing. II. Production of indicative

(9)

abstracts by application of contextual inference and syntactic coherence criteria. Journal of the American

Society for Information Science. 22(4),

pp.260-274.

[13] Salton, G & McGill, M.J. (1983).

Introduction to Modern Information

Retrieval,New York:McGraw-Hill,

inc.

[14] Salton, G. (1989). Automatic Text

Processing-the Transformation,

Analysis and Retrieval of Information

by Computer. Reading, MA:

Addison-Wesley Publishing Co. [15] Salton, G., Allan, J., Singhal, A. (1996).

Automatic Text Decomposition and Structuring. Information Processing &

Management,32(2),127-138.

[16] Salton, G. et.al. (1997). Automatic Text Structuring and Summarization.

Information Processing &

Management,33(2),193-207.

[17] Sonnenreich, Wes and Macinta, Tim (1997). Web Developer.com Guide to

Search Engines. New York: John

(10)

附錄: 超文件

(

含摘要

)

資料庫 使用者 使用者介面 自動摘要 子系統 搜尋引擎子系統 查詢指令 查詢結果

(

含摘要

)

摘要文件 超文件 資料庫

圖一:系統完整架構圖

網路超文件輸入 超文件分析子系統 中文斷詞子系統 自動摘要子系統 自動摘要輸出 詞庫+斷 詞規則 各種摘要擷 取方法 去除不必要 的資訊,留下 有用資訊 圖二:自動摘要架構圖 超文件分 析作業 原始超 文件 處理後之 資訊 超文件標籤 線索資料檔 圖三:超文件標籤分析子系統架構圖

(11)

中文斷詞子系統 1. 斷詞處理 2. 詞彙發生次數計算 詞彙資訊 詞彙過濾子系統 中研院八萬目詞庫 名詞及動詞 詞庫 超文件分析子系 統產生之資訊 圖四:中文斷詞子系統架構圖 1. 發生次數 2. 出現位置 3. HTML 標籤線索 重要詞彙檔 自動摘要子系統 1. 計算重要詞彙得分 2. 計算句子得分 3. 根據得分數將句子排序 4. 根據擷取原則摘錄句子 5. 按文件順序排列句子 摘要文件 圖五:自動摘要子系統架構圖

參考文獻

相關文件

(The New York Times)、 《華盛頓郵報》(The Washington Post)、 《英國金融時報》(The Financial Times)、 《日本產經新聞》(産経

三十一、 履約保證金應由廠商以現金、金融機構簽發之本票或支票、保付

4.經中央目的事業主管機關認定符合之種苗 業登記證、符合農業發展條例第3條規定 之農民或農民團體證明文件、具備蘭花產 業經營事實之事業單位證明、具備食用蕈

摘要: 本文第一作者係台灣工業與應用數學會 (TWSIAM) 副理事長, 從事工程數 學教育二十餘年, 發現工程師不甚了解張量, 數學家不熟悉莫耳 (Mohr) 圓,

李佳芸 保險金融管理系 商業與管理群 已報到 陳昶霈 保險金融管理系 商業與管理群 已報到 陳錫建 保險金融管理系 商業與管理群 已報到 潘學恩 保險金融管理系

林旻柔 保險金融管理系 商業與管理群 已完成網路報到,且收到考生畢業證書 王美晴 保險金融管理系 商業與管理群 已完成網路報到,且收到考生畢業證書

商科科主任 洪玉珍 生命教育融入該科教學活動及宣導 工科科主任 游鈺輝 生命教育融入該科教學活動及宣導 設計群科主任 吳漢宗 生命教育融入該科教學活動及宣導 普通科行政科召

商科科主任 洪玉珍 生命教育融入該科教學活動及宣導 工科科主任 游鈺輝 生命教育融入該科教學活動及宣導 設計群科主任 吳漢宗 生命教育融入該科教學活動及宣導 普通科行政科召