• 沒有找到結果。

自動摘要之結果

4 系統實作與實驗結果與分析

4.4 自動摘要之結果

本研究採用中央研究院詞庫小組所研發之中文斷詞系統[1]進行斷詞 與斷句等預處理。其中,句子的定義不僅是句號,也可能還包括逗號、

分號、問號及驚嘆號。因此句子的長度並不會過長,如此一來,句子中 雜訊就不會過多,且產生的摘要也較符合真實情境(例如,某些句子僅某 些部份是重要的,如果整句選為摘要反而容易失焦)。我們從資料集取出 一則新聞及ICIM2006的某一篇論文進行比較。表 4-3、表 4-5為資料集 中之某則電子新聞之全文及論文作者所撰寫的摘要;表 4-4、表 4-6則為 本研究從這兩篇文章所萃取出之摘要。可明顯看出,所獲得之摘要雖不 若人工摘要之完整與優雅,但足以成為該文件的指示性(indicative)摘要,

供使用者快速知曉其主要概念。

表 4-3 新聞全文範例

加入華納唱片快1年的蕭亞軒,新專輯的發行已延宕到3月,不料有周刊報導,她 的發片計劃可能遙遙無期,因為華納嫌她太難「搞」,早悄悄轉賣她的唱片約。

8日華納發表聲明否認,並表示對這張專輯寄予厚望,是只許成功的力作。

目前在紐約錄音兼度假的蕭亞軒,新專輯的發行又要延宕?據壹周刊報導,她的 發片日遙遙無期,其實不是先前媒體所說的預算太少,而是她和經紀公司「大熊星」

都太難搞了,與華納唱片鬧不愉快。

此外,壹周刊還指出,她預計在3月發行的新專輯,華納決定將發片案丟出去。

表 4-4 新聞 20%摘要範例

加入華納唱片快1年的蕭亞軒,她的發片計劃可能遙遙無期,因為華納嫌 她太難「搞」,8日華納發表聲明否認,並表示對這張專輯寄予厚望,目前在 紐約錄音兼度假的蕭亞軒,其實不是先前媒體所說的預算太少,

表 4-5 ICIM2006 作者撰寫摘要

本研究提出以文件摘要來進行特徵字選取,以替代現行之維度縮減法。此 方法可減少向量的維度,以及選取出較具代表性的特徵字;經實驗證實,以文 件摘要來進行特徵字選取可有效提升中文文件分類的精確率(precision)和回收 率(recall)(比傳統以 TFIDF 進行特徵向量選取要佳);且依訓練文件數量的多 寡,有不同的改善效果,在訓練文件較少時效果愈顯著。顯示本研究所提方法 有相當的穩健性及可靠性。另外,當以類別為向量單位時其分類效果又比以文 件為向量單位的結果要好;此呼應模式選取準則中的正確性與精簡性(或優雅 性)。最後,本方法所衍生的好處是同時產生文件的指示性(indicative) 摘要,

可供使用者快速知曉其文件之概念。

表 4-6 ICIM2006 自動摘要範例(前 500 字)

以自動摘要為基礎之中文文件分類器蕭文峰 劉凱帆屏東商業技術學院 資訊管理系所 屏東商業技術學院資訊管理系所 wfhsiao@mail.npic.edu.以替代現 行之維度縮減法。以及選取出較具代表性的特徵字;經實驗證實,以文件摘要 來進行特徵字選取可有效提升中文文件分類的精確率(precision)和回收率

性)。Yahoo!奇摩股市將網頁連結依行業別(電子、金融、化學、航運、…)加以 分類、購物網站依商品型態(家電、禮品、玩具、精品、男裝、女裝、…)分類 等。貝氏(Bayesian)[9]、決策樹(decisiontree)[23]、決策法則(decisionrule)、迴歸 法(regressionmethod)、Rocchi 法(Rocchiomethod)、類神經網路(neuralnetworks)、

支援向量機法(supportvectormachine)、k 個最鄰近法(k-nearestneighbor)[17]等。

相關文件