• 沒有找到結果。

大部分的語音文件摘要方法多半由文字文件摘要方法延伸而來[Murray et al

N/A
N/A
Protected

Academic year: 2021

Share "大部分的語音文件摘要方法多半由文字文件摘要方法延伸而來[Murray et al"

Copied!
2
0
0

加載中.... (立即查看全文)

全文

(1)

149

5. 結論與未來展望

過去幾十年,有關自動文件摘要的研究主要仍著重於文字文件摘要;一直到1990 年後期,由於影音多媒體技術的進步與成熟,才慢慢開始有語音文件摘要的研 究。大部分的語音文件摘要方法多半由文字文件摘要方法延伸而來[Murray et al.

2005;Hirohata et al. 2005;Zhu and Penn 2005];直至最近幾年,才紛紛有新的語音 文件摘要方法開始被提出來[Kikuchi et al 2003;Furui et al. 2004;Wu et al. 2005;陳 怡婷 et al. 2005;Chen et al. 2006;Maskey et al. 2006]。相較於一般傳統的文件摘要 方法,本論文提出另一種模型架構來從事語音文件摘要,它同時亦適用於一般文 字文件摘要。

文件摘要可分為摘錄式與非摘錄式摘要。本論文旨在探討摘錄式中文廣播新 聞文件摘要方法。我們提出一個機率生成架構,它能將文句生成模型與文句事前 機率緊密地耦合,用於摘錄式摘要之重要文句選取。將待摘要文件中每一文句被 視為一個機率生成式模型,藉以預測文件生成的機率。我們提出二種機率生成模 型:隱藏式馬可夫模型與關聯性模型的結合,以及詞層次混合模型,使用於文件 摘要處理,並且經由一連串的實驗分析與討論,證明所提之方法的確可以較其他 基礎實驗的摘要方法得到更高的正確率。同時,經由初步的實驗及實驗結果,可 以看出所提之機率生成架構於語音文件摘要的運用,仍有很多進步及研究的空 間,例如模型參數的設定、訓練。

此外,吾人也初步將文件結構特徵、語音辨識信心度與某些語音聲韻特徵使 用於文句事前機率的估測。通常在一篇文件中,每一文句的重要程度都不相同;

但是,其於文件中的重要程度資訊並沒有辨法直接取得。因此,嘗試以文句中某 些摘要特徵的資訊來估測其事前機率值;我們於中文廣播新聞語料上進行一連串

(2)

150

的實驗,由初步的摘要結果證明某些摘要特徵,確實可以很好的估測出文句的事 前機率分佈,同時提昇機率生成式摘要模型的摘要正確率。

基於這樣一個機率生成架構下,往後的研究將可對文句生成模型作進一步的 改進,例如:1. 對於目前現有文句生成模型的改進,像是對文句機率分佈作更 準確的估測,詞層次主題混合模型與關聯性模型的結果;2. 發展強健性之機率 生成式模型參數的訓練與估測方式。亦或是提出其他的文句生成模型,以及其他 文句事前機率的估測方法。其他研究方向,諸如進一步於機率生成式模型架構 下,考慮摘要文句的重覆性及文句間關聯性的問題,如最大臨界相關摘要方法的 概念;在選取重要文句時,除了考慮文句與文件之間內容的相關程度外,亦考慮 文句與已摘錄之文句之間的相似度。

參考文獻

相關文件

Tunnel excavation works on the support of the simulation analysis, three-dimensional finite element method is widely used method of calculating, However, this

Keywords:Micro-array Biological Probes, E-Beam Evaporator, Active RFID, Laser Annealing, Bioelectric Impedance, Thin Film Transistor

step5-3: 數字格式可設定摘要的頁碼格式(再此將摘要頁頁碼格式設定為羅馬數 字小寫),另外還要設定 頁碼編排方式,選擇 起始頁碼 為

其中,擷取網頁標題、網址列和摘要時,我們是以 HTML 專屬 Tag 的特性 來節錄所需要的部分。將 GOOGLE 的搜尋結果頁面用 Notepad 打開,即可看到 網頁是以文字和

In this study, we report the preparation of metal Zinc (Zn) and Zinc oxide (ZnO) nanoparticles using an evaporation/condensation aerosol process via horizontal tube furnace

The files of the JPEG2000 format of the images from the camera are transmitted to the remote user; therefore the remote control and remote image store are obtained.. Key Word :

The core of the verification environment is the fault injection tool that can inject the transient and permanent faults into VHDL models of digital systems at chip, RTL and

Visual 的中文意思是「視覺化」,顧名思義,Visual basic 是一套視覺化的程 式開發工具。在設計程式的過程中,對於使用者的介面,設計師可以用直覺化