• 沒有找到結果。

文字文件內容除了提供文字訊息作為重要語句選取依據之外,語句中更包含 文法(Grammar)、語意(Semantic)以及結構(Structure)等資訊,皆可視為重要的特徵。

不同於文字文件,語音文件內容可能會因辨識錯誤或語句邊界定義等問題,使得 語句文法、語意以及結構等資訊相對較缺乏,但語音文件卻含有豐富的韻律特徵

(Prosodic Features),如語者在說話時發音的長短快慢、語氣的抑揚頓挫以及高低 起伏等。因此若將這些語言學、聲韻學以及文件結構等資訊加以善用,相信有助 於提升節錄式語音文件摘要的效能。

5.1.1 結構特徵(Structural Features)

 語句位置(Sentence Location)

對於新聞報導而言,當主播在播報一則新聞時,會對其大綱或是主題先行描 述以吸引聽眾注意。因此可能因語句位於文件中越前面的位置,其重要性越高。

 語句長度(Sentence Length)

計算語句中的詞個數作為語句的長度,透過整篇文件長度對語句長度進行正 規化(Normalized)。當語句的長度越長,可能包含較多或是越重要的內容,因此越 為重要。

5.1.2 詞彙特徵(Lexical Features)

 雙連語言模型分數(Bigram Language Model Score)

𝑁連語言模型(Ngram Language Model)是自然語言處理常用到的方法,該模型 基於一種假設,第𝑛個詞的出現僅與前面𝑛 − 1個詞相關,而一個𝑁連語言模型的 機率表示通常由最大相似度(MLE)來估測。對一個語句的重要性估測是透過計算 在語句中所出現的詞之乘積。由於計算量過於龐大,通常採用二連(Bigram)與三 連(Trigram)。

 正規化雙連語言模型分數(Normalized Bigram Language Model Score)

為了避免在計算時因語句長度的影響,透過該語句長度將其雙連語言模型分 數進行正規化並作為另一項特徵。

 專有名詞(Named Entities)個數

根據專有名詞字典(Lexicon)計算語句中詞與字典重複的數量,主要想法是含 括越多專有名詞的語句越可能為重要語句。而專有名詞則包含公司名稱、 地點、

人名以及時間等。

 停用詞(Stop Words)個數

計算語句中所包含停用詞的數量,如中文詞的“了”、“的”等詞,以及英文詞 如“a”、“the”等詞,即使出現的頻率很高,但通常不具有太多資訊,因此在檢索過 程中經常被濾除,不列入搜尋的考慮範圍。

5.1.3 韻律特徵(Prosodic Features)

 音高(Pitch)

一般語者在敘述一件事情時,會以說話的高低起伏、抑揚頓挫來強調說話的 內容以吸引聽者的注意,語者表達自身的感覺使得對方接受到強調的訊息,因此 音高可視為一種語音中重要的資訊。

 能量(Energy)

能量可用來表示語者說話音量的大小,經常被視為一種可利用的重要資訊。

一般語者在特別強調一件事情或是敘述重點時,會刻意地提高音量來表示強調關 鍵字或是說話的內容以希望引起聽者的注意。

 音框長度(Duration)

類似於語句長度,語句越長所包含的資訊越多,而語句的音框長度代表語者 說該語句的時間長度,因此說話時間越長的語句其包含的資訊亦越多。

 頻譜峰(Peak)與共振峰(Formant)

共振峰被定義為“聲譜中的頻譜峰”,差異在於母音(Vowel)有共振峰的結構,

在母音發音較為清楚的音節(Syllable),共振峰會較高。共振峰是用來描述聲學共 振現象的一種概念,是決定語者特徵的主要因素。在有效頻寬範圍中會有約五個 共振峰,從低頻率至高頻率依序排列為第一共振峰(F1)、第二共振峰(F2) 、第三

共振峰(F3)、第四共振峰(F4)以及第五共振峰(F5),而通常以 F1、F2、F3 較為明 顯,因此通常以這三個共振峰為代表。然而主播若在表達某語句較為字正腔圓,

希望聽眾可以聽得清楚時,該語句可能為重要語句,共振峰會較高,若是主播含 糊帶過的語句則可能為非重要語句,其共振峰會較低。

5.1.4 關聯特徵(Relevance Features)

通常為來自不同文件摘要模型所產生的摘要特徵分數,如以統計值為基礎的 向量空間模型(Vector Space Model)、以圖論為基礎的馬可夫隨機漫步(Markov

Random Walk)以及以機率生成模型為基礎的語言模型(Language Model)等。

相關文件