文字文件內容除了提供文字訊息作為重要語句選取依據之外,語句中更包含 文法(Grammar)、語意(Semantic)以及結構(Structure)等資訊,皆可視為重要的特徵。
不同於文字文件,語音文件內容可能會因辨識錯誤或語句邊界定義等問題,使得 語句文法、語意以及結構等資訊相對較缺乏,但語音文件卻含有豐富的韻律特徵
(Prosodic Features),如語者在說話時發音的長短快慢、語氣的抑揚頓挫以及高低 起伏等。因此若將這些語言學、聲韻學以及文件結構等資訊加以善用,相信有助 於提升節錄式語音文件摘要的效能。
5.1.1 結構特徵(Structural Features)
語句位置(Sentence Location)
對於新聞報導而言,當主播在播報一則新聞時,會對其大綱或是主題先行描 述以吸引聽眾注意。因此可能因語句位於文件中越前面的位置,其重要性越高。
語句長度(Sentence Length)
計算語句中的詞個數作為語句的長度,透過整篇文件長度對語句長度進行正 規化(Normalized)。當語句的長度越長,可能包含較多或是越重要的內容,因此越 為重要。
5.1.2 詞彙特徵(Lexical Features)
雙連語言模型分數(Bigram Language Model Score)
𝑁連語言模型(Ngram Language Model)是自然語言處理常用到的方法,該模型 基於一種假設,第𝑛個詞的出現僅與前面𝑛 − 1個詞相關,而一個𝑁連語言模型的 機率表示通常由最大相似度(MLE)來估測。對一個語句的重要性估測是透過計算 在語句中所出現的詞之乘積。由於計算量過於龐大,通常採用二連(Bigram)與三 連(Trigram)。
正規化雙連語言模型分數(Normalized Bigram Language Model Score)
為了避免在計算時因語句長度的影響,透過該語句長度將其雙連語言模型分 數進行正規化並作為另一項特徵。
專有名詞(Named Entities)個數
根據專有名詞字典(Lexicon)計算語句中詞與字典重複的數量,主要想法是含 括越多專有名詞的語句越可能為重要語句。而專有名詞則包含公司名稱、 地點、
人名以及時間等。
停用詞(Stop Words)個數
計算語句中所包含停用詞的數量,如中文詞的“了”、“的”等詞,以及英文詞 如“a”、“the”等詞,即使出現的頻率很高,但通常不具有太多資訊,因此在檢索過 程中經常被濾除,不列入搜尋的考慮範圍。
5.1.3 韻律特徵(Prosodic Features)
音高(Pitch)
一般語者在敘述一件事情時,會以說話的高低起伏、抑揚頓挫來強調說話的 內容以吸引聽者的注意,語者表達自身的感覺使得對方接受到強調的訊息,因此 音高可視為一種語音中重要的資訊。
能量(Energy)
能量可用來表示語者說話音量的大小,經常被視為一種可利用的重要資訊。
一般語者在特別強調一件事情或是敘述重點時,會刻意地提高音量來表示強調關 鍵字或是說話的內容以希望引起聽者的注意。
音框長度(Duration)
類似於語句長度,語句越長所包含的資訊越多,而語句的音框長度代表語者 說該語句的時間長度,因此說話時間越長的語句其包含的資訊亦越多。
頻譜峰(Peak)與共振峰(Formant)
共振峰被定義為“聲譜中的頻譜峰”,差異在於母音(Vowel)有共振峰的結構,
在母音發音較為清楚的音節(Syllable),共振峰會較高。共振峰是用來描述聲學共 振現象的一種概念,是決定語者特徵的主要因素。在有效頻寬範圍中會有約五個 共振峰,從低頻率至高頻率依序排列為第一共振峰(F1)、第二共振峰(F2) 、第三
共振峰(F3)、第四共振峰(F4)以及第五共振峰(F5),而通常以 F1、F2、F3 較為明 顯,因此通常以這三個共振峰為代表。然而主播若在表達某語句較為字正腔圓,
希望聽眾可以聽得清楚時,該語句可能為重要語句,共振峰會較高,若是主播含 糊帶過的語句則可能為非重要語句,其共振峰會較低。
5.1.4 關聯特徵(Relevance Features)
通常為來自不同文件摘要模型所產生的摘要特徵分數,如以統計值為基礎的 向量空間模型(Vector Space Model)、以圖論為基礎的馬可夫隨機漫步(Markov
Random Walk)以及以機率生成模型為基礎的語言模型(Language Model)等。