第四章 即時展開取代演算法
4.1 取代演算法與 n-gram 模型
4.2.3 實驜結果與分析
實驜環境採用之 CPU 為 Intel Core i7 960 四核心處理器 3.20GHz,記憶體共 24G。
40
以 one-pass recognition 進行辨識時,每個音框內 token 的最大存活數(max hyps)定為 6000,
而使用於 lattice generate 之 Max Hyps 則設定為 4000。
以 on-the-fly replace 展開 PNLM 時,不再受限於較低的 intra-word 分數,即使在人 名前後沒有稱謂詞也能夠抓取到人名的位置。另一方面,加入 PNLM 也可能將原本不是 人名的詞錯誤地辨識成人名,這點在採用 uni-gram PNLM 時幾乎沒有發生,因為找到的 人名個數原先就較少;而無論以兩階段式或者是 on-the-fly replace 演算進行辨識時,約 有 30%辨識出的人名是錯誤的。
表 4.1: 正確標記出人名的辨識結果
正確答案 Off-line replace (uni-gram PN model)
On-the-fly replace (bi-gram PN model) NCKU_f070303_0
水源里長(OOV) 雖 隨員
陳枝福(OOV_PER) 遠離 里長
表示 章程 <p>陳志福</p>
支付 表示
表示 NCKU_f070308_0
演講 演講 演講
中 中國 中
郭振興(OOV_PER) 振興 <p>郭振興</p>
深入淺出 深入淺出 深入淺出
表 4.2: 錯誤標記出人名的辨識結果
NCKU_f090409_1
41
<s> <s> <s>
王 <p>王達瑪</p> <p>王達瑪</p>
大媽(OOV) 的 的
的
NCTU_f020402_0
據瞭解 瞭解 據瞭解
澂清樓(OOV) <p>陳景樓</p> <p>陳清老</p>
於 與 與
先總統 先總統 先總統
NCKU_f100305_0
讚不絕口 讚不絕口 讚不絕口
兩 將軍 <p>江仁俊</p>
人 認為 認為
均 認為
原先就屬 OOV 之詞很容易因為分數輸給 PNLM 而造成錯誤的辨識,而短詞相接由 於詞的插入懲罰也會造成被搶詞的情況。如 “澂清樓(OOV)”、“兩 人 均” 等錯誤可望 日後加入不同之 NER 模型或是 DM 模型來進行改善。同時我們可以發現辨識錯誤的人 名中也有將外文人名錯誤地被中文 PNLM 抓取出,如:
表 4.3: PNLM 對 OOVs 外文人名的影響
NCTU_m030902_0
不料 不料 不料
葛洛瑞索(OOV_外文) 河洛 <p>柯洛偉</p>
42
卻 萎縮 所
出奇不意 卻 卻
出其不意 出其不意
NCTU_m030909_0
打電話 打電話 打電話
督促 度 <p>杜珠茂</p>
馬佐維奇(OOV_外文) 出馬 <p>朱偉啟</p>
不要 作為 表示
使 其
由於外文人名與中文人名在部分前後詞的關聯性享有共同的特性,而目前我們並無 加入外文人名所用的 model 因此造成此情況。除外文人名外,實驜結果也有一些原先收 錄在詞典內的人名又被 PNLM 的模型所辨識出的情形,表示該詞與前後詞的 n-gram 關 係不足以支持而輸給了 PNLM 模型,舉例如下:
表 4.4: PNLM 對於 IV 人名搶詞之影響
NCKU_f100303_0
郭朝武(IV_PER) 郭朝武 郭朝武
邱文明(IV_PER) 邱文明 <p>邱文英</p>
蘇徐瓊枝(OOV_PER) 所 所
和 需求 需求
時 時
NCTU_f030801_0
奧會 奧會 奧會
副秘書長 副秘書長 副秘書長
李慶華(IV_PER) 李慶華 <p>李信華</p>
43
昨天 昨天 昨天
召開 召開 召開
在實驜中訓練 root n-gram LM 時為了保留重要人名與前後的 n-gram 關係,並無將 所有人名整合為一個類別訓練,而是以 IDF 法保留下常見的人名。日後可以將重要人名 與其高關連性之稱謂詞結合成為一個人名片語(如:“陳水扁 總統”),在片語中再計算該 人名與稱謂詞的關聯性,如此可學習到片語非單獨人名與前後詞的關聯性,進而降低 somebody(IV person)被辨識為 nobody(OOV person)的可能性。
第三章的辨識結果中,採用 uni-gram PNLM 於一階段辨識時,大多仍頇依靠稱謂詞 支撐才能解碼出人名的位置;而以兩階段式做法進行辨識時,又受限於第一級 bi-gram root LM 的涵蓋率,需要採用更為精細的語言模型進行重計分才能取得較一階段辨識更 好的辨認率。而使用同樣的 root LM 與 PNLM 模型之條件下,相較於在 off-line 採用取 代演算法的辨識結果,on-the-fly replace 演算法能取得更好的 F-measure 分數與辨識率的 提升。我們將前述之實驜的數據在此做一個整理:
表 4.5: Recognition results
Models Word Accuracy
Tri-gram LM 73.36%
Tri-gram LM with uni-gram PN model 73.47%
Bi-gram LM 71.76%
Bi-gram LM with bi-gram PN model (Lattice generation) 71.82%
- Rescoring with tri-gram LM (A) 72.32%
- Rescoring with tri-gram LM (B) 76.27%
Tri-gram LM with bi-gram PN model (on-the-fly replace) 73.74%
表 4.6: Tri-gram LM with bi-gram PN model (on-the-fly replace)之 F-measure
All find Golden hits IV hits Wrong hits Precision Recall F-measure
44
76 48 7 21 63.16% 37.50% 47.06%
表 4.7: F-measure scores 比較
Models F-measure
Tri-gram LM with uni-gram PN model 34.57%
Bi-gram LM with bi-gram PN model (Lattice generation) 44.11%
- Rescoring with tri-gram LM (A) 42.00%
- Rescoring with tri-gram LM (B) 42.10%
Tri-gram LM with bi-gram PN model (on-the-fly replace) 47.06%
45