• 沒有找到結果。

模型中包含了兩項參數,狀態觀察機率與主題轉換機率

N/A
N/A
Protected

Academic year: 2021

Share "模型中包含了兩項參數,狀態觀察機率與主題轉換機率"

Copied!
3
0
0

加載中.... (立即查看全文)

全文

(1)

77

第六章 結論與展望

6.1 結論

隨著電腦、通訊、網際網路的蓬勃發展與資訊技術的快速演進,人們所接觸的資 訊量呈現爆炸性的成長且不再僅限於文本資訊而已。在眾多富含各式內容的多媒 體資訊中,語音廣播新聞被視為具有及時性、傳播便利性的資訊傳播媒界之一。

但語音新聞可能是以長時間連續訊號來儲存的語音文件,其中包含了多個主題、

多面向的資訊,且不同的文件中也有可能含有類似主題的資訊,在此文件集合 中,無論是查詢或瀏覽相關資訊都不是非常容易,為了能夠有效率地存取這些資 訊,語音文件切割與組織遂成為重要的環節。

本論文以 TDT 中文廣播新聞語料庫作為實驗語料,研究語音文件切割與組 織的方法。首先,應用隱藏式馬可夫模型於語音文件切割上;藉由隱藏式馬可夫 模型參數的估測,可參考到語音新聞文件所包含的各項資訊,用於判斷在長時間 的新聞文件中所具有的新聞段落邊界,達成切割語音文件為主題凝聚(Cohesive) 段落的目的。模型中包含了兩項參數,狀態觀察機率與主題轉換機率。在估計狀 態機率時,應用了狀態內的詞彙資訊所形成的語言模型,並對語言模型加以調 整。調整的方式包括機率扣減及插補全部訓練語料所訓練的背景語言模型,並考 量分群(主題)個數與主題轉換對應的轉移罰值的各種可能組合後可使得切割效 果由切割代價評估值 0.1356 降至 0.1004。另外,轉換機率的估計上也進一步地 考量了語音文件的停頓資訊,將段落間及段落內的停頓時間所形成的統計分佈作 為判斷新聞邊界或非新聞邊界的參考資訊,可使得切割代價評估值降至 0.0821;

同時,語音辨識可性度則可納入觀察機率的估計,將各項可用資訊同時考量後,

切割代價評估值可下降到 0.0795。我們也可以透過潛藏語意分析以概念比對的方 式,估計潛藏空間中語句與群集的相關程度,應用於觀察機率衡量上。初步實驗 結果顯示出這種作法是有效的,但仍需更深入的分析與探討。

(2)

78

本論文亦研究自我組織圖與機率式主題組織兩類的方法於語音文件之組織 與視覺化呈現。其中,自我組織圖為非監督式訓練的類神經網路模型,可藉由模 擬神經元受刺激與學習的方式將文件的性質在自我組織圖中呈現出來。實驗中發 現,自我組織圖的訓練資料若經過潛藏語意分析,則訓練起始時可將每筆訓練資 料以隨機的方式,標定與圖中一個神經元節點相關,並將表示訓練資料的向量加 於所標定到節點的鍵結權重向量上,讓自我組織圖有類似隨機學習的效果。以此 起始設定經訓練過程訓練後,會使得自我組織圖示結果中各節點所包含的文件數 不會差異太大,也較能顯示文件集合的主題分佈情形。另外,自我組織圖中神經 元節點的連結權重調整需隨著迭代次數遞減,其遞減方式需根據圖示需求來設 計。若希望圖示呈現的結果中相鄰節點間會有類似的文件出現,則其權重調整應 選擇隨著迭代次數遞減較緩慢的函數,讓周圍的神經元節點可以得到此神經元節 點所更新的鍵結權重的影響;反之當使用遞減較快的函數時,最後圖示結果中,

相鄰節點所包含的文件較無關連性。以 TDT2 共 2,936 則中文廣播新聞語料做圖 示測試,在分群數為 49 群、潛藏語意分析的潛藏語意空間維度為 100 維的設定 下,進行 100 次迭代後可得到 2.0604 的圖示評估值。

機率式主題組織主要是以機率型式來模擬文件與索引間的關係,此類機率式 的分析加入潛藏主題(Latent Topics)概念以及潛藏主題間拓撲(Topology)關係,可 形成機率式的組織關係。本論文提出了主題混合模型圖示(TMMmap),此機率式 圖示是以機率生成模型的觀點出發,並且將潛藏主題的拓撲對應關係納入更新其 機率分佈的式子中,並採用單一的更新式來更新其機率分佈。其中以潛藏主題對 索引項展開潛藏主題間拓撲關係可得到 2.0650 的最佳化圖示評估值。同時,此 類具有主題性質的分類結果亦可進一步使用於語音文件切割上,可讓切割代價評 估值降至 0.0773。實驗結果顯示,此方式所訓練出來的包含拓撲分群資訊適合運 用於語音文件切割上,亦說明了此類機率式主題組織所形成的潛藏主題(概念)分 佈的確可表示文件群集的主題分佈情形。此類主題性或概念性的模型,應可應用 於其他與需要主題分佈性質的應用上。

(3)

79

6.2 未來展望

本論文使用了多種資訊於 HMM 新聞切割中的觀察機率估測,但僅限於以插補的 方式考量各項資訊,未來可以將結合各項資訊方式是藉由訓練的方法來調整各項 資訊的所具有的權重,使得權重部分也能根據資料的特性做自動化的調整。另 外,HMM 切割模型中的狀態可再細分為多種類別,其中可增加模擬新聞邊界附 近詞彙的狀態。再者,新聞邊界的判斷可再加入更多語音文件中額外的資訊,諸 如聲韻 (Prosody)、音高(Pitch)、音量(Magnitude)的資訊,或是引入其他更有效 的模型以達到更好的切割效果。

另外,潛藏主題組織資訊可表達一群資料中主題或概念的分佈情形,可利用 此方式對於大量資料做主題性或概念性的分類,例如:圖書館、博物館等的內容。

可提供使用者除了以原本的歸類與整理方式來獲得資訊之外,也能提供另一種屬 於主題性的整理呈現方式來存取或瀏覽典藏單位所擁有的資源。為因應更大量的 資料與計算量,可加入適當的判斷與設計主題組織訓練更新時的更新方式,使得 效能及結果都能有一定的水準。人們的自然互動中也常隱含著一個概念,例如:

語言、書信、甚至是動作,其中的各個片斷都可能代表了一種含意。若想了解語 言片斷所屬的概念可進一步研究潛藏主題組織於自然語言處理上的應用。應用潛 藏主題機率分佈所表達的主題性或概念性對自然語言做分析,可得知語言或書信 中的概念內含,並搭配已發展的自然語言處理技術,作為建立語意與概念網路的 參考資訊。當需要作概念性比對或語意上的判斷時,可藉由所訓練的機率分佈推 估而得。這樣的處理可應用在智慧型的代理程式設計上,提供使用者更具人性化 的使用環境,經由所知的概念描述即可獲得所需的資訊與服務。藉由這樣的方 式,人們可更輕鬆地獲取資訊,享受更便利的生活。

參考文獻

相關文件

說明:本題藉由羅馬史家 Ammianus Marcellinus 描述外族的兩則資料,檢測學生能否觀察

推理論證 批判思辨 探究能力-問題解決 分析與發現 4-3 分析文本、數據等資料以解決問題 探究能力-問題解決 分析與發現 4-4

語文是思想感情的載體,而思想感情是語文的內容。中國

中學中國語文科 小學中國語文科 中學英國語文科 小學英國語文科 中學數學科 小學數學科.

學生平均分班,非 華語學生與本地學 生共同學習主流中 文課程,參與所有 學習活動,並安排 本地學生與非華語 學生作鄰座,互相

  此外, 圖書館亦陸續引進英美文學、外語學習與研究等 相關資料庫,如 19 世紀以前出版的經典文學名著 Literature Online, Early English Books Online 與 Naxos

另外,語文科高中的寫作活動也很多元化,題材亦很生活化,有助提高學生對創作 的興趣。 (高中語文寫作題目舉隅,見附件三 附件三 附件三。 附件三 。 。) 。 ) ) ).. 附件三

學習語文必須積累。語文能力是在對語文材料大量反復感受、領悟、積累、運用的過程中