國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第四章 結論
中文文本的基本單位雖然是中文字,但構成文意的基礎是詞彙,所以中文文 本探勘的初步處理為辨識文本中出現的詞彙。中文不若英文般在詞彙之間有自然 間隔,且又受限於中文語意複雜,詞彙沒有固定的形貌,所以在斷詞上相當不容 易。過往的斷詞方法中多是監督式方法,這類方法成效良好,也被廣泛的運用,
但當詞典不完備時可能出現問題。相對的,非監督式方法就不受文集內容或詞典 影響,特別適合用來探索少見的、新穎的、特定主題的文本。本研究主要發展一 非監督式斷詞方法。
我們的方法改良了非監督式方法 TopWORDS[7],先前的方法假設文本中每個 位置的詞彙皆來自同一個分佈且彼此獨立,這樣的假設忽略了詞彙在文意之間的 關聯,所以我們假設前後詞彙存在相關性,並且進一步提出 SeqWORDS 斷詞法。
我們由《紅樓夢》的實作分析結果發現,SeqWORDS 的斷詞偏好與 TopWORDS 差異甚大,前者斷出較多的單字詞彙,一部分的詞彙被截斷成一個個單字詞彙,
而後者斷出較多的長詞彙,這些長詞實際上多是由數個詞彙所組成。Jieba 方法 的結果則介於這兩個方法之間。這些斷詞結果都會對文本內容的解讀有不同程度 的影響。
我們統計 SeqWORDS 的所斷出詞彙的出現頻率發現,重要人物的稱呼與小說 的句式是最常出現的詞彙,並沒有太大的異樣,與期待相符。再將 SeqWORDS 的 斷詞結果應用到詞向量分析上,結果得到與「寶玉」最為相關的詞彙盡是在文本 中與他關係密切的人名,且將詞彙向量在平面上視覺化發現詞彙的位置也大致符 合故事的內容。相較之下,TopWORDS 與 Jieba 未見如此與故事相符的結果。以 上種種,足見 SeqWORDS 的成果堪用,在實際應用上是可行的。
我們在 SeqWORDS 的過程中使用動態規劃法來提升運算效率,但是將原本的 算式改寫成動態規劃式時,牽涉到原 WDM 模型中未出現的詞彙邊際機率,此邊際 機率並非我們有興趣的參數,在估計過程中也未被考慮或估計。為簡化,我們直
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
接採用 TopWORDS 的估計式,這點是日後可以改進的地方。目前 SeqWORDS 所需的 運算時間相當長,若面對內容更多的文集,在實務上會難以應用。耗時的原因可 能是 EM 估計法的繁複,可以開發更有效率的演算方式來降低分析時間為未來研 究方向之一。最後,TopWORDS 與 SeqWORDS 都依據目標文集來獲得詞彙的機率之 估計值,若分析之後即丟棄這些估計結果將相當可惜,日後也許能規劃出更新估 計結果的機制。將現有的估計結果運用在新文集來獲得詞彙的機率的新估計值。
則每次應用在不同文集時,也能不斷地更新詞彙的機率估計值,以增進估計表現。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
參考文獻
[1]
The Stanford Natural Language. Processing Group, Chinese Natural Language Processing and Speech Processing. Retrieved May 24, 2019, from https://nlp.stanford.edu/projects/chinese-nlp.shtml#cws
[2]
J. Lafferty, A. McCallum, F. C.N. Pereira, (2001), Conditional random fields: Probabilistc models for segmenting and labeling sequence data.
Proceedings of the 18th International Conference on Machine Learning 2001(ICML 2001)
, pp 282–289.[3]
fxsjy, Jieba, Retrieved May 27, 2019, from https://github.com/fxsjy/ji eba
[4]
L. R. Rabiner, B. H. Juang, (1986), An introduction to hidden Markov models,
IEEE ASSP MAGAZINE
, vol 3, no 1, pp. 4-16.[5]
A. Chen, (2003), Chinese word segmentation using minimal linguistic knowledge.
Proceeding SIGHAN '03 Proceedings of the second SIGHAN workshop on Chinese language processing
, Vol 17, pp 148–151.[6]
K. J. Chen, S. H. Liu, (1992), Word identification for Mandarin Chinese sentences.
Proceeding COLING '92 Proceedings of the 14th conference on Computational linguistics
, Vol 1, pp 101–107.[7]
‧
analysis of domain-specific Chinese texts.Proceedings of the National Academy of Sciences of the United States of America
, vol 113, pp 6154–6159.[8]
X. Ge, W. Pratt, P. Smyth, (1999), Discovering Chinese words from unsegmented text.
Proceeding SIGIR '99 Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval
, pp 271–272.[9]
A. P. Dempster, N. M. Laird, D. B. Rubin, (1977), Maximum likelihood from incomplete data via the EM algorithm.
Journal of the Royal Statistical Society. Series B,
vol 39, no 1, pp 1-38.[10]
R. Bellman, (1954), The theory of dynamic programming,
Bulletin of the American Mathematical Society
, vol 60, no 6, pp 503-515.[11]
X. Cao, Story-of-Stone.
[12]
胡適,(1988),胡適紅樓夢研究論述全編,
上海古籍出版社
。 [13]T. Mikolov, K. Chen, G. Corrado, J. Dean, (2013). Efficient Estimation of Word Representations in Vector Space, arXiv:1301.3781v3.
[14]
T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean, (2013). Distributed Representations of Words and Phrases and their Compositionality, NIPS
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2013,3111-3119.
[15]
K. Pearson, (1901), On Lines and Planes of Closest Fit to Systems of Points in Space.
Philosophical Magazine
, vol 2, pp 559-572.
‧
‧
‧
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
= 𝜃
‹N[T:ŽT]
(b)
𝛼
‹N[T:ŽT],‹N[ŽT•T:ŽT•Žu]
(b)
𝑃?𝑇
F[ŠT‘]@𝐷 [
(b), 𝜃]
(b), 𝛼^
(b)A 𝑃 L𝑊
‹N[ŽT•T:ŽT•Žu]P 𝑃?𝑇
F@𝐷 [
(b), 𝜃]
(b), 𝛼^
(b)A
= 𝜌ŠT,Šu
所以 𝑛
;>(𝑇
F) = l l 𝜌
ŠT,Šu¯ 𝐼f?𝑇
F[&:ŠT]𝑇
F[ŠTm&:ŠTmŠu]A = ?𝑊
;𝑊
>Ak +𝑛
;>(F,ŠT,Šu)?𝑇
F[ŠTmŠu‘]A °
ˆ‰
Šu<&
ˆ‰
ŠT<&
𝛼^9(bm&):,9C = ∑0F<&𝑛;>(𝑇F)
∑2><&∑0F<&𝑛;>(𝑇F)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
附錄三
1. 下面例文擷取自紅樓夢第一回《甄士隱夢幻識通靈 賈雨村風塵懷閨秀》。例 文:
字|字|看|來|皆是|血,十|年|辛苦|不|尋|常,楊|藏,庚辰,夢|覺,舒|
序|批,此|回|中|凡|用|夢|用|幻|等|字,是|提|醒|閱者|眼|目,亦|是|
此|書|立|意|本|旨,按,此|兩|段|回|前|批|語|常|被|混|入|正|文,故
|雖|為|批|語,仍|錄|於|此,列位|看|官,你|道|此|書|從|何|而|來,說
|起|根|由|雖|近|荒唐,細|諳|則|深|有|趣|味,待|在|下|將|此|來|歷|
註明,方|使|聞|者|瞭然|不|惑,原來,當|年|女|媧|氏|煉石|補|天|之|
時,於|大|荒山|無|稽|崖煉|成|高|經,十二|丈,方|經,二|十|四|丈|頑
|石|三|萬|六|千|五|百|零一|塊,媧皇|氏|只|用|了|三|萬|六|千|五|百
|塊,只|單|單|剩了一|塊|未|用,便|棄|在|此|山|青|埂峰下,誰知|此|
石|自|經,煉,之|後,靈|性|已|通,因|見|眾|石|俱|得|補|天,獨|自己
|無|材|不|堪|入|選,遂|自|怨|自|嗟,日|夜|悲|號,慚愧,一|日,正|
當|嗟悼|之|餘,俄見|一|僧|一|道|遠遠|而|來,生|得|骨|骼不|凡,豐|
神|迥異,說|說|笑|笑|來|至|峰下,坐|於|石|邊|高|談|快|論,先|是|說
|些|雲|山|霧海|神|僊玄幻|之|事,後|便|說|到|紅|塵|中|榮|華富貴,此
|石|聽了,不|覺|打|動|凡|心,也|想|要|到|人|間|去|享|一|享|這|榮|
華富貴,但|自|恨|粗|蠢,不|得|已,便|口|吐|人|言,向|那|僧道|說道,
大|師,弟|子|蠢物,不|能|見|禮|了,適聞|二|位|談|那|人|世|間|榮|耀 繁華,心|切|慕之,弟|子|質雖|粗|蠢,性|卻|稍|通,況|見|二|師|仙|形
|道|體,定|非|凡|品
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2. 下面例文擷取自紅樓夢第四十回《史太君兩宴大觀園 金鴛鴦三宣牙牌令》。 例文:
只見|一個|媳婦|端了一個|盒子|站在|當|地,一個|丫鬟|上|來|揭|去|盒
|蓋,裡|面|盛著|兩|碗|菜,李紈|端了一|碗|放在|賈母|桌上,鳳姐|兒|
偏|揀了一|碗|鴿子|蛋|放在|劉姥姥|桌上,賈母|這|邊|說|聲,請,劉姥 姥|便|站起|身|來,高|聲|說道,老|劉,老|劉,食|量|大|似|牛,吃|一 個|老|母|豬不|抬頭,自己|卻|鼓|著|腮|不|語,眾人|先|是|發|怔,後來
|一|聽,上|上|下|下|都|哈哈的|大|笑|起來,史湘雲|撐不|住,一|口|飯
|都|噴了|出來,林黛玉|笑|岔了|氣,伏|著|桌子|噯喲,寶玉|早|滾|到|
賈母|懷裡,賈母|笑|的|摟著|寶玉|叫,心|肝,王夫人|笑|的|用|手|指著
|鳳姐|兒,只|說|不|出|話|來,薛姨媽|也|撐不|住,口|裡|茶|噴了|探春
|一|裙子,探春|手|裡|的|飯|碗|都|合|在|迎春|身上,惜春|離了|坐|位,
拉著|他|奶|母|叫|揉|一|揉|腸子,地下|的|無|一個|不|彎腰|屈|背,也
|有|躲出去|蹲著|笑|去|的,也|有|忍|著|笑|上|來|替他|姊妹|換衣裳|
的,獨有|鳳姐|鴛鴦|二人|撐|著,還|只|管|讓|劉姥姥,劉姥姥|拿|起|箸 來,只|覺|不|聽|使,又|說道,這里|的|雞|兒|也|俊,下|的|這|蛋|也|
小|巧,怪|俊|的,我|且|肏攮一個,眾人|方|住了|笑,聽見|這|話|又|笑
|起來,賈母|笑|的|眼|淚|出來,琥珀|在|後|捶著,賈母|笑道,這|定|是
|鳳|丫頭|促狹鬼|兒|鬧的,快|別|信|他|的|話|了,那|劉姥姥|正|誇|雞 蛋|小|巧,要|肏攮一個,鳳姐|兒|笑道,一|兩|銀子|一個|呢,你|快|嘗 嘗|罷,那|冷|了|就|不|好|吃了,劉姥姥|便|伸|箸子|要|夾,那|裡|夾|
的|起來,滿|碗|里|鬧了一|陣|好|的,好|容易|撮|起|一個|來,才|伸|著
|脖子|要|吃,偏又|滑下|來|滾|在|地下,忙|放下|箸子|要|親自|去|撿,
早|有|地下|的|人|撿了|出去了,劉姥姥|歎道,一|兩|銀子,也|沒|聽見
|響|聲|兒|就|沒|了,眾人|已|沒|心|吃|飯
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3. 下面例文擷取自紅樓夢第一零五回《錦衣軍查抄宁國府 驄馬使彈劾平安州》。 例文:
一|聲|未了,便|嚎啕的|哭起來,于是|滿屋里|人|俱|哭|個|不|住,賈政
|恐|哭|坏|老|母,即|收|淚|說,老太太|放心|罷,本來|事|情|原|不|小,
蒙|主|上|天|恩,兩|位|王|爺|的|恩典,万|般|軫恤,就是|大|老爺|暫|
時|拘|質,等|問|明白了,主|上|還有|恩典,如今|家|里|一|些|也不|動 了,賈母|見|賈|赦|不|在,又|傷心|起來,賈政|再|三|安|慰|方|止,眾 人|俱|不|敢|走|散,獨|邢夫人|回|至|自己|那|邊,見|門|總|封|鎖,丫 頭|婆子|亦|鎖|在|几|間屋內,邢夫人|無|處|可|走,放|聲|大|哭起來,
只得|往|鳳姐|那|邊去,見|二|門|旁|舍|亦|上|封條,惟有|屋|門|開|著,
里頭|嗚咽|不|絕,邢夫人|進去,見|鳳姐|面|如|紙|灰,合|眼|躺著,平 儿|在|旁|暗|哭,邢夫人|打|諒|鳳姐|死了,又|哭起來,平儿|迎|上|來|
說,太太|不|要|哭,奶奶|抬|回來|覺|著|象|是|死|的|了,幸|得|歇息|
一|回|蘇|過來,哭了|几|聲,如今|痰|息|气|定,略|安|一|安|神,太太
|也|請|定|定|神|罷,但|不|知|老太太|怎|樣|了,邢夫人|也不|答|言,
仍|走到|賈母|那|邊,見|眼|前|俱是|賈政|的|人,自己|夫|子|被|拘,媳 婦|病|危,女儿|受|苦,現在|身|無|所|歸,那里|禁得|住,眾人|勸|慰,
李紈|等|令人|收拾|房|屋|請|邢夫人|暫|住,王夫人|撥|人|服|侍,賈政
|在|外,心|惊|肉|跳,拈|須|搓手|的|等|候|旨意,听見|外面|看|守|軍
|人|亂嚷道,你|到底是|那|一|邊|的,既|碰在|我們|這里,就|記|在這里
|冊上,拴著|他,交給|里頭|錦衣|府|的|爺|們