• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第四章 結論

中文文本的基本單位雖然是中文字,但構成文意的基礎是詞彙,所以中文文 本探勘的初步處理為辨識文本中出現的詞彙。中文不若英文般在詞彙之間有自然 間隔,且又受限於中文語意複雜,詞彙沒有固定的形貌,所以在斷詞上相當不容 易。過往的斷詞方法中多是監督式方法,這類方法成效良好,也被廣泛的運用,

但當詞典不完備時可能出現問題。相對的,非監督式方法就不受文集內容或詞典 影響,特別適合用來探索少見的、新穎的、特定主題的文本。本研究主要發展一 非監督式斷詞方法。

我們的方法改良了非監督式方法 TopWORDS[7],先前的方法假設文本中每個 位置的詞彙皆來自同一個分佈且彼此獨立,這樣的假設忽略了詞彙在文意之間的 關聯,所以我們假設前後詞彙存在相關性,並且進一步提出 SeqWORDS 斷詞法。

我們由《紅樓夢》的實作分析結果發現,SeqWORDS 的斷詞偏好與 TopWORDS 差異甚大,前者斷出較多的單字詞彙,一部分的詞彙被截斷成一個個單字詞彙,

而後者斷出較多的長詞彙,這些長詞實際上多是由數個詞彙所組成。Jieba 方法 的結果則介於這兩個方法之間。這些斷詞結果都會對文本內容的解讀有不同程度 的影響。

我們統計 SeqWORDS 的所斷出詞彙的出現頻率發現,重要人物的稱呼與小說 的句式是最常出現的詞彙,並沒有太大的異樣,與期待相符。再將 SeqWORDS 的 斷詞結果應用到詞向量分析上,結果得到與「寶玉」最為相關的詞彙盡是在文本 中與他關係密切的人名,且將詞彙向量在平面上視覺化發現詞彙的位置也大致符 合故事的內容。相較之下,TopWORDS 與 Jieba 未見如此與故事相符的結果。以 上種種,足見 SeqWORDS 的成果堪用,在實際應用上是可行的。

我們在 SeqWORDS 的過程中使用動態規劃法來提升運算效率,但是將原本的 算式改寫成動態規劃式時,牽涉到原 WDM 模型中未出現的詞彙邊際機率,此邊際 機率並非我們有興趣的參數,在估計過程中也未被考慮或估計。為簡化,我們直

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

接採用 TopWORDS 的估計式,這點是日後可以改進的地方。目前 SeqWORDS 所需的 運算時間相當長,若面對內容更多的文集,在實務上會難以應用。耗時的原因可 能是 EM 估計法的繁複,可以開發更有效率的演算方式來降低分析時間為未來研 究方向之一。最後,TopWORDS 與 SeqWORDS 都依據目標文集來獲得詞彙的機率之 估計值,若分析之後即丟棄這些估計結果將相當可惜,日後也許能規劃出更新估 計結果的機制。將現有的估計結果運用在新文集來獲得詞彙的機率的新估計值。

則每次應用在不同文集時,也能不斷地更新詞彙的機率估計值,以增進估計表現。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

參考文獻

[1]

The Stanford Natural Language. Processing Group, Chinese Natural Language Processing and Speech Processing. Retrieved May 24, 2019, from https://nlp.stanford.edu/projects/chinese-nlp.shtml#cws

[2]

J. Lafferty, A. McCallum, F. C.N. Pereira, (2001), Conditional random fields: Probabilistc models for segmenting and labeling sequence data.

Proceedings of the 18th International Conference on Machine Learning 2001(ICML 2001)

, pp 282–289.

[3]

fxsjy, Jieba, Retrieved May 27, 2019, from https://github.com/fxsjy/ji eba

[4]

L. R. Rabiner, B. H. Juang, (1986), An introduction to hidden Markov models,

IEEE ASSP MAGAZINE

, vol 3, no 1, pp. 4-16.

[5]

A. Chen, (2003), Chinese word segmentation using minimal linguistic knowledge.

Proceeding SIGHAN '03 Proceedings of the second SIGHAN workshop on Chinese language processing

, Vol 17, pp 148–151.

[6]

K. J. Chen, S. H. Liu, (1992), Word identification for Mandarin Chinese sentences.

Proceeding COLING '92 Proceedings of the 14th conference on Computational linguistics

, Vol 1, pp 101–107.

[7]

analysis of domain-specific Chinese texts.

Proceedings of the National Academy of Sciences of the United States of America

, vol 113, pp 6154–6159.

[8]

X. Ge, W. Pratt, P. Smyth, (1999), Discovering Chinese words from unsegmented text.

Proceeding SIGIR '99 Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval

, pp 271–272.

[9]

A. P. Dempster, N. M. Laird, D. B. Rubin, (1977), Maximum likelihood from incomplete data via the EM algorithm.

Journal of the Royal Statistical Society. Series B,

vol 39, no 1, pp 1-38.

[10]

R. Bellman, (1954), The theory of dynamic programming,

Bulletin of the American Mathematical Society

, vol 60, no 6, pp 503-515.

[11]

X. Cao, Story-of-Stone.

[12]

胡適,(1988),胡適紅樓夢研究論述全編,

上海古籍出版社

。 [13]

T. Mikolov, K. Chen, G. Corrado, J. Dean, (2013). Efficient Estimation of Word Representations in Vector Space, arXiv:1301.3781v3.

[14]

T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean, (2013). Distributed Representations of Words and Phrases and their Compositionality, NIPS

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2013,3111-3119.

[15]

K. Pearson, (1901), On Lines and Planes of Closest Fit to Systems of Points in Space.

Philosophical Magazine

, vol 2, pp 559-572.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

= 𝜃

N[T:ŽT]

(b)

𝛼

N[T:ŽT],‹N[ŽT•T:ŽT•Žu]

(b)

𝑃?𝑇

F[ŠT‘]

@𝐷 [

(b)

, 𝜃]

(b)

, 𝛼^

(b)

A 𝑃 L𝑊

N[ŽT•T:ŽT•Žu]

P 𝑃?𝑇

F

@𝐷 [

(b)

, 𝜃]

(b)

, 𝛼^

(b)

A

= 𝜌ŠTu

所以 𝑛

;>

(𝑇

F

) = l l 𝜌

ŠTu

¯ 𝐼f?𝑇

F[&:ŠT]

𝑇

F[ŠTm&:ŠTu]

A = ?𝑊

;

𝑊

>

Ak +𝑛

;>(F,ŠTu)

?𝑇

F[ŠTu‘]

A °

ˆ

Šu<&

ˆ

ŠT<&

𝛼^9(bm&):,9C = ∑0F<&𝑛;>(𝑇F)

2><&∑0F<&𝑛;>(𝑇F)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

附錄三

1. 下面例文擷取自紅樓夢第一回《甄士隱夢幻識通靈 賈雨村風塵懷閨秀》。例 文:

字|字|看|來|皆是|血,十|年|辛苦|不|尋|常,楊|藏,庚辰,夢|覺,舒|

序|批,此|回|中|凡|用|夢|用|幻|等|字,是|提|醒|閱者|眼|目,亦|是|

此|書|立|意|本|旨,按,此|兩|段|回|前|批|語|常|被|混|入|正|文,故

|雖|為|批|語,仍|錄|於|此,列位|看|官,你|道|此|書|從|何|而|來,說

|起|根|由|雖|近|荒唐,細|諳|則|深|有|趣|味,待|在|下|將|此|來|歷|

註明,方|使|聞|者|瞭然|不|惑,原來,當|年|女|媧|氏|煉石|補|天|之|

時,於|大|荒山|無|稽|崖煉|成|高|經,十二|丈,方|經,二|十|四|丈|頑

|石|三|萬|六|千|五|百|零一|塊,媧皇|氏|只|用|了|三|萬|六|千|五|百

|塊,只|單|單|剩了一|塊|未|用,便|棄|在|此|山|青|埂峰下,誰知|此|

石|自|經,煉,之|後,靈|性|已|通,因|見|眾|石|俱|得|補|天,獨|自己

|無|材|不|堪|入|選,遂|自|怨|自|嗟,日|夜|悲|號,慚愧,一|日,正|

當|嗟悼|之|餘,俄見|一|僧|一|道|遠遠|而|來,生|得|骨|骼不|凡,豐|

神|迥異,說|說|笑|笑|來|至|峰下,坐|於|石|邊|高|談|快|論,先|是|說

|些|雲|山|霧海|神|僊玄幻|之|事,後|便|說|到|紅|塵|中|榮|華富貴,此

|石|聽了,不|覺|打|動|凡|心,也|想|要|到|人|間|去|享|一|享|這|榮|

華富貴,但|自|恨|粗|蠢,不|得|已,便|口|吐|人|言,向|那|僧道|說道,

大|師,弟|子|蠢物,不|能|見|禮|了,適聞|二|位|談|那|人|世|間|榮|耀 繁華,心|切|慕之,弟|子|質雖|粗|蠢,性|卻|稍|通,況|見|二|師|仙|形

|道|體,定|非|凡|品

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2. 下面例文擷取自紅樓夢第四十回《史太君兩宴大觀園 金鴛鴦三宣牙牌令》。 例文:

只見|一個|媳婦|端了一個|盒子|站在|當|地,一個|丫鬟|上|來|揭|去|盒

|蓋,裡|面|盛著|兩|碗|菜,李紈|端了一|碗|放在|賈母|桌上,鳳姐|兒|

偏|揀了一|碗|鴿子|蛋|放在|劉姥姥|桌上,賈母|這|邊|說|聲,請,劉姥 姥|便|站起|身|來,高|聲|說道,老|劉,老|劉,食|量|大|似|牛,吃|一 個|老|母|豬不|抬頭,自己|卻|鼓|著|腮|不|語,眾人|先|是|發|怔,後來

|一|聽,上|上|下|下|都|哈哈的|大|笑|起來,史湘雲|撐不|住,一|口|飯

|都|噴了|出來,林黛玉|笑|岔了|氣,伏|著|桌子|噯喲,寶玉|早|滾|到|

賈母|懷裡,賈母|笑|的|摟著|寶玉|叫,心|肝,王夫人|笑|的|用|手|指著

|鳳姐|兒,只|說|不|出|話|來,薛姨媽|也|撐不|住,口|裡|茶|噴了|探春

|一|裙子,探春|手|裡|的|飯|碗|都|合|在|迎春|身上,惜春|離了|坐|位,

拉著|他|奶|母|叫|揉|一|揉|腸子,地下|的|無|一個|不|彎腰|屈|背,也

|有|躲出去|蹲著|笑|去|的,也|有|忍|著|笑|上|來|替他|姊妹|換衣裳|

的,獨有|鳳姐|鴛鴦|二人|撐|著,還|只|管|讓|劉姥姥,劉姥姥|拿|起|箸 來,只|覺|不|聽|使,又|說道,這里|的|雞|兒|也|俊,下|的|這|蛋|也|

小|巧,怪|俊|的,我|且|肏攮一個,眾人|方|住了|笑,聽見|這|話|又|笑

|起來,賈母|笑|的|眼|淚|出來,琥珀|在|後|捶著,賈母|笑道,這|定|是

|鳳|丫頭|促狹鬼|兒|鬧的,快|別|信|他|的|話|了,那|劉姥姥|正|誇|雞 蛋|小|巧,要|肏攮一個,鳳姐|兒|笑道,一|兩|銀子|一個|呢,你|快|嘗 嘗|罷,那|冷|了|就|不|好|吃了,劉姥姥|便|伸|箸子|要|夾,那|裡|夾|

的|起來,滿|碗|里|鬧了一|陣|好|的,好|容易|撮|起|一個|來,才|伸|著

|脖子|要|吃,偏又|滑下|來|滾|在|地下,忙|放下|箸子|要|親自|去|撿,

早|有|地下|的|人|撿了|出去了,劉姥姥|歎道,一|兩|銀子,也|沒|聽見

|響|聲|兒|就|沒|了,眾人|已|沒|心|吃|飯

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3. 下面例文擷取自紅樓夢第一零五回《錦衣軍查抄宁國府 驄馬使彈劾平安州》。 例文:

一|聲|未了,便|嚎啕的|哭起來,于是|滿屋里|人|俱|哭|個|不|住,賈政

|恐|哭|坏|老|母,即|收|淚|說,老太太|放心|罷,本來|事|情|原|不|小,

蒙|主|上|天|恩,兩|位|王|爺|的|恩典,万|般|軫恤,就是|大|老爺|暫|

時|拘|質,等|問|明白了,主|上|還有|恩典,如今|家|里|一|些|也不|動 了,賈母|見|賈|赦|不|在,又|傷心|起來,賈政|再|三|安|慰|方|止,眾 人|俱|不|敢|走|散,獨|邢夫人|回|至|自己|那|邊,見|門|總|封|鎖,丫 頭|婆子|亦|鎖|在|几|間屋內,邢夫人|無|處|可|走,放|聲|大|哭起來,

只得|往|鳳姐|那|邊去,見|二|門|旁|舍|亦|上|封條,惟有|屋|門|開|著,

里頭|嗚咽|不|絕,邢夫人|進去,見|鳳姐|面|如|紙|灰,合|眼|躺著,平 儿|在|旁|暗|哭,邢夫人|打|諒|鳳姐|死了,又|哭起來,平儿|迎|上|來|

說,太太|不|要|哭,奶奶|抬|回來|覺|著|象|是|死|的|了,幸|得|歇息|

一|回|蘇|過來,哭了|几|聲,如今|痰|息|气|定,略|安|一|安|神,太太

|也|請|定|定|神|罷,但|不|知|老太太|怎|樣|了,邢夫人|也不|答|言,

仍|走到|賈母|那|邊,見|眼|前|俱是|賈政|的|人,自己|夫|子|被|拘,媳 婦|病|危,女儿|受|苦,現在|身|無|所|歸,那里|禁得|住,眾人|勸|慰,

李紈|等|令人|收拾|房|屋|請|邢夫人|暫|住,王夫人|撥|人|服|侍,賈政

|在|外,心|惊|肉|跳,拈|須|搓手|的|等|候|旨意,听見|外面|看|守|軍

|人|亂嚷道,你|到底是|那|一|邊|的,既|碰在|我們|這里,就|記|在這里

|冊上,拴著|他,交給|里頭|錦衣|府|的|爺|們

相關文件