• 沒有找到結果。

基於兩詞彙的序列關係建造非監督式 SeqWORDS 斷詞方法 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "基於兩詞彙的序列關係建造非監督式 SeqWORDS 斷詞方法 - 政大學術集成"

Copied!
46
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學統計學研究所 碩士學位論文. 基於兩詞彙的序列關係建造非監督式 治 SeqWORDS 斷詞方法. 政. 大. SeqWORDS: An 立 Unsupervised Chinese Segmentation. ‧ 國. 學. Method using Relationship of Two Consecutive Words.. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授:薛慧敏 博士 研究生:吳冠輝 撰. 中華民國 一〇八年 六月. DOI:10.6814/NCCU201900115.

(2) 摘要 由於中文文本中的詞彙之間沒有任何標記或空格,所以斷詞被認為是中文文 本探勘前必要且重要的預處理步驟。而目前中文斷詞方法多屬監督式方法,當沒 有適當的詞典時難以發揮,例如針對新世代的文章或特定專業領域的文本。Den g 等人在 2016 年提出非監督式斷詞方法 TopWORDS,利用文字詞典模型(Word D ictionary Model, WDM)建構文本之概似函數,並且將斷詞資訊當作遺失變數, 以 EM 演算法估計出各詞彙的使用機率,更利用動態規劃法(dynamic programm ing)計算,除了運算上相當具有效率,TopWORDS 應用在許多文本上有良好的結. 政 治 大 恐怕忽略了詞彙在文意上的相連 立 。此研究假設每個詞彙出現的概率與前一個詞彙. 果。然而,TopWORDS 假設文本中每個位置的詞彙獨立且分配相同,這樣的假設. ‧ 國. 學. 有關,因此文本的概似函數可表示為兩詞彙的序列關係的函數,故將此研究提出 的方法稱為「SeqWORDS」。在運用三種不同斷詞法於紅樓夢文本上後,我們觀察. ‧. 到 SeqWORDS 雖然在探索新詞彙的能力較弱,然而當接續使用文本探勘工具如詞. al. er. io. sit. y. Nat. 向量分析後發現,SeqWORDS 能提供最佳的解釋性。. v. n. 關鍵字:中文斷詞,文本探勘,動態規劃法,文字詞典模型,EM 演算法,詞彙 序列關係. Ch. engchi. i n U. DOI:10.6814/NCCU201900115.

(3) Abstract Unlike alphabet-based language, there exists no space between words in Chinese corpus. The first step in Chinese text mining is to segment words in a sentence. Many existing segmentation methods are supervised in terms of requiring an adequate dictionary. However, Chinese language has developed so long and growing so fast. A suitable dictionary may not be available or easily accessed. In 2016, Deng et al. proposed an unsupervised method called “TopWORDS”, which needs no dictionary in hand. The authors derived the. 政 治 大 they regard unknown segmentation information as missing data and utilize EM 立. likelihood function of the corpus via word dictionary model (WDM). Further,. algorithm to estimate occurrence probability of words. To enhance. ‧ 國. 學. computational efficiency, the estimates are computed by dynamic programming.. ‧. In the article, the TopWORDS is found to perform well in several corpus.. y. Nat. However, the iid assumption of TopWORDS ignores words dependency, which. er. io. sit. frequently occurs in consecutive words. Therefore, in this research we assume that a word’s occurrence depends on previous one and modify the TopWORDS. al. n. v i n method. By considering the C sequential association h e n g c h i U of consecutive words, the. proposed method is named “SeqWORDS”. The new method and two other existing methods are evaluated by their performance on the famous classical novel Story-of-Stone. We find that SeqWORDS is less capable to find new, rare words and is much time consuming. However, when we further implement some advance text mining analysis on the segmented corpus, the segmented corpus by SeqWORDS produces the most reasonable, interpretable results.. Keywords: Chinese texts mining, dynamic programming, EM algorithm, word dictionary model, words dependency, word segmentation.. DOI:10.6814/NCCU201900115.

(4) 目次 第一章 介紹…………………………………………………………………………1 第二章 方法…………………………………………………………………………3 第三章 實作…………………………………………………………………………11 第四章 結論…………………………………………………………………………28 參考文獻……………………………………………………………………………30 附錄一………………………………………………………………………………33 附錄二………………………………………………………………………………35 附錄三………………………………………………………………………………38. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. DOI:10.6814/NCCU201900115.

(5) 表次 三種方法斷詞概況表…………………………………………………………12 SeqWORDS 前百詞頻表………………………………………………………20 SeqWORDS 與寶玉最相關詞彙表……………………………………………22 TopWORDS 與寶玉最相關詞彙表……⋯……………………………………23 Jieba 與寶玉最相關詞彙表…………………………………………………24. 立. 政 治 大. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. 表一 表二 表三 表四 表五. Ch. engchi. i n U. v. DOI:10.6814/NCCU201900115.

(6) 圖次 SeqWORDS 演算流程圖…………………………………………………………7 三方法斷詞詞彙長度之長條圖………………………………………………15 三方法斷出詞彙長度比例之圓餅圖…………………………………………17 三方法的詞彙雲圖………………………………………………………19 詞彙向量投影圖⋯⋯…………………………………………………………27. 立. 政 治 大. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. 圖一 圖二 圖三 圖四 圖五. Ch. engchi. i n U. v. DOI:10.6814/NCCU201900115.

(7) 第一章. 介紹. 文本探勘係指以文本作為資料進行資料挖掘的工作,任務是找出文字資料中 有用的資訊或是理解文本中的結構。在文史領域裡文字探勘可以幫助文史學者探 討史料中人事物的關係,在行銷與經營的問題上,文字探勘可以從大量的網路社 群文章去尋找客群或是從客戶意見回饋中了解客戶的需求,文字探勘也可以從報 章雜誌文章、網頁或是網路社群文章幫助社會學者了解人們對一個議題的想法。 而為了分析蘊藏在文本中模糊的語意結構,在分析之前預做處理是必需的。 對文本資料做預處理是要得到詞彙的訊息,隨著語言不同,處理上的困難也. 政 治 大 的詞形,所以要將不同詞形還原成原形。但是像中文這樣使用方塊字的語言,沒 立 不同。以主流語言來說,英文這樣使用拼音字的語言,詞彙受到文法規定有不同. ‧. ‧ 國. 詞彙分開。. 學. 有使用空格隔開詞彙,所以需要從連續、無間隔字串辨識詞彙形貌,並將一個個. 將中文字串分割成一個個詞彙的工作被稱為「斷詞」。中文斷詞方法多是需. sit. y. Nat. 要預備詞典的監督式斷詞方法,主要可以分成三類,一類是基於統計模型的斷詞. al. er. io. 方法,如史丹佛大學自然語言處理小組發展的 SP(Standard Parser)法,該法使. v. n. 用 conditional random filed model[1][2]。另外,或是由 fxsjy 提出的 Jieba. Ch. engchi. i n U. 斷詞套件,就有使用到 hidden Markov model[3][4]。另一類方法是基於文法規 則,像是 Chen 在 2003 年提出的方法[5]。Chen 與 Liu 在 1992 年提出的方法[6] 則是根據詞彙比對的方法。 監督式方法依賴預備的詞典,但面面俱到的詞典不易取得,且若詞典的內容 與目標文集不相干,監督式方法的效果有限。另一類不需要預備詞典的斷詞方法 稱為非間督式斷詞方法。2016 年 Deng 等人[7]在文字詞典統計模型(word dictionary model, WDM)[8]下提出了非間督式斷詞方法 TopWORDS。TopWORDS 在 斷詞外同時建立詞典,該方法採用所謂的 Top Down 策略來建立詞典。首先在目 標文集中收集所有可能的詞彙形成巨大的過於完備詞典,之後在過程中採用 EM. 1. DOI:10.6814/NCCU201900115.

(8) 演算法[9]估計 WDM 中的未知詞彙機率參數,並且將機率值較低的詞彙移出詞典, 經過迭代獲得最終詞典。Deng 等人引用了動態規劃法(Dynamic Programming) [10]增加 TopWORDS 的運算速度。他們展示了運用 TopWORDS 斷詞後,文本分析的 結果呼應文本真實內容,顯示了 TopWORDS 斷詞結果優秀。 然而,TopWORDS 方法中的 WDM 模型假設文本中詞彙之間具有獨立性,此假 設忽略了詞彙之間在文意上的關聯。本研究假設文本中詞彙的出現受到前一個詞 彙的影響,在 TopWORDS 方法的框架下考慮到了兩個詞彙的序列關係,提出 SeqWORDS 斷詞方法。. 政 治 大 以及動態規劃法的公式等。Deng 等人將 TopWORDS 應用在小說《紅樓夢》上得到 立 本論文將在第二章介紹 SeqWORDS 的方法細節,包括 WDM 模型與 EM 演算法. 不錯的結果,我們也將 SeqWORDS 應用在《紅樓夢》上,並且在第三章探討其結. ‧ 國. 學. 果,並且加入 Jieba 法的結果做比較。第四章提出結論與建議。. ‧. io. sit. y. Nat. n. al. er. Ch. engchi. i n U. v. 2. DOI:10.6814/NCCU201900115.

(9) 第二章 方法 2.1 定義與概似函數. 首先介紹本論文使用的符號。中文字(character)是中文最基本的單位,令 𝐴 = {𝐴& , 𝐴( , … , 𝐴* }表示所有中文字的集合。一個或數個中文字組成的有意義的序 列為詞彙(word),以𝑊表示詞彙。一篇文章便是由多個詞彙所組成,詞彙數量少 則數十,多則數千數萬計。在文章中沒有被句讀間斷的句子稱為文本,此處以𝑇 表示文本。若斷詞資訊已知時,則文本可表示為詞彙的序列,但若無斷詞資訊, 則文本為中文字的長序列。最後,眾多文本(句子)形成文集,文集以𝐹表示,假. 政 治 大 一般斷詞方法牽涉到詞典,詞典為所有詞彙的集合。不同於其他方法,我們 立. 設我們的資料包括由𝐼個文本所形成的文集,即𝐹 = {𝑇& , 𝑇( , … , 𝑇0 }。. ‧ 國. 學. 的方法則考慮所謂的「首詞詞典」。首詞詞典蒐集文集中出現在文本第一個也就 是句首的所有詞彙,此處以𝐷& = {𝑊& , 𝑊( , … , 𝑊2 }表示。令詞彙𝑊成為首詞的機率. ‧. 為𝑃(𝑊) = 𝜃7 ,則∑2 ;<& 𝜃9: = 1。另一方面,我們的模型中將考慮文本中前後詞. sit. y. Nat. 彙的相關性,故考慮任兩詞彙所形成的序列(𝑊; 𝑊> ),以及所有兩詞彙序列的集. n. al. 𝑃?𝑊> @𝑊; A = 𝛼9: ,9C ,則必須滿足∑2 ><& 𝛼9: ,9C = 1。. Ch. engchi. er. io. 合為𝐷( = {(𝑊& 𝑊& ), … , (𝑊2 𝑊2 )}。給定前項詞彙下後項詞彙出現的條件機率設為. i n U. v. 以下我們將根據「文字詞典模型」(WDM)[8]建立文集資料的統計機率模型。 已知文集𝐹的機率函數與詞典𝐷 = {𝐷& , 𝐷( }相關,並且為上述𝜃, 𝛼的函數。當𝐹的斷 詞資訊不可得時,假設根據𝐷總共有𝐽種可行、可能的斷詞結果,則𝐹的機率函數 可表示為下式: 𝑃(𝐹|𝐷, 𝜃, 𝛼) = ∑IH<& ∑0F<& 𝑃(𝑇F , 𝑆H |𝐷, 𝜃, 𝛼) ,. (1). 其中,𝑆H 為文集𝐹的第𝑗種可行斷詞資訊。當文本𝑇F 採取𝑆H 斷詞時,則該文本中的 字將可被區隔為𝐾FH 個詞彙且呈現為這些詞彙的序列,則該文本之機率函數為 𝑃?𝑇F , 𝑆H @𝐷, 𝜃, 𝛼A = 𝑃 L𝑊FH,& 𝑊FH,( … 𝑊FH,MNO P. 3. DOI:10.6814/NCCU201900115.

(10) = 𝑃?𝑊FH,& A𝑃?𝑊FH,( @𝑊FH,& A𝑃?𝑊FH,Q @𝑊FH,& 𝑊FH,( A … 𝑃 L𝑊FH,MNO R𝑊FH,& … 𝑊FH,MNO S& P 。 Deng 等人[7]假設文本內詞彙間互相獨立,我們認為此假設過於嚴格也不切實際, 語言文法中存在規律,故詞彙之間不應互相獨立。但若考慮所有可能相關性,則 模型將過於複雜導致計算困難,故我們僅考慮前後詞彙間之相關性。則文本𝑇F 採 取𝑆H 斷詞的機率函數將等於: 𝑃?𝑇F , 𝑆H @𝐷, 𝜃, 𝛼A = 𝑃?𝑊FH,& A𝑃?𝑊FH,( @𝑊FH,& A … 𝑃 L𝑊FH,MNO R𝑊FH,MNO S& P MNO. = 𝜃7NO,T U 𝛼7NO,VWT ,7NO,V , X<(. 政 治 大. 由於文集的機率函數為兩詞彙序列的函數,以「Seq」代表序列「sequence」 ,我. 立. 們將本方法命名為 SeqWORDS。下一節將介紹 SeqWORDS 斷詞法的細節。. ‧ 國. 學. 2.2 SeqWORDS 斷詞法. ‧. SeqWORDS 方法屬於非監督式方法,在沒有詞典的情況下對文本斷詞,我們. y. Nat. sit. 將透過首先估計詞典𝐷以及詞典中的詞彙出現機率𝜃′𝑠, 𝛼′𝑠後,根據這些估計結果. n. al. er. io. 對文集中的文本做最適當的斷詞。在估計的步驟中,由於牽涉參數過多,為了降. i n U. v. [ (\) ,再以最大概似法 低計算困難,我們考慮先給定一過於完備的初始詞典𝐷. Ch. engchi. (Maximum Likelihood Estimation, MLE)估計𝜃′𝑠, 𝛼′𝑠,令估計值為𝜃] (&) ′𝑠, 𝛼^ (&) ′𝑠。 [ (\) ,更新後 當某單或雙詞彙對應之𝜃] (&) , 𝛼^ (&) 過低時,則將該詞彙或雙詞彙移出𝐷 [ (&),之後再重估計參數。經過數次逐步更新詞典與估計機率參數,待 之詞典為𝐷 收斂條件滿足時,則我們獲得最終詞典𝐷以及機率𝜃′𝑠, 𝛼′𝑠之估計結果。最終根據 此估計結果對文本斷詞。以下我們介紹初始詞典的建立、機率參數的最大概似估 計值、以及收斂條件。 我們將文集中所有長度不超過𝜏` 且出現次數不小於𝜏a 次的文字字串(𝜏` 與𝜏a [ (\),此詞典不只包含了所有的真實詞彙,同時也包含 需自訂)都列入初始詞典𝐷 其他沒有意義的字串。後續,我們會根據詞彙的出現機率估計值逐步精簡詞典。 4. DOI:10.6814/NCCU201900115.

(11) 給定詞典,接下來我們介紹機率值𝜃與𝛼的最大概似估計法。 (i)如果連同文 集資料𝐹、斷詞資訊𝑆也可得,則未知參數的完整概似函數(complete likelihood) 為這些機率之乘積,是相對簡單的函數。 (ii)相反地,當𝑆未知時,此可視為是 統計上的遺失值(missing data, incomplete data)問題,則此時僅依據不完整 文集資料𝐹,未知參數的不完整概似函數(incomplete likelihood)為式(1),並 且此概似函數變得複雜許多。連帶地,使得最大概似函數估計值難以計算。傳統 統計上,以 EM 演算法來解決此估計問題。以下我們介紹此問題中在 EM 演算法之 E 步驟與 M 步驟相關結果。. 政 治 大 ′𝑠, 𝛼^立′𝑠)。則一般而言,給定前期估計值(𝜃]. [ (\) = {𝐷 [&(\) , 𝐷 [((\) },以𝑊; 與?𝑊; 𝑊> A在文集中出現的相對頻率作為 給定詞典𝐷 𝜃′𝑠, 𝛼′𝑠的初始值(𝜃] (\). (\). ‧ 國. ′𝑠, 𝛼^ (b) ′𝑠),E. 學. 步驟時計算完整概似函數之條件期望值𝑄,. (b). [ (b) , 𝜃] (b) , 𝛼^ (b)k 𝑄?𝜃, 𝛼|𝜃] (b) , 𝛼^ (b) A = 𝐸e f𝑙𝑜𝑔𝑃(𝐹, 𝑆|𝐷, 𝜃, 𝛼)|𝐹; 𝐷. ‧. I. [ (b) , 𝜃] (b) , 𝛼^ (b) A 。 = l 𝑙𝑜𝑔𝑃?𝐹, 𝑆H @𝐷, 𝜃, 𝛼A𝑃?𝑆H @𝐹; 𝐷. Nat. sit. y. H<&. al. er. io. 接著的 M 步驟則取得?𝜃] (bm&) , 𝛼^ (bm&) A, 其 滿 足. n. ?𝜃] (bm&) , 𝛼^ (bm&) A = 𝑎𝑟𝑔𝑚𝑎𝑥(r,s) 𝑄?𝜃, 𝛼@𝜃] (b) , 𝛼^ (b)A, (bm&). 其 中 𝜃] (bm&) = t𝜃]9T. (bm&). , 𝜃]9u. C h(bm&) engchi. i n U. v. , … , 𝜃]9v w。 令 𝑛> (F,H) (𝑇F )為𝑊> 是否為{𝑆H , 𝑇F }的第一. (bm&) 個詞彙的指示函數(indicator),所以𝜃]9C 為 下 式 :. (bm&) 𝜃]9C. =. [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑0F<& ∑IH<& 𝑛> (F,H)(𝑇F ) 𝑃?𝑆H @𝐹; 𝐷 I 0 (F,H) (𝑇 ) 𝑃?𝑆 @𝐹; 𝐷 [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑2 F H ><& ∑F<& ∑H<& 𝑛>. (bm&). (bm&). ;. (bm&). 而𝛼^ (bm&) = t𝛼^9T ,9T , 𝛼^9T ,9u , … , 𝛼^9v ,9v w, 令𝑛;> (F,H) (𝑇F )表示(𝑊; 𝑊> )在{𝑆H , 𝑇F }出現 (bm&). 的次數,所以𝛼^9: ,9C 為 下 式 : (bm&) 𝛼^9: ,9C. =. [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑0F<& ∑IH<& 𝑛;> (F,H) (𝑇F ) 𝑃?𝑆H @𝐹; 𝐷 I 0 (F,H) (𝑇 ) 𝑃?𝑆 @𝐹; 𝐷 [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑2 F H ><& ∑F<& ∑H<& 𝑛;>. 5. DOI:10.6814/NCCU201900115.

(12) EM 估計式的推導細節可見附錄一。 在 每 次 M 步驟求得?𝜃] (bm&) , 𝛼^ (bm&) A後,我們 [ (b) = {𝐷 [&(b) , 𝐷 [((b) }中的詞彙,此步驟稱為 P 步驟 依據估計的結果來刪減詞典𝐷 (bm&) (Prune-step)。若𝜃]9C 過 低 , 如 低 於 某 設 定 的 𝛿& 時 , 表 示 詞 彙 𝑊> 出 現 在 (b). (bm&). 文 本 的 句 首 機 率 過 低 , 故 將 該 詞 彙 從 𝐷& 中 移 除 。 另 一 方 面 , 若 𝛼^9: ,9C 低 於 某 自 訂 𝛿( 值 , 表 示 𝑊> 出 現 在 𝑊; 之 後 的 條 件 機 率 過 低 , 故 將 (𝑊; 𝑊> ) [((b) 中 移 除 。 詞 典 更 新 為 𝐷 [ (bm&) = {𝐷 [&(bm&) , 𝐷 [((bm&) }之後 , 則 回 到 EM 演 算 從𝐷 法 更 新 機 率 參 數 的 估 計,來 回 重 複 計 算 直 到 收 斂。最 終,SeqWORDS 會. 政 治 大. [ = {𝐷 [& , 𝐷 [( },以及詞典內詞彙的首詞機率與 產生被修減到適當大小的詞典𝐷 條件機率的估計值𝜃], 𝛼^。. 立. ‧ 國. 學. 接著我們根據估計結果對文集𝐹之 文 本 斷 詞 。 令 𝑆H 為𝐹之可行斷詞結果之 一,則以 下 的 條件機率式可以用來測量𝐹以𝑆H 斷詞的可能性, [ , 𝜃], 𝛼^ P *L𝐹, 𝑆H R𝐷 [ , 𝜃], 𝛼^ P *L𝐹 R𝐷. 。. ‧. [ , 𝜃], 𝛼^A = 𝑃?𝑆H @𝐹; 𝐷. Nat. n. al. er. io. [ , 𝜃], 𝛼^)。 𝑆 ∗ = 𝑎𝑟𝑔𝑚𝑎𝑥{ 𝑃(𝑆H |𝐹; 𝐷. sit. y. 則 SeqWORDS 選用最可能的斷詞方法𝑆 ∗ 為目標文集做斷詞,即𝑆 ∗ 滿足. i n U. v. 以𝑆 ∗ 斷詞後,當發現其中有某兩詞彙相對應的𝛼^9: ,9C ≥ λ(λ需自訂)時,則𝑊; 與. Ch. engchi. 𝑊> 可 以 組 合 成 一 個 詞 彙,遂 在 𝑊; 與 𝑊> 移 除 斷 詞 間 隔。此種修正可降低單 字詞彙的頻率,避免文本被斷得過分零碎。圖ㄧ是 SeqWORDS 的演算流程圖。. 6. DOI:10.6814/NCCU201900115.

(13) 圖一:SeqWORDS 演算流程 [ (\) = {𝐷 [&(\) , 𝐷 [((\) } 建立過於完備詞典𝐷. 文集. 計算𝜃] (\) ′𝑠, 𝛼^ (\) ′𝑠. E-step 計算𝑄?𝜃, 𝛼|𝜃] (b) , 𝛼^ (b)A [ (b) , 𝜃] (b) , 𝛼^ (b) k 𝑄 = 𝐸e f𝑙𝑜𝑔𝑃(𝐹, 𝑆|𝐷, 𝜃, 𝛼)|𝐹; 𝐷. 立. 估計𝜃] (bm&) ′𝑠, 𝛼^ (bm&) ′𝑠. ‧ 國. 學. ?𝜃] (bm&) , 𝛼^ (bm&) A = 𝑎𝑟𝑔𝑚𝑎𝑥(r,s) 𝑄?𝜃, 𝛼@𝜃] (b) , 𝛼^ (b)A. [ (bm&) 修剪出詞典𝐷. er. io. sit. Nat. P-step. y. ‧. 不成立. 政 治 M-step 大. n. a l 如果𝜃] (bm&) < 𝛿 ,或 𝛼^ (bm&) i<v 𝛿 ,自𝐷[(bm&)移除 & 9 ,9 n ( C h9 U engchi :. C. •1 −. C. 判斷是否成立? [ (b) , 𝜃] (b) , 𝛼^ (b)A 𝑃?𝐹@𝐷 [ (bm&) , 𝜃] (bm&) , 𝛼^ (bm&) A 𝑃?𝐹@𝐷. •≤𝜀. 成立. 進行斷詞. 7. DOI:10.6814/NCCU201900115.

(14) 2.3 動態規劃法. 若依照原式計算文集概似值需要根據詞典窮舉所有可行的斷詞方法再一一 計算,就給定初始詞典時,一個𝑛個字的文本就會有接近2„S& 種斷詞方法,而每 個文本在計算機率函數時都要列出所有斷詞方式,運算上會相當不容易。所幸文 集概似值可以利用動態規劃法(dynamic programming)[10]做計算,就不需要 羅列出所有可斷詞的方式,計算上比較有效率。 首先,針對第𝑖個文本𝑇F 的機率函數,我們定義𝑍& 為第𝑗種可行斷詞𝑆H 之後第 一個詞彙的長度,則𝑍& = 𝑡& ,𝑡& = 1,2, … , 𝜏` ;第二個詞彙的長度𝑍( = 𝑡( ,𝑡( = 1,2, … , 𝜏` 。則𝑇F 的結果可以依據斷詞後前兩個詞彙的長度將𝐽種可能斷詞結果分 解為𝜏` (. 政 治 大 個互斥集合。則𝑇 的機率函數的動態規劃式如下: 立 F. I. ˆ‰. ˆ‰. ˆ‰. ŠT <& Šu <& ˆ‰. = l l 𝑃 L𝑊‹N[T:Ž ] P 𝑃 L𝑊‹N[Ž T. R𝑊‹N[T:Ž ] P T. 𝑃?𝑇F[ŠT ‘] @𝐷, 𝜃, 𝛼A. 𝑃 L𝑊‹N[Ž. T •T:ŽT •Žu. P ]. ,. y. Nat. ŠT <& Šu <&. T •T:ŽT •Žu ]. ‧. ‧ 國. H<&. 學. 𝑃(𝑇F |𝐷, 𝜃, 𝛼) = l 𝑃?𝑇F , 𝑆H @𝐷, 𝜃, 𝛼A = l l 𝑃(𝑇F , 𝑍& = 𝑡& , 𝑍( = 𝑡( |𝐷, 𝜃, 𝛼). io. er. T. sit. 其 中 𝑊‹N[T:Ž ] 表 示 這 個 詞 彙 是 由 𝑇F 的 第 1字 到 第 𝑡& 字 組 成 , 𝑇F[ŠT ‘] 表 示 𝑇F 第 𝑡& 字 之 後 的 部 分 , 我 們 稱 之 為 剩 餘 文 本 。 剩 餘 文 本 的 機 率 函 數. al. n. v i n 𝑃?𝑇F[Š ‘] @𝐷, 𝜃, 𝛼A還 可 以 用 相C 同 手 法 再 拆 解 下 去,直 hengchi U 到剩餘文本只剩一個 T. 詞,其 機 率 函 數 就 是 一 個 詞 彙 的 邊 際 機 率,如 此 就 能 夠 順 著 拆 解 過 程 回 算 出 𝑃(𝑇F |𝐷, 𝜃, 𝛼)。 令 (b) (b) ˆ‰ 𝜃‹N[T:ŽT] 𝛼 ‹N[T:ŽT ] ‹N[ŽT •T:ŽT •Žu]. 𝜌ŠT = l. [ (b) , 𝜃] (b) , 𝛼^ (b) A 𝑃?𝑇F[ŠT ‘] @𝐷 𝑃 L𝑊‹N[ŽT•T:ŽT•Ž ] P. [ (b) , 𝜃] (b) , 𝛼^ (b)A 𝑃?𝑇F @𝐷. Šu <& ˆ. (bm&). 以及𝑛> (𝑇F ) = ∑ŠT‰<& 𝜌ŠT 𝐼f𝑇F[&:ŠT] = 𝑊> k ,則 𝜃]9C (bm&) 𝜃]9C =. 另 一 方 面,令 𝑛;> (F,ŠT ,Šu) L𝑇𝑖f𝑡1 +𝑡. u. ,. 的動態規劃式如下:. ∑0F<& 𝑛> (𝑇F ) 。 0 ∑2 ><& ∑F<& 𝑛> (𝑇F ). k P是?𝑊; 𝑊> A在 {𝑇F , 𝑍&. 2<. = 𝑡& , 𝑍( = 𝑡( }前兩個詞彙. 8. DOI:10.6814/NCCU201900115.

(15) 之後出 現 的 次 數 , 以 及. 𝜌ŠT ,Šu =. (•) (•) r” s N[T:ŽT ] ”N[T:ŽT ] ,”N[ŽT •T:ŽT •Žu ]. [ *L𝑇F R𝐷. (b). –—. [ (b) , 𝜃] (b) , 𝛼^ (b) ˜ 𝑇F[ŠT ‘] •𝐷 –™š”. N[ŽT •T:ŽT •Žu ]. ›. , 𝜃] (b) , 𝛼^ (b)P. ,. (bm&). 則 𝛼^9: ,9C 的 動 態 規 劃 式 如 下 : (bm&) 𝛼^9: ,9C. ∑0F<& 𝑛;> (𝑇F ) = 2 , ∑><& ∑0F<& 𝑛;> (𝑇F ). 其中 ˆ. ˆ. 𝑛;> (𝑇F ) = ∑ŠT‰<& ∑Šu‰<& 𝜌ŠT,Šu œ𝐼f?𝑇F[&:ŠT ] 𝑇F[ŠTm&:ŠTmŠu] A = ?𝑊; 𝑊> Ak + 𝑛;> (F,ŠT,Šu) ?𝑇F[ŠTmŠu‘] A•。. 政 治 大. 上述動態規劃式的詳細推導過程可見附錄二。在上述的計算式都牽涉 T •T:ŽT •Žu ]. 立. P,這 是 每 個 詞 彙 的 使 用 邊 際 機 率,然 而 此 參 數 並 未 出 現. 學. ‧ 國. 𝑃 L𝑊‹N[Ž. 在 SeqWORDS 的 概 似 函 數 上 , 所 以 未 有 對 應 估 計 式 。 我 們 考 慮 採 用 TopWORDS 的 結 果 , 以 下 為 細 節 。. ‧. al. n. 其 中 𝑢>. (F,H). [ (b) , 𝜃] (b) A ∑0F<& ∑IH<& 𝑢> (F,H) (𝑇F )𝑃?𝑆H @𝐹; 𝐷. er. io. 𝑃?𝑊> A =. sit. Nat. 每 個 詞 彙 的 使 用 機 率 , 其 𝑃?𝑊> A的 EM 估 計 式 是 :. y. TopWORDS 假 設 每 個 詞 彙 出 現 獨 立 且 分 配 相 同 , 方 法 中 僅 需 估 計. v ni. I 0 (F,H) (𝑇 )𝑃?𝑆 @𝐹; 𝐷 [ (b) , 𝜃] (b) A ∑2 F H ><& ∑F<& ∑H<& 𝑢>. Ch. engchi U. ,. (𝑇F )表 示 使 用 𝑆H 為 𝑇F 斷 詞 時 𝑊> 出 現 的 次 數 。 SeqWORDS 使 用 這. [ (b) , 𝜃] (b) A時 依 舊 個 估 計 式 計 算 每 個 詞 彙 的 使 用 機 率 , 但 在 計 算 𝑃?𝑆H @𝐹; 𝐷 考 慮 到 詞 彙 前 後 的 相 關 性 , 所 以 SeqWORDS 使 用 下 式 計 算 詞 彙 的 使 用 邊際機率: 𝑃?𝑊> A =. [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑0F<& ∑IH<& 𝑢> (F,H) (𝑇F )𝑃?𝑆H @𝐹; 𝐷 I (F,H) (𝑇 )𝑃?𝑆 @𝐹; 𝐷 [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑0F<& ∑2 F H ><& ∑H<& 𝑢>. 。. 令 𝑢> (F,ŠT) ?𝑇F[ŠT ‘] A是𝑊> 在{𝑇F , 𝑍& = 𝑡& }的第一個詞彙之後出現的次數,則 𝑃?𝑊> A的 動態規劃式如下:. 9. DOI:10.6814/NCCU201900115.

(16) 𝑃?𝑊> A =. ∑0F<& 𝑢> (𝑇F ) , 0 ∑2 ><& ∑F<& 𝑢> (𝑇F ). 其中 ˆ‰. 𝑢> (𝑇F ) = l 𝜌ŠT œ𝐼f?𝑇F[&:ŠT ] A = ?𝑊> Ak + 𝑢> (F,ŠT) ?𝑇F[ŠT ‘] A• 。 ŠT <&. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 10. DOI:10.6814/NCCU201900115.

(17) 第三章 實作 首先簡短介紹本文使用的文集。《紅樓夢》又稱《石頭記》,是作者曹雪芹 (1715—1763)[11]撰於清乾隆年間的長篇章回小說,全書總回數有一百二十回。 文壇上曾對《紅樓夢》最後四十個章回的作者有爭議,有一說是曹本人所寫但遺 失之後,被程偉元與高鶚找到殘稿並綴補完成;也有一說是完全由高與程二人續 寫,胡適即為這種說法的支持者[12]。不過即使有爭議,前後段章節的寫作風格 仍被認為極為相似。本研究假設全文的用字遣詞風格一致,不考慮不同作者對斷 詞的影響。. 政 治 大 史家四大家,彼此因為婚姻或其他關係結合在一塊,形成以賈家為首的龐大且顯 立 《紅樓夢》的主角是賈寶玉其餘配角多為女性,書中有賈家、薛家、王家與. ‧ 國. 學. 赫的貴族。全書主要描寫大觀園內的生活故事,主配角間的情愛關係,及這一貴 族的興衰。《紅樓夢》最大的特色是角色眾多,四大家族內的主僕就達到四百餘. ‧. 人,總人物數也有七百餘人。全書文言文、詩句與白話文交雜,對本斷詞方法來. sit. y. Nat. 說是種挑戰,因為不同文體的組成模式不同,可能影響詞彙使用機率的估計值。. al. er. io. 紅樓夢已成書四百年,幾經流傳不免有不同版本,本研究採用《紅樓夢》版. v. n. 本來自維基文庫(https://zh.wikisource.org/zh-hant/紅樓夢),共有 73 萬字. Ch. engchi. i n U. (不含句讀),約 11 萬句(文本),使用約 4,500 個不同中文字。 本研究使用電腦機型為 2018 Apple Macbook Pro 配備 2.3GHz CPU 與 8-GB RAM。三個方法的參數設定與套件來源如下:SeqWORDS 使用的參數為𝜏` = 10、𝜏a = 3、𝛿& = 10𝑒 − 10、𝛿( = 10𝑒 − 10、𝜆 = 0.1;TopWORDS 斷詞套件來自 Feng Qian (https://github.com/qf6101/topwords) ,參數設定詞彙出現頻率不低於 3 次、 詞 彙 使 用 機 率 不 低 於. 1e-8 ; Jieba. 斷 詞 套 件 來 自. fxsjy. (https://github.com/fxsjy/jieba) ,使用精確模式。表一列出各方法的運算時 間以及斷詞統計數量。SeqWORDS 方法耗時約 26 分鐘,運算時間是三個方法中最 長的,SeqWORDS 在文集中共放置約 46 萬個斷詞間隔,間隔與標點符號共斷出約. 11. DOI:10.6814/NCCU201900115.

(18) 57 萬個詞彙,是三個方法中斷出最多詞彙數,但也產生最少不同詞彙種類(約 1.3 萬個不同詞彙)。相對地,TopWORDS 共放置約 24 萬個斷詞間隔,斷出約 35 萬個 詞彙,是三個方法中斷出最少詞彙量的,而不同詞彙數有約 4.5 萬個,遠超過 SeqWORDS。可見 SeqWORDS 偏好較短的詞彙而 TopWORDS 斷詞的詞彙則偏長。Jieba 的斷詞結果則介於兩方法之間,全文共放置約 35 萬個斷詞間隔,斷出約 46 萬個 詞彙,其中約 5.5 萬個不同詞彙。值得一提的是 Jieba 運算只耗時約 10 秒鐘, SeqWORDS 則需要大量計算時間,放寬模型假設的代價不小。 紅樓夢雖有七百餘名角色,然而,本研究盡最大努力只搜集到部分名單,其. 政 治 大 603 個名字。TopWORDS 與 Jieba 分別在名單中找到 280 與 317 個人名,而 SeqWORDS 立. 中四大家族的主僕已盡可能全部網羅,並考慮到角色的字號、綽號或稱謂共有. 只找到 123 個,表現遜於前兩者。兩非監督式方法合力發現的 284 個人名中,有. ‧ 國. 學. 62 個人名 Jieba 沒有發現到。見表一。. ‧. 總詞彙數. y. sit. TopWORDS. 3 分鐘 a l26 分鐘 v i n Ch 461,237 243,319 engchi U. n. 斷詞間格數. io. 計算時間. SeqWORDS. er. 斷詞方法. Nat. 表一:SeqWORDS、TopWORDS 與 Jieba 斷詞後之詞彙數以及運算時間。 Jieba. 0.16 分鐘 352,486. 569,702. 350,640. 460,951. 不同詞彙數. 13,157. 45,860. 55,371. 發現人名數. 123. 280. 317. 12. DOI:10.6814/NCCU201900115.

(19) 在 SeqWORDS 斷出的 57 萬個詞彙中,最長的詞彙有 6 個字,詞彙平均長度是 1.28 個字,長度的變異數是 0.26。在這 57 萬個詞彙中,約有 40 萬個詞彙是一個 字的單字詞彙,單字詞彙的數量在三個方法中是最多的,而 2 個字的詞彙約有 13 萬個,鮮少有多於 2 個字以上的詞彙。見圖二(a)。SeqWORDS 是把文本斷得比 較碎的,截斷成許多詞彙的文本,或許有些文言文段落可以說得通,但部分白話 文段落就顯得相當糟糕,例如下面這段: 「那|僧|便|念|咒|書|符,大|展|幻|術,將|一|塊|大|石|登時|變| 成|一|塊|鮮|明|瑩|潔的|美玉,且|又|縮成|扇|墜|大|小|的|可|佩|. 政 治 大. 可|拿,那|僧|托|於|掌上,笑道,形|體|倒|也|是|個|寶|物|了」 (紅樓夢第一回),. 立. 句中有許多詞彙被截斷成單字詞彙,例如幻術、鮮明、瑩潔等等,這些詞彙被截. ‧ 國. 學. 斷掉了,喪失它們的語意。更多 SeqWORDS 斷詞結果可見附錄三。. ‧. 在 TopWORDS 斷出的 35 萬個詞彙中,最長的詞彙有 10 個字與平均長度 2.08. y. Nat. 個字皆是三種方法最多,詞彙長度的變異數 0.96 也是三個方法最大。TopWORDS. er. io. sit. 斷出約 9.5 萬個多於 2 個字的長詞,2 個字的詞彙約 15 萬個,1 個字的詞彙則約 10 萬個。詞彙長度 2 個字是眾數,這點與其他兩個方法不同,其他兩個方法的. al. n. v i n 眾數是 1 個字,見圖二(b)。TopWORDS 斷出的詞彙比較長,然而長詞往往不是 Ch engchi U. 真正的詞彙,例如下段:. 「我們這里|都是各|佔|一樣|兒,我們|男|的只管|春秋|兩|季|地租 |子,閒時|只帶著|小爺們|出門子|就完了,我只管|跟|太太奶奶們| 出門|的事,皆因你|原是|太太|的親戚」(紅樓夢第六回), 不少句中就有相當多詞彙合在一起沒有被辨識出來,例如我們這里、太太奶奶們 等等,這些數個詞彙合在一起形成長詞彙也會失去它們原有的語意。 在 Jieba 斷出的 46 萬個詞彙中,最長的詞彙有 7 個字,詞彙平均長度是 1.58 個字,詞彙長度的變異數是 0.42。Jieba 斷出的詞彙長度主要集中 1 個字與 2 個 字,2 個字的詞彙約 20 萬個是三個方法中最多的。見圖二(c) 。Jieba 斷出的詞 13. DOI:10.6814/NCCU201900115.

(20) 彙長度都在一到兩字之間,斷成的語句大致是單字詞彙與 2 字詞彙穿插,大致與 實際中文詞彙相符,但也會有詞彙被截斷得不大合理,斷詞的段落如下: 「王夫人|笑|道,倒|是|你|明白,就|難|為|你|親自|走|一趟|更好, 于是|寶釵|去|了,半日|回來|說,已遣|人|去,赶晚|就|有|回信| 的,明日|一早|去配|也|不|遲,王夫人|自是|喜悅」(紅樓夢第七十 七回), 有些被截斷出的詞彙不大合理,例如已遣、赶晚、去配等等,錯誤的詞彙對 理解文本的幫助不大。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 14. DOI:10.6814/NCCU201900115.

(21) (a). (b). 立. 政 治 大. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. (c). Ch. engchi. i n U. v. 圖二:(a)SeqWORDS、(b)TopWORDS 與(c)Jieba 斷詞詞彙長度之長條圖。. 15. DOI:10.6814/NCCU201900115.

(22) 在 SeqWORDS 為紅樓夢斷出的 57 萬個詞彙中,約 70%的詞彙都是只有 1 個字 的單字詞彙,僅約 23%的詞彙都是 2 字詞彙。在 TopWORDS 斷出的 35 萬個詞彙 中,3 個字(含)以上的詞彙佔比多達 27%,顯示 TopWORDS 更傾向斷出長的詞彙。 Jieba 斷出的詞彙長度多落在 1 到 2 個字,兩種長度詞彙的數量接近約在 45%上 下,而 3 個字(含)以上的詞彙也有佔 7.5%。見圖三。 SeqWORDS 是基於 TopWORDS 之上嘗試使用更複雜的模型發展出來的方法,在 實作之前,預期兩者的斷詞結果應該要是相似的,但結果卻顯示兩者有著相反的 風格,SeqWORDS 考慮了前後詞彙的關係卻傾向斷出比較短的詞彙,TopWORDS 假. 政 治 大 SeqWORDS 斷出太多單字詞彙,部分二到三個字的詞彙可能都被截斷了,又 立. 設詞彙之間獨立卻有斷出較長詞彙的趨勢。. 其發現的不同詞彙數與同為非監督式方法的 TopWORDS 相比少了三萬個之多,發. ‧ 國. 學. 現的人名也不及 TopWORDS 的一半,表示發現詞彙的能力是不佳的。而兩個非監. y. Nat. 非監督式方法能夠幫助到監督式方法擴展詞典的能力。. ‧. 督式方法在發現名字的部分合力找到 Jieba 沒有找到的 62 個名字,這點顯示了. er. io. sit. TopWORDS 傾向斷出比較長的詞彙,然而,以白話文而言,四個字以上的詞彙 並不多見,會長達四個字的詞彙可能是成語或俚語;以文言文來說,文言文中三. al. n. v i n 個字的詞彙就更少見了。SeqWORDS C h 斷出的詞彙多數只有一個字,如前文,很多詞 engchi U. 彙都被截斷了。雖然 SeqWORDS 斷出的詞彙雖然比較短,但紅樓夢中有很大部分. 屬於文言文,所以 SeqWORDS 斷詞的結果不可謂不合理。Jieba 斷詞多屬一或二 個字的詞彙,符合普遍中文詞彙。雖然三個方法斷出長短詞的數量與比例不同, 但詞彙的內容更是評估方法優劣的關鍵,以下我們來探究 SeqWORDS 方法斷詞後 出現頻率較高的非單字詞彙。. 16. DOI:10.6814/NCCU201900115.

(23) (a). (b). 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. (c). Ch. engchi. i n U. v. 圖三:(a)SeqWORDS、(b)TopWORDS 與(c)Jieba 斷出詞彙長度比例圓餅圖。 17. DOI:10.6814/NCCU201900115.

(24) 為 了 解 SeqWORDS 斷 詞 後 出 現 頻 率 高 的 非 單 字 詞 彙 , 我 們 在 表 二 列 出 SeqWORDS 結果最常出現的前 100 個非單字詞彙。這 100 個詞彙包含了 20 個人物 名,這些人物大致上是故事的核心人物。包括主角「寶玉」名列第一,與寶玉同 輩的女性有襲人、黛玉與寶釵等等,這些人不只是主角的玩伴,有些甚至是他的 情人。其他還有賈家長輩如賈母、鳳姐與薛姨媽,這些人是另一線劇情的核心。 而其餘詞彙則是稱呼或是小說會用到的常用句式。從這些高頻詞彙來看, SeqWORDS 斷詞結果並不太差。 我們可以用詞彙雲來對常出現的詞彙做視覺化的呈現,詞彙雲的大小就是代. 政 治 大 寶玉,且比較明顯的詞彙大致上是人名與小說會用到的句式。三個方法斷出的高 立 表詞彙出現的頻率。在圖四是三個方法的詞彙雲圖,三張圖中最大的詞彙雲都是. 頻詞彙內容大致相似。. ‧ 國. 學. 而在詞彙雲中各詞彙的位置是隨機呈現,並不表示詞彙之間的距離遠近關係,. y. sit. n. al. er. io. Nat. 相似性。. ‧. 所以為了瞭解詞彙之間的關係,我們接續使用其他工具來探究文章中詞彙之間的. Ch. engchi. i n U. v. 18. DOI:10.6814/NCCU201900115.

(25) (a). (b). 立. 政 治 大. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. (c). Ch. engchi. i n U. v. 圖四:(a)SeqWORDS、(b)TopWORDS 與(c)Jieba 的詞彙雲。. 19. DOI:10.6814/NCCU201900115.

(26) 表二:SeqWORDS 斷詞最常出現前 100 個詞彙(底線標示人名)。 排序 詞彙 頻率 排序 詞彙 頻率 排序 詞彙 頻率 排序 詞彙 頻率. 1. 寶玉 3265. 26. 太太. 803. 51. 听見. 470. 76. 家的. 327. 2. 笑道 2066. 27. 兩個. 783. 52. 所以. 469. 77. 媳婦. 327. 3. 賈母 1677. 28. 只見. 764. 53. 二爺. 458. 78. 告訴. 326. 4. 也不 1447. 29. 自己. 755. 54. 過來. 443. 79. 叫他. 326. 5. 鳳姐 1357. 30. 沒有. 740. 55. 出去. 443. 80. 好了. 323. 6. 一個 1281. 31. 怎么. 734. 56. 探春. 439. 81. 外頭. 313. 7. 襲人 1145. 32. 起來. 703. 57. 如此. 425. 82. 自然. 311. 8. 我們 1141. 33. 丫頭. 692. 58. 什麼. 423. 83. 心里. 310. 9. 黛玉 1089. 34. 听了. 690. 59. 鴛鴦. 422. 84. 妹妹. 304. 10. 寶釵 1072. 85. 如何. 293. 11. 王夫人 1065. 86. 怎麼. 290. 12. 如今 1010. 689 60 寶玉道 418 治 政 36 老爺 635 61 見了 大 404 37立他們 631 62 薛姨媽 402. 87. 小丫頭 289. 13. 什么 1009. 38. 進來. 613. 63. 罷了. 390. 88. 薛蟠. 288. 14. 老太太 967. 39. 這里. 613. 64. 婆子. 390. 89. 見他. 287. 15. 姑娘. 964. 40. 說著. 610. 65. 紫鵑. 385. 90. 在這里 287. 16. 說道. 959. 41. 東西. 610. 66. 都是. 383. 91. ‧. 邢夫人 287. 17. 你們. 956. 42. 了一. 603. 67. 今日. 372. 92. 問道. 18. 奶奶. 936. 43. 咱們. 602. 68. 李紈. 368. 93. 林黛玉 283. 19. 賈政. 933. 44. 就是. 600. 69. 還有. 362. 94. 還不. 271. 20. 出來. 925. 95. 到了. 268. 21. 去了. 875. 96. 原來. 267. 22. 眾人. 873. a l 姐姐 567 70 二人 360 v i n C h 564 71 銀子 46 平儿 356 engchi U 47. 只得. 534. 72. 尤氏. 343. 97. 香菱. 265. 23. 那里. 859. 48. 只是. 530. 73. 聽了. 342. 98. 几個. 265. 24. 知道. 841. 49. 大家. 520. 74. 晴雯. 342. 99. 吃了. 264. 25. 一面. 832. 50. 回來. 506. 75. 會子. 338. 100. 姊妹. 261. 來了. y. sit. io. n. er. Nat. 45. 學. ‧ 國. 35. 285. 20. DOI:10.6814/NCCU201900115.

(27) 經過斷詞,研究人員可進一步探索文本內容,例如文中兩詞彙之關聯性。若 斷詞結果不理想可能會影響到文本詞彙在語意上的關係,從而得到無法解釋的結 果,故這部分將研究經過不同斷詞方法處理後的資料分析之差異。2013 年時 Mi kolov 等人提出詞向量分析工具 Word2vec 方法[13][14]將詞彙以高維度實數向 量表達出來,則兩向量之間的餘弦值就可用來測量兩個相對應詞彙的相似度。我 們的 Word2vec 套件來自 gensim(https://radimrehurek.com/gensim/index.htm l) ,選用模型是 skip-gram model、設定詞彙向量 100 維。將三種斷詞方法的結 果進行詞向量分析。我們特別針對與「寶玉」最相關的 50 個詞彙,來探究這些. 政 治 大 將 SeqWORDS 斷詞的結果進行詞向量分析後發現與「寶玉」最相似的前 50 個 立. 詞彙是否合理、與故事內容是否一致。. 詞彙有高達 42 個人名,見表三,其中包括主角的平輩們,如黛玉、襲人、寶釵. ‧ 國. 學. 等等,與賈府長輩,如鳳姐、賈母、薛姨媽等等。同樣的分析中,TopWORDS 的得. ‧. 到與寶玉最相近的前 50 個詞彙僅 12 個為非單字詞彙,其中有 5 個人名,見表. y. Nat. 四。Jieba 的結果則有 21 個人名與寶玉最相似,是 SeqWORDS 的一半,剩餘的詞. n. al. er. io. sit. 彙多是形容詞與小說中的句式,見表五。. Ch. engchi. i n U. v. 21. DOI:10.6814/NCCU201900115.

(28) 表三:SeqWORDS 斷詞結果與寶玉最相關的 50 個詞彙(底線標示人名)。 相關排名. 詞彙. 相關排名. 詞彙. 1. 黛玉. 26. 五儿. 2. 寶釵. 27. 李紈. 3. 襲人. 28. 尤氏. 4. 紫鵑. 29. 周瑞家的. 5. 林黛玉. 30. 鳳姐儿. 6. 賈政. 31. 甄寶玉. 7. 晴雯. 32. 雪雁. 8. 薛姨媽. 33. 秦鐘. 9. 香菱. 34. 壇前. 10. 薛蟠. 35. 秦氏. 11 12. 平兒 侍書. 14. 鴛鴦. 39. 呆呆的. 15. 芳官. 40. 擔不. 16. 邢夫人. 41. 抬頭. 17. 劉姥姥. 42. 彩云. 18. 鳳姐. 43. 司棋. 19. 探春. 44. 麝月. 20. 趙姨娘. 45. 蟬儿. 金桂. 46. 湘云. 惜春. 47. al. n. 22. 23 24 25. C薛蝌 h e n g c h48i. y. sit. io. 21. er. ‧ 國. 38. ‧. 平儿. 學. 立. 倏然. Nat. 13. 36 治 政 王夫人 37 大 賈母. i n U. v牆角 齡官. 眾人. 49. 捏一. 妙玉. 50. 吏部. 22. DOI:10.6814/NCCU201900115.

(29) 表四:TopWORDS 斷詞結果與寶玉最相關的 50 個詞彙(底線標示人名)。 相關排名. 詞彙. 相關排名. 詞彙. 1. 那. 26. 都. 2. 來. 27. 如今. 3. 因. 28. 我. 4. 的. 29. 子. 5. 他. 30. 我們. 6. 去. 31. 了. 7. 之. 32. 和. 8. 便. 33. 著. 9. 又. 34. 出來. 10. 儿. 35. 黛玉. 11. 一. 12. 他們. 38. 賈母. 14. 將. 39. 時. 15. 有. 40. 16. 你. 41. 賈璉. 17. 人. 42. 一個. 18. 在. 43. 就. 19. 也. 44. 才. 20. 大. 45. 自己. 46. 等. 47. al. n. 22. 23 24 25. C你們 h e n g c h48i. y. sit 些 內. er. io. 21. 賈政. ‧. ‧ 國. 這. 學. 立. 是. Nat. 13. 36 治 政 上 37 大. i n U. v作 得. 鳳姐. 49. 好. 只. 50. 要. 23. DOI:10.6814/NCCU201900115.

(30) 表五:Jieba 斷詞結果與寶玉最相關的 50 個詞彙(底線標示人名)。 相關排名. 詞彙. 相關排名. 詞彙. 1. 黛玉. 26. 一疊聲. 2. 紫鵑. 27. 一會. 3. 寶釵. 28. 靜靜儿. 4. 襲人. 29. 母親. 5. 賈政. 30. 冊子. 6. 香菱. 31. 林家. 7. 瘋話. 32. 只裝. 8. 一遍. 33. 一會子. 9. 鴛鴦. 34. 林黛玉. 10. 賈璉. 35. 金桂. 11. 鳳姐. 12. 便罷. 14. 細細. 39. 一會儿. 15. 芳官. 40. 先說. 16. 胡君榮. 41. 先看. 17. 遠遠. 42. 晴雯. 18. 一聲. 43. 司棋. 19. 賈母. 44. 麝月. 20. 薛姨媽. 45. 蟬儿. 有理. 46. 湘云. 呆. 47. al. n. 22. 23 24 25. C不耐煩 h e n g c h48i. y. sit. io. 21. er. ‧ 國. 38. ‧. 呆呆. 學. 立. Nat. 13. 36 史湘云 治 政 平儿 37 大 后來. i n U. v牆角 齡官. 謠言. 49. 捏一. 實話. 50. 吏部. 24. DOI:10.6814/NCCU201900115.

(31) 我們利用主成分分析(principal component analysis, PCA)[15]將 100 維 向量投影到二維平面做視覺化,觀察詞彙之間的關係是否合理。 圖五中三個圖形顯示各方法斷詞後與寶玉最相近的 50 個詞彙向量之相對位 置圖。圖五(a)顯示 SeqWORDS 斷詞後 51 個詞彙之相對位置圖,我們發現與寶 玉較近的盡是與他最親暱的女性,稍遠的族群則是其侍女或是長輩,非人名的名 詞與寶玉距離較遠,與故事內容相符合,故利用 SeqWORDS 斷詞後進行文字探勘 是可行的。而 TopWORDS 的結果中與寶玉相關的詞彙多是常用的單字詞彙,非但 這些詞彙沒有特殊意義,由圖五(b)也無法看出詞彙之間的群集現象,故顯示. 政 治 大 上可觀察到 Jieba 與 SeqWORDS 有類似的趨勢,但寶玉與所有詞彙皆有相當距離, 立. 此文透過 TopWORDS 的斷詞結果搭配在 Word2vec 上效果並不好。我們在圖五(c). 而最近的詞彙是與其較親暱的角色,較遠的族群則是非人名的詞彙群。. ‧ 國. 學. 綜上,雖然與其他兩個方法相比,SeqWORDS 的斷詞結果在有些面向不夠完. ‧. 善,但 SeqWORDS 斷詞套用到文本探勘工具得到比其他方法更合乎文本內容的結. y. sit. io. n. al. er. 工作是可行的。. Nat. 果,顯示了整體而言 SeqWORDS 斷詞的成果並不差勁,以 SeqWORDS 進行文本探勘. Ch. engchi. i n U. v. 25. DOI:10.6814/NCCU201900115.

(32) (a). 立. ‧. ‧ 國. 學. io. sit. y. Nat. n. al. er. (b). 政 治 大. Ch. engchi. i n U. v. 26. DOI:10.6814/NCCU201900115.

(33) (c). 立. 政 治 大. ‧ 國. 學. 圖五:(a)SeqWORDS、(b)TopWORDS 與(c)Jieba 與寶玉最相關的 50 個詞彙. ‧. io. sit. y. Nat. n. al. er. 向量利用 PCA 投影的結果。. Ch. engchi. i n U. v. 27. DOI:10.6814/NCCU201900115.

(34) 第四章 結論 中文文本的基本單位雖然是中文字,但構成文意的基礎是詞彙,所以中文文 本探勘的初步處理為辨識文本中出現的詞彙。中文不若英文般在詞彙之間有自然 間隔,且又受限於中文語意複雜,詞彙沒有固定的形貌,所以在斷詞上相當不容 易。過往的斷詞方法中多是監督式方法,這類方法成效良好,也被廣泛的運用, 但當詞典不完備時可能出現問題。相對的,非監督式方法就不受文集內容或詞典 影響,特別適合用來探索少見的、新穎的、特定主題的文本。本研究主要發展一 非監督式斷詞方法。. 政 治 大 位置的詞彙皆來自同一個分佈且彼此獨立 ,這樣的假設忽略了詞彙在文意之間的 立. 我們的方法改良了非監督式方法 TopWORDS[7],先前的方法假設文本中每個. ‧ 國. 學. 關聯,所以我們假設前後詞彙存在相關性,並且進一步提出 SeqWORDS 斷詞法。 我們由《紅樓夢》的實作分析結果發現,SeqWORDS 的斷詞偏好與 TopWORDS. ‧. 差異甚大,前者斷出較多的單字詞彙,一部分的詞彙被截斷成一個個單字詞彙,. sit. y. Nat. 而後者斷出較多的長詞彙,這些長詞實際上多是由數個詞彙所組成。Jieba 方法. al. n. 的影響。. er. io. 的結果則介於這兩個方法之間。這些斷詞結果都會對文本內容的解讀有不同程度. Ch. engchi. i n U. v. 我們統計 SeqWORDS 的所斷出詞彙的出現頻率發現,重要人物的稱呼與小說 的句式是最常出現的詞彙,並沒有太大的異樣,與期待相符。再將 SeqWORDS 的 斷詞結果應用到詞向量分析上,結果得到與「寶玉」最為相關的詞彙盡是在文本 中與他關係密切的人名,且將詞彙向量在平面上視覺化發現詞彙的位置也大致符 合故事的內容。相較之下,TopWORDS 與 Jieba 未見如此與故事相符的結果。以 上種種,足見 SeqWORDS 的成果堪用,在實際應用上是可行的。 我們在 SeqWORDS 的過程中使用動態規劃法來提升運算效率,但是將原本的 算式改寫成動態規劃式時,牽涉到原 WDM 模型中未出現的詞彙邊際機率,此邊際 機率並非我們有興趣的參數,在估計過程中也未被考慮或估計。為簡化,我們直. 28. DOI:10.6814/NCCU201900115.

(35) 接採用 TopWORDS 的估計式,這點是日後可以改進的地方。目前 SeqWORDS 所需的 運算時間相當長,若面對內容更多的文集,在實務上會難以應用。耗時的原因可 能是 EM 估計法的繁複,可以開發更有效率的演算方式來降低分析時間為未來研 究方向之一。最後,TopWORDS 與 SeqWORDS 都依據目標文集來獲得詞彙的機率之 估計值,若分析之後即丟棄這些估計結果將相當可惜,日後也許能規劃出更新估 計結果的機制。將現有的估計結果運用在新文集來獲得詞彙的機率的新估計值。 則每次應用在不同文集時,也能不斷地更新詞彙的機率估計值,以增進估計表現。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 29. DOI:10.6814/NCCU201900115.

(36) 參考文獻 [1] The Stanford Natural Language. Processing Group, Chinese Natural Language Processing and Speech Processing. Retrieved May 24, 2019, from https://nlp.stanford.edu/projects/chinese-nlp.shtml#cws [2] J. Lafferty, A. McCallum, F. C.N. Pereira, (2001), Conditional random fields: Probabilistc models for segmenting and labeling sequence. 政 治 大 Learning 2001(ICML 2001) 立 , pp 282–289.. data. Proceedings of the 18th International Conference on Machine. ‧ 國. 學. [3]. fxsjy, Jieba, Retrieved May 27, 2019, from https://github.com/fxsjy/ji. sit. y. Nat. [4]. ‧. eba. al. er. io. L. R. Rabiner, B. H. Juang, (1986), An introduction to hidden Markov. v. n. models, IEEE ASSP MAGAZINE, vol 3, no 1, pp. 4-16. [5]. Ch. engchi. i n U. A. Chen, (2003), Chinese word segmentation using minimal linguistic knowledge. Proceeding SIGHAN '03 Proceedings of the second SIGHAN. workshop on Chinese language processing, Vol 17, pp 148–151. [6] K. J. Chen, S. H. Liu, (1992), Word identification for Mandarin Chinese sentences. Proceeding COLING '92 Proceedings of the 14th conference. on Computational linguistics, Vol 1, pp 101–107. [7]. 30. DOI:10.6814/NCCU201900115.

(37) K. Deng, P. K. Bol, K. J. Li, and J. S. Liu, (2016). On the unsupervised analysis of domain-specific Chinese texts. Proceedings of the. National Academy of Sciences of the United States of America, vol 113, pp 6154–6159.. [8] X. Ge, W. Pratt, P. Smyth, (1999), Discovering Chinese words from unsegmented text. Proceeding SIGIR '99 Proceedings of the 22nd annual. international ACM SIGIR conference on Research and development in. 政 治 大. information retrieval, pp 271–272. [9]. 立. A. P. Dempster, N. M. Laird, D. B. Rubin, (1977), Maximum likelihood from. ‧ 國. 學. incomplete data via the EM algorithm. Journal of the Royal Statistical. y. Nat. [10]. ‧. Society. Series B, vol 39, no 1, pp 1-38.. er. io. sit. R. Bellman, (1954), The theory of dynamic programming, Bulletin of the. American Mathematical Society, vol 60, no 6, pp 503-515.. n. al. [11]. X. Cao, Story-of-Stone.. Ch. engchi. i n U. v. [12] 胡適,(1988),胡適紅樓夢研究論述全編,上海古籍出版社。 [13] T. Mikolov, K. Chen, G. Corrado, J. Dean, (2013). Efficient Estimation of Word Representations in Vector Space, arXiv:1301.3781v3. [14] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean, (2013). Distributed Representations of Words and Phrases and their Compositionality, NIPS 31. DOI:10.6814/NCCU201900115.

(38) 2013,3111-3119. [15] K. Pearson, (1901), On Lines and Planes of Closest Fit to Systems of Points in Space. Philosophical Magazine, vol 2, pp 559-572.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 32. DOI:10.6814/NCCU201900115.

(39) 附錄一 EM 演算法 l E-step [ (b) , 𝜃] (b) , 𝛼^ (b) ] Q(𝜃, 𝛼|𝜃] (b) , 𝛼^ (b) ) = 𝐸e [𝑙𝑜𝑔𝑃(𝐹, 𝑆|𝐷, 𝜃, 𝛼)|𝐹, 𝐷 I. [ (b) , 𝜃] (b) , 𝛼^ (b) ) = l 𝑙𝑜𝑔𝑃(𝐹, 𝑆H |𝐷, 𝜃, 𝛼)𝑃(𝑆H |𝐹; 𝐷 H<& I. 0. [ (b) , 𝜃] (b) , 𝛼^ (b) ) = U l 𝑙𝑜𝑔𝑃(𝑇F , 𝑆H |𝐷, 𝜃, 𝛼)𝑃(𝑆H |𝐹; 𝐷 F<& H<& MNO. I. 0. [ (b) , 𝜃] (b) , 𝛼^ (b) ) = U l 𝑙𝑜𝑔[𝑃(𝑊FH,& ) U 𝑃(𝑊FH,X |𝑊FH,(XS&) )] 𝑃(𝑆H |𝐹; 𝐷. 政 治 大. F<& H<& I. 0. X<(. 2. 2. = U l 𝑙𝑜𝑔[U 𝜃9: „C. 立. F<& H<&. M-step. 2. U U 𝛼9:,9C „:C. (N,O) (‹ ) N. [ (b) , 𝜃] (b) , 𝛼^ (b) ) ] 𝑃(𝑆H |𝐹; 𝐷. ;<& ><&. 學. ‧ 國. 2. 2. 𝑄 = 𝑄 + λ\ ¥l 𝜃9C − 1¦ + λ& ¥l 𝛼9T ,9C − 1¦ + ⋯ ><&. ><&. ‧. 2. y. Nat. + λ2 ¥l 𝛼9v ,9C − 1¦. sit. ><& I. `. io. 𝑛> (F,H) (𝑇F ) ∂ [ (b) , 𝜃] (b) , 𝛼^ (b) A + λ\ = 0 Q = ll 𝑃?𝑆H @|𝐹; 𝐷 ∂𝜃9C 𝜃9C. er. •. ;<&. (N,O) (‹ ) N. n. al. Ch. ¨<& H<& 2. engchi. ∂ Q = l 𝜃9C − 1 = 0 ∂λ\. i n U. v. ><&. 0. I. 𝜃9C = − l l F<& H<& 2. 2. l 𝜃9C ><&. 0. 𝑛> (F,H)(𝑇F ) [ (b) , 𝜃] (b) , 𝛼^ (b) A 𝑃?𝑆H @𝐹; 𝐷 λ\ I. 𝑛> (F,H)(𝑇F ) [ (b) , 𝜃] (b) , 𝛼^ (b) A = 1 = − lll 𝑃?𝑆H @𝐹; 𝐷 λ\ ><& F<& H<& 2. 0. I. [ (b) , 𝜃] (b) , 𝛼^ (b) A λ\ = − l l l 𝑛> (F,H) (𝑇F ) 𝑃?𝑆H @𝐹; 𝐷 ><& F<& H<&. 33. DOI:10.6814/NCCU201900115.

(40) (bm&) 𝜃]9C. =. [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑0F<& ∑IH<& 𝑛> (F,H) (𝑇F ) 𝑃?𝑆H @𝐹; 𝐷. I 0 (F,H) (𝑇 ) 𝑃?𝑆 @𝐹; 𝐷 [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑2 F H ><& ∑F<& ∑H<& 𝑛>. (bm&) (bm&) (bm&) 𝜃] (bm&) = t𝜃]9T , 𝜃]9u , … , 𝜃]9v w I. 0. 𝑛;> (F,H) (𝑇F ) [ (b) , 𝜃] (b) , 𝛼^ (b)A + λ; = 0 Q = ll 𝑃?𝑆H @𝐹; 𝐷 ∂𝛼9: ,9C 𝛼9: ,9C ∂. F<& H<& 2. ∂ Q = l 𝛼9: ,9C − 1 = 0 ∂λ; ><&. 0. 𝛼9: ,9C. I. 𝑛;> (F,H)(𝑇F ) [ (b) , 𝜃] (b) , 𝛼^ (b) A = −ll 𝑃?𝑆H @𝐹; 𝐷 λ;. 政 治 大. F<& H<&. 2. 立 𝑛 = − lll 2. l 𝛼9: ,9C. 0. I. ;>. ‧ 國. ><& F<& H<& 2. 0. λ;. 𝑇F ). [ (b) , 𝜃] (b) , 𝛼^ (b) A = 1 𝑃?𝑆H @𝐹; 𝐷. I. 學. ><&. (F,H) (. ‧. [ (b) , 𝜃] (b) , 𝛼^ (b) A λ; = − l l l 𝑛;> (F,H) (𝑇F ) 𝑃?𝑆H @𝐹; 𝐷 ><& F<& H<&. io. y. I 0 (F,H) (𝑇 ) 𝑃?𝑆 @𝐹; 𝐷 [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑2 F H ><& ∑F<& ∑H<& 𝑛;>. sit. =. [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑0F<& ∑IH<& 𝑛;> (F,H) (𝑇F ) 𝑃?𝑆H @𝐹; 𝐷. n. a l (bm&) (bm&) (bm&) i v n Ch U engchi. 𝛼^ (bm&) = t𝛼^9T ,9T , 𝛼^9T ,9u , … , 𝛼^9v ,9v w. er. Nat. (bm&) 𝛼^9: ,9C. 34. DOI:10.6814/NCCU201900115.

(41) 附錄二 1.. WDM 的動態規劃式 I. 𝑃(𝑇F |𝐷, 𝜃, 𝛼) = l 𝑃(𝑇F , 𝑆H |𝐷, 𝜃, 𝛼) H<& ˆ‰. ˆ‰. = l l 𝑃(𝑇F , 𝑍& = 𝑡& , 𝑍( = 𝑡( |𝐷, 𝜃, 𝛼) ŠT <& Šu <& ˆ‰. ˆ‰. = l l 𝑃(𝑇F[&:ŠT ] ∈ 𝐷, 𝑇F[ŠT m&:ŠT mŠu ] ∈ 𝐷, 𝑇F[ŠT mŠu ‘] |𝐷, 𝜃, 𝛼) ŠT <& Šu <& ˆ‰. 政 治 大. ˆ‰. = l l 𝑃(𝑊‹N[T:Ž ] )𝑃(𝑊‹N[Ž •T:Ž •Ž ] |𝑊‹N[T:Ž ] )𝑃(𝑇F[ŠTmŠu‘] |𝑊‹N[Ž •T:Ž •Ž ] ; 𝐷, 𝜃, 𝛼) T T T u T T T u ˆ‰. 立. ˆ‰. , 𝑤ℎ𝑒𝑟𝑒 𝑃 L𝑇F[ŠT mŠu ‘] R𝑊‹N[Ž. ; 𝐷, 𝜃, 𝛼P = ]. Nat (bm&) 𝜃]9C 的動態規劃式. T. T. u. 𝑃(𝑊‹N[ŽT•T:ŽT•Ž ] , 𝑇F[ŠT mŠu ‘] |𝐷, 𝜃, 𝛼) u. 𝑃(𝑊‹N[ŽT•T:ŽT•Žu] ) 𝑃(𝑇F[ŠT ‘] |𝐷, 𝜃, 𝛼). 𝑃(𝑊‹N[ŽT•T:ŽT•Žu ] ). er. al. n. 2.. T. sit. =. io. T •T:ŽT •Žu. T •T:ŽT •Žu. 𝑃(𝑇F[ŠT ‘] |𝐷, 𝜃, 𝛼) 𝑃(𝑊‹N[Ž •T:Ž •Ž ] ). ‧. ‧ 國. T. ŠT <& Šu <&. |𝑊‹N[T:Ž ] ) ]. 學. = l l 𝑃(𝑊‹N[T:Ž ] )𝑃(𝑊‹N[Ž. y. ŠT <& Šu <&. Ch. (bm&) 𝜃]9C =. engchi. i n U. v. [ (b) , 𝜃] (b) , 𝛼^ (b)A ∑0F<& ∑IH<& 𝑛> (F,H) (𝑇F ) 𝑃?𝑆H @𝐹; 𝐷. I 0 (F,H) (𝑇 ) 𝑃?𝑆 @𝐹; 𝐷 [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑2 F H ><& ∑F<& ∑H<& 𝑛>. I. [ (b) , 𝜃] (b) , 𝛼^ (b) A 令 𝑛> (𝑇F ) = l 𝑛> (F,H) (𝑇F ) 𝑃?𝑆H @𝐹; 𝐷 H<& ˆ‰. [ (b) , 𝜃] (b) , 𝛼^ (b) A 𝑛> (𝑇F ) = l 𝑛> (F,ŠT) (𝑇F ) 𝑃?𝑍& = 𝑡& @𝐹; 𝐷 ŠT <&. 其中 𝑛> (F,ŠT )(𝑇F ) = 在{𝑇F , 𝑍& = 𝑡& }下第一個字是否為𝑊> = 𝐼f?𝑇F[&:ŠT ] A = ?𝑊> Ak. 35. DOI:10.6814/NCCU201900115.

(42) [ (b) , 𝜃] (b) , 𝛼^ (b)A 因為 𝑃?𝑍& = 𝑡& , 𝑍( = 𝑡( @𝐹; 𝐷 ∏0F<& 𝜃‹(b). N[T:ŽT. =. [ (b) , 𝜃] (b) , 𝛼^ (b) ) 𝑃(𝑇F[ŠT‘] |𝐷 ‹ 𝑃(𝑊‹N[Ž •T:Ž •Ž ] ) T ] N[ŽT •T:ŽT •Žu ] T T u. [ (b) , 𝜃] (b) , 𝛼^ (b) ) ∏0F<& 𝑃(𝑇F |𝐷. (b). 𝛼 ] ‹N[T:Ž. ˆ‰. [ (b). ] (b). 所以 𝑃?𝑍& = 𝑡& @𝐹; 𝐷 , 𝜃 , 𝛼^. (b). [ (b) , 𝜃] (b) , 𝛼^ (b) A A = l 𝑃?𝑍& = 𝑡& , 𝑍( = 𝑡( @𝐹; 𝐷 Šu <&. [ (b) , 𝜃] (b) , 𝛼^ (b) ) 𝑃(𝑇F[ŠT‘] |𝐷 𝑃(𝑊‹N[Ž •T:Ž •Ž ] ) T T u. [ (b) , 𝜃] (b) , 𝛼^ (b) ) ∏0F<& 𝑃(𝑇F |𝐷. ∏0F<& 𝜃‹(b) 𝛼 (b) N[T:Ž ] ‹N[T:Ž. ˆ‰. ‹ T ] N[ŽT •T:ŽT •Žu ]. T. =l Šu <&. (b). ˆ‰. = l. [ (b) , 𝜃] (b) , 𝛼^ (b) ) 𝑃(𝑇F[ŠT‘] |𝐷 𝑃(𝑊‹N[Ž •T:Ž •Ž ] ) T T u. (b) (b) [ , 𝜃] , 𝛼^ (b) ) 𝑃(𝑇F |𝐷. (b). 𝜃‹N[T:Ž ] 𝛼‹N[T:Ž. ‹ T ] N[ŽT •T:ŽT •Žu ]. T. Šu <&. 政 治 大. = 𝜌ŠT . 立 所以 𝑛 (𝑇 ) = l 𝜌 ˆ‰. >. (bm&) 𝜃]9C =. ∑𝐼𝑖=1 𝑛𝑦 (𝑇𝑖 ) 𝐼 ∑𝑁 𝑦=1 ∑𝑖=1 𝑛𝑦 (𝑇𝑖 ). ‧. ‧ 國. ŠT <&. 學 y. (bm&). = ?𝑊> Ak•. Nat. io. sit. 𝛼^9: ,9C 的動態規劃式. n. al. (bm&). 𝛼^9:,9C =. 令 𝑛;>. Ch. [ (b) , 𝜃] (b) , 𝛼^ (b)A ∑0F<& ∑IH<& 𝑛;> (F,H) (𝑇F ) 𝑃?𝑆H @𝐹; 𝐷 I 0 [ (b) , 𝜃] (b) , 𝛼^ (b) A ∑2 𝑛;> (F,H) (𝑇F ) 𝑃?𝑆H @𝐹; 𝐷 ><& ∑F<& ∑. er. 3.. ŠT œ𝐼f?𝑇F[&:ŠT ] A. F. i n U. H<&. v. eIn g (F,H) c h(𝑇i ) 𝑃?𝑆 @𝐹; 𝐷[(b), 𝜃] (b) , 𝛼^(b)A (𝑇 ) = l 𝑛 F. ;>. F. H. H<& ˆ‰. ˆ‰. [ (b) , 𝜃] (b) , 𝛼^ (b) A 𝑛;> (𝑇F ) = l l 𝑛;> (F,ŠT,Šu) (𝑇F ) 𝑃?𝑍& = 𝑡& , 𝑍( = 𝑡( @𝐹; 𝐷 ŠT <& Šu <&. 其中 𝑛;> (F,ŠT,Šu) (𝑇F ) = 在{𝑇F , 𝑍& = 𝑡& , 𝑍( = 𝑡( }中?𝑊; 𝑊> A出現的次數 = 在œ𝑇F[&:ŠT ] , 𝑇F[ŠTm&:ŠTmŠu] , 𝑇F[ŠTmŠu‘] •中?𝑊; 𝑊> A出現的次數 = 𝐼œ?𝑇F[&:ŠT] 𝑇F[ŠTm&:ŠTmŠu] A = ?𝑊; 𝑊> A• + 𝑛;> (F,ŠT,Šu) ?𝑇F[ŠTmŠu‘] A (b) ∏0F<& 𝜃‹(b) 𝛼 N[T:Ž ] ‹N[T:Ž T. [ (b) , 𝜃] (b) , 𝛼^ (b) A = 而 𝑃?𝑍& = 𝑡& , 𝑍( = 𝑡( @𝐹; 𝐷. ,‹ T ] N[ŽT •T:ŽT •Žu ]. [ (b) , 𝜃] (b) , 𝛼^ (b) A 𝑃?𝑇F[ŠT‘] @𝐷 𝑃 L𝑊‹N[Ž. [ (b) , 𝜃] (b) , 𝛼^ (b)A ∏0F<& 𝑃?𝑇F @𝐷. T •T:ŽT •Žu ]. P. 36. DOI:10.6814/NCCU201900115.

(43) (b). (b). 𝜃‹N[T:Ž ] 𝛼‹N[T:Ž T. =. ,‹ T ] N[ŽT •T:ŽT •Žu]. [ (b). 𝑃?𝑇F @𝐷. [ (b) , 𝜃] (b) , 𝛼^ (b)A 𝑃?𝑇F[ŠT‘] @𝐷 𝑃 L𝑊‹N[Ž ] (b). ,𝜃. T •T:ŽT •Žu ]. , 𝛼^. (b). A. P. = 𝜌ŠT ,Šu ˆ‰. ˆ‰. 𝐼f?𝑇F[&:ŠT ] 𝑇F[ŠTm&:ŠTmŠu] A = ?𝑊; 𝑊> Ak ° +𝑛;> (F,ŠT,Šu )?𝑇F[ŠTmŠu‘] A. 所以 𝑛;> (𝑇F ) = l l 𝜌ŠT,Šu ¯ ŠT <& Šu <&. (bm&). 𝛼^9: ,9C =. ∑0F<& 𝑛;> (𝑇F ). 0 ∑2 ><& ∑F<& 𝑛;> (𝑇F ). 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 37. DOI:10.6814/NCCU201900115.

(44) 附錄三 下面例文擷取自紅樓夢第一回《甄士隱夢幻識通靈 賈雨村風塵懷閨秀》 。例 文: 字|字|看|來|皆是|血,十|年|辛苦|不|尋|常,楊|藏,庚辰,夢|覺,舒| 序|批,此|回|中|凡|用|夢|用|幻|等|字,是|提|醒|閱者|眼|目,亦|是| 此|書|立|意|本|旨,按,此|兩|段|回|前|批|語|常|被|混|入|正|文,故 |雖|為|批|語,仍|錄|於|此,列位|看|官,你|道|此|書|從|何|而|來,說 |起|根|由|雖|近|荒唐,細|諳|則|深|有|趣|味,待|在|下|將|此|來|歷|. 政 治 大 時,於|大|荒山|無|稽|崖煉|成|高|經,十二|丈,方|經,二|十|四|丈|頑 立. 註明,方|使|聞|者|瞭然|不|惑,原來,當|年|女|媧|氏|煉石|補|天|之|. 學. |石|三|萬|六|千|五|百|零一|塊,媧皇|氏|只|用|了|三|萬|六|千|五|百. ‧ 國. |塊,只|單|單|剩了一|塊|未|用,便|棄|在|此|山|青|埂峰下,誰知|此|. ‧. 石|自|經,煉,之|後,靈|性|已|通,因|見|眾|石|俱|得|補|天,獨|自己. sit. y. Nat. |無|材|不|堪|入|選,遂|自|怨|自|嗟,日|夜|悲|號,慚愧,一|日,正|. io. 當|嗟悼|之|餘,俄見|一|僧|一|道|遠遠|而|來,生|得|骨|骼不|凡,豐|. al. er. 1.. v. n. 神|迥異,說|說|笑|笑|來|至|峰下,坐|於|石|邊|高|談|快|論,先|是|說. Ch. engchi. i n U. |些|雲|山|霧海|神|僊玄幻|之|事,後|便|說|到|紅|塵|中|榮|華富貴,此 |石|聽了,不|覺|打|動|凡|心,也|想|要|到|人|間|去|享|一|享|這|榮| 華富貴,但|自|恨|粗|蠢,不|得|已,便|口|吐|人|言,向|那|僧道|說道, 大|師,弟|子|蠢物,不|能|見|禮|了,適聞|二|位|談|那|人|世|間|榮|耀 繁華,心|切|慕之,弟|子|質雖|粗|蠢,性|卻|稍|通,況|見|二|師|仙|形 |道|體,定|非|凡|品. 38. DOI:10.6814/NCCU201900115.

(45) 下面例文擷取自紅樓夢第四十回《史太君兩宴大觀園 金鴛鴦三宣牙牌令》 。 例文: 只見|一個|媳婦|端了一個|盒子|站在|當|地,一個|丫鬟|上|來|揭|去|盒 |蓋,裡|面|盛著|兩|碗|菜,李紈|端了一|碗|放在|賈母|桌上,鳳姐|兒| 偏|揀了一|碗|鴿子|蛋|放在|劉姥姥|桌上,賈母|這|邊|說|聲,請,劉姥 姥|便|站起|身|來,高|聲|說道,老|劉,老|劉,食|量|大|似|牛,吃|一 個|老|母|豬不|抬頭,自己|卻|鼓|著|腮|不|語,眾人|先|是|發|怔,後來 |一|聽,上|上|下|下|都|哈哈的|大|笑|起來,史湘雲|撐不|住,一|口|飯. 政 治 大 賈母|懷裡,賈母|笑|的|摟著|寶玉|叫,心|肝,王夫人|笑|的|用|手|指著 立. |都|噴了|出來,林黛玉|笑|岔了|氣,伏|著|桌子|噯喲,寶玉|早|滾|到|. |鳳姐|兒,只|說|不|出|話|來,薛姨媽|也|撐不|住,口|裡|茶|噴了|探春. 學. ‧ 國. |一|裙子,探春|手|裡|的|飯|碗|都|合|在|迎春|身上,惜春|離了|坐|位,. ‧. 拉著|他|奶|母|叫|揉|一|揉|腸子,地下|的|無|一個|不|彎腰|屈|背,也. y. Nat. |有|躲出去|蹲著|笑|去|的,也|有|忍|著|笑|上|來|替他|姊妹|換衣裳|. io. sit. 的,獨有|鳳姐|鴛鴦|二人|撐|著,還|只|管|讓|劉姥姥,劉姥姥|拿|起|箸. er. 2.. 來,只|覺|不|聽|使,又|說道,這里|的|雞|兒|也|俊,下|的|這|蛋|也|. al. n. v i n 小|巧,怪|俊|的,我|且|肏攮一個,眾人|方|住了|笑,聽見|這|話|又|笑 Ch engchi U. |起來,賈母|笑|的|眼|淚|出來,琥珀|在|後|捶著,賈母|笑道,這|定|是. |鳳|丫頭|促狹鬼|兒|鬧的,快|別|信|他|的|話|了,那|劉姥姥|正|誇|雞 蛋|小|巧,要|肏攮一個,鳳姐|兒|笑道,一|兩|銀子|一個|呢,你|快|嘗 嘗|罷,那|冷|了|就|不|好|吃了,劉姥姥|便|伸|箸子|要|夾,那|裡|夾| 的|起來,滿|碗|里|鬧了一|陣|好|的,好|容易|撮|起|一個|來,才|伸|著 |脖子|要|吃,偏又|滑下|來|滾|在|地下,忙|放下|箸子|要|親自|去|撿, 早|有|地下|的|人|撿了|出去了,劉姥姥|歎道,一|兩|銀子,也|沒|聽見 |響|聲|兒|就|沒|了,眾人|已|沒|心|吃|飯. 39. DOI:10.6814/NCCU201900115.

(46) 下面例文擷取自紅樓夢第一零五回《錦衣軍查抄宁國府 驄馬使彈劾平安州》 。 例文: 一|聲|未了,便|嚎啕的|哭起來,于是|滿屋里|人|俱|哭|個|不|住,賈政 |恐|哭|坏|老|母,即|收|淚|說,老太太|放心|罷,本來|事|情|原|不|小, 蒙|主|上|天|恩,兩|位|王|爺|的|恩典,万|般|軫恤,就是|大|老爺|暫| 時|拘|質,等|問|明白了,主|上|還有|恩典,如今|家|里|一|些|也不|動 了,賈母|見|賈|赦|不|在,又|傷心|起來,賈政|再|三|安|慰|方|止,眾 人|俱|不|敢|走|散,獨|邢夫人|回|至|自己|那|邊,見|門|總|封|鎖,丫. 政 治 大 只得|往|鳳姐|那|邊去,見|二|門|旁|舍|亦|上|封條,惟有|屋|門|開|著, 立. 頭|婆子|亦|鎖|在|几|間屋內,邢夫人|無|處|可|走,放|聲|大|哭起來,. 里頭|嗚咽|不|絕,邢夫人|進去,見|鳳姐|面|如|紙|灰,合|眼|躺著,平. 學. ‧ 國. 儿|在|旁|暗|哭,邢夫人|打|諒|鳳姐|死了,又|哭起來,平儿|迎|上|來|. ‧. 說,太太|不|要|哭,奶奶|抬|回來|覺|著|象|是|死|的|了,幸|得|歇息|. y. Nat. 一|回|蘇|過來,哭了|几|聲,如今|痰|息|气|定,略|安|一|安|神,太太. io. sit. |也|請|定|定|神|罷,但|不|知|老太太|怎|樣|了,邢夫人|也不|答|言,. er. 3.. 仍|走到|賈母|那|邊,見|眼|前|俱是|賈政|的|人,自己|夫|子|被|拘,媳. al. n. v i n 婦|病|危,女儿|受|苦,現在|身|無|所|歸,那里|禁得|住,眾人|勸|慰, Ch engchi U. 李紈|等|令人|收拾|房|屋|請|邢夫人|暫|住,王夫人|撥|人|服|侍,賈政 |在|外,心|惊|肉|跳,拈|須|搓手|的|等|候|旨意,听見|外面|看|守|軍 |人|亂嚷道,你|到底是|那|一|邊|的,既|碰在|我們|這里,就|記|在這里 |冊上,拴著|他,交給|里頭|錦衣|府|的|爺|們. 40. DOI:10.6814/NCCU201900115.

(47)

參考文獻

相關文件

• 事先畫設計稿的方式明顯減少了孩子們對於 未知的恐慌,不過卻發現大多數人的成品都

生字 造詞 大考驗 造句..

生字 造詞 大考驗 造句.

在舉辦這次座談會之前,其實有先邀請大家填寫問卷。彙整問卷結果以及會 議裡提出的意見後,我們發現有許多地方是有衝突的,好比說課程太難

並藉由適當工具與資訊,去描述、模擬、解釋與 預測各種現象,發揮數學思維方式的特長,做出

從視覺藝術學習發展出來的相關 技能與能力,可以應用於日常生 活與工作上 (藝術為表現世界的知

相關分析 (correlation analysis) 是分析變異數間關係的

 如課室容額超過 30 ,但在任何班制 ( 包括 混合班 ) 的學童人數均為 30 人或以下,則 計算時可採用 30