3 卡方 (Chi-Square)檢定公式

第五章結論與未來研究方向

方程式 3- 3 卡方 (Chi-Square)檢定公式

地震颱風總篇數一月~三月 10 5 18

四月~六月 5 11 18

七月~九月 5 5 18

十月~十二月 5 5 18

表 3-4 卡方(Chi-Square)檢定的舉例資料

一月~三月四月~六月七月~九月十月~十二月地震 10.78 0.84 0.84 0.84 颱風 1.49 13.40 1.49 1.49

表 3-5 舉例資料的檢定結果

第四節視覺化模組

本節討論的是本系統的介面與功能，圖 3-2 為使用者決定專利地圖的介面。在這個介面上，使用者可以選擇他們想要分析的時間區段，當按下分析按鈕 (Analysis)時，系統會把分析的結果以視覺化的方式呈現給使用者。在圖 3-2 的畫圖區，是呈現所分析的結果，橫軸為時間，縱軸為的分數，每個長條圖的上面為這個群的命名。

χ2

本系統僅以輔助的角度提供使用者進行專利分析，使用者可依據系統所提供的概念，自行修改更符合使用者需求的概念，以使得呈現出來的資訊更符合

使用者需求。

以圖 3-2 為例，目前使用者感興趣的時間為 1993 年 7 月 13 號到 2003 年 1 月 14 號，在這段期間具有顯著性的有六個群，而使用者若對群的命名不滿意，

本系統也提供一個修改的介面，見圖 3-3。使用者可以在右邊的 Concepts 上找到群的名字，在群的名字上按 F2，即可以使用者認為較恰當的名字予以命名。

同時，我們也給予使用者權限變更分群的結果，使用者可以將目前較不適當的成員刪除。

圖 3-2 專利分析的介面

圖 3-3 提供使用者修改概念的介面

第四章個案探討(USPTO)

判斷相關的依據是以有無被此專利引證 (Citation)為主。引證關係如表 4-1，以二層的引證關係，共得到了 159 篇專利說明書。

6847978 5588150

6847978 5630120

6847978 5668987

6890658 5806061

6847978 6012054

6847978 6052689

6847978 6065007

6847978 6092062

6847978 6108658

6847978 6178449

6847978 6205441

6847978 6327587

6847978 6343288

5580150 4714995

在搜集的專利說明書裡，全部的專利說明書都與專利編號 6847978 有直接或間接的引證關係，專利編號 6847948 的專利說明書主要在改善對資料庫執行結構性查詢語言(SQL)後，資料庫內部執行方案 (Execution Plan)選擇問題，為提昇資料庫的執行效率，這篇專利發明人提出利用統計方法，使系統依統計的結果選擇一個較佳的執行方案。而與專利編號 6847978 有直接或間接引證關係的專利說明書，大部份也與資料庫、結構性查詢語言有關，有少部份是在討論記憶體、網路及電路等。

所下載的專利說明書是在 1976 年 10 月 4 日到 2001 年 12 月 26 日間向 USPTO 提出申請的，但其分佈頻率卻是相當分散，1990 前申請的專利說明書只有 31 件，有 128 件的專利說明書是在 1990 年以後申請。

4.1.2 前置處理

在 USPTO 所下載的專利說明書是 html 格式，html 檔案為非結構性的語言，在處理上比較不方便，所以在前置處理的時候，會先把所下載的 html 檔轉換成 xml 檔的格式，xml 檔所儲存的資料為專利編號、申請日、公告日、

參考文獻、摘要、宣告及說明。圖 4-1 是我們所下載的專利說明書，圖 4-2 為轉換的 xml 檔。

圖 4-1 USPTO 裡的專利資料 (專利編號：6847978)

圖 4-2 經過轉換後的 xml 檔 (專利編號：6847978)

經過格式轉換的處理後，接下來的工作分別為：

1、採用工具 NLPROCESSOR v. 3.8 針對已轉換成功的 xml 檔進行斷詞切字的工作

2、建立一張常用字表，將一些不重要的雜訊移除，如”a”、”the”之類的字。

3、採用 Porter Stemming Algorithm 解決詞性不同會被視為不同字的問題，進行形態還原的動作。

4、計算每個字的 Tf*Idf ，並設定一個 Tf*Idf 的門檻，將小於門檻的詞刪除。

5、建立一個關連式探勘所需要的交易集 (如圖 4-3)，在圖 4-3 每一行代表本篇專利的一個句子，以 ”,” 區分句子裡的詞

圖 4-3 關連式探勘所需要的交易集

第二節重要概念的擷取

在本論文針對概念的擷取實作了兩個方法，方法一採用關連式探勘企圖找

出各篇專利說明書在探討的重要概念，方法二是利用 K-means 演算法對整個語料庫進行分群的動作。

4.2.1 關連式探勘

採用關連式探勘的方法，找出代表各篇專利重要概念，其想法來自於[12]，

Liu 認為若有些字常常一起出現在某個句子，這些組合就是作者想要強調的概念。

將每一篇專利說明書當作一個交易集，每一個句子視為一筆交易，而其中的項目是經過前置處理的詞。表 4-1 是專利編號 6847978 的專利說明書在門檻為 0.1，經過關聯式探勘處理所探勘出來的部份結果。由於專利編號 6847978 是在探討資料庫中有關結構查詢語言實際執行的情形，此專利發明人提出利用統計的方法輔佐資料庫自動去選擇效率較佳的執行程序，表 4-1 所列長度為 1 的頻繁項目集裡的”system”、”step”雖然與本篇專利所提出的技術無直接關連，

但長度為 2 的頻繁項目集的詞還蠻符合本篇專利所探討的主題。

1-頻繁項目集 statistic, automatically, query, table, generated, data, step, system, plan, execution, database 2-頻繁項目集 generated statistic, plan database, plan execution,

plan statistic, execution statistic, database statistic

表 4-1 關連式探勘結果 (support:0.1)-6847978

表 4-2 為另一篇專利編號 5345585 在門檻為 0.1 所挖掘出來的結果，這篇專利也是與結構性查詢語言有關的主題，藉著 KBZ 這演算法，改良資料庫目前結合 (Join)運算的順序。

1-頻繁項目集 sequence, scheme, optimization, KBZ, current, cost, Algorithm, order, join

2-頻繁項目集 sequence join, scheme current, scheme order, scheme join, optimization join, KBZ Algorithm, KBZ join, current join, current order, cost order, cost join, Algorithm join, order join,

3-頻繁項目集 scheme order join, current order join

表 4-2 關連式探勘結果 (support:0.1)-專利編號 5345585

依前兩個例子來看，採用關連式探勘對找出各篇專利所在探討的觀念具有一定的幫助，但主要的缺點則是所挖掘出來的概念彼此之間的意涵可能會有重疊 (Overlap)的傾向，如專利編號 5345585 所挖掘出來的概念”sequence join”與

概念”order join”。

K-means 對語料庫中的詞做分群，鑑於時間成本考量以及使用者並不會對語料庫中的每個詞都感興趣，在進行 K-means 之前，會先進行挑選的動作。所挑選的規則如下：

1、宣告中的形容詞、動詞及名詞。

2、摘要及說明的動詞與名詞。

上述挑選的規則因考量在宣告中的每個用語都有撰寫者的涵義在裡面，以及動詞與名詞對使用者而言比較有意義，依這規則，我們將 1,233 個字分佈在 50 個群。在這 50 個群裡面有 10 個群所包含的字大於 100 個，有 14 個群所包含的字介於 50~100 個之間，14 個群包含的字在 6~50 之間，而小於 5 個字的群有 8 個。雖然目前會有過大或過小的群，但某些群所包含的詞的意思還是十分相近，如表 4-4 中的各個詞幾乎出現在不同的專利文件裡，但所代表的意思似乎都與時間有關；而表 4-5 中的詞雖然雜帶有雜訊，但應可歸類為與影像處理有關。

群 1 Ck, duration, microseconds, time-length 表 4-4 K-means 的分群結果 1

群 2 colors, color-component, counting, image, interpolation, page, pixel, region, replicas, screen, subparts

表 4-5 K-means 的分群結果 2

4.2.3 比較分析

依前述實作兩個不同定義概念的結果，發現到當關連式探勘適合擷取各篇專利說明書所強調的概念與語意，經過關連式探勘所擷取的概念雖然會有語意重疊的情況發生，會挖掘出過多的詞，但所挖掘的結果還蠻符合各篇專利所探討的主題。而 K-means 所分出來的群是整個語料庫所在探討，比較廣泛的概念。

在進行趨勢分析時，受限於專利領域裡，不同的專利說明書作者習慣以不同的用語形容其技術核心，如某一篇專利文件 A 的重要概念包含”SQL”，另一篇專利文件 B 作者針對查詢語言(Query)的結合 (Join)運算進行改良，B 的作者在這份專利文件中比較常出現的是 ”Join”，在一般的認知上對 ”Join” 做改良其實相當於對 ”SQL” 的執行程序進行改善，但在專利文件 B 中， ”SQL”幾乎從未出現，所以若在計算 ”SQL” 這個詞出現在文章的篇數時，專利文件 B 卻往往不會被算進去，會使得結果有所偏差。在進行趨勢分析的時候，會以 K-means 所得到的概念進行趨勢分析，以關連式探勘的結果提供給使用者各篇專利所強調的概念。

第三節趨勢分析與介面

本節是在介紹前述處理所擷取出來的概念，在經過本論文的趨勢分析得到的結果。目前群的命名先以人工暫定，使用者可以在介面上得知群的組成分子，再結合本身的專業對群的命名做更改。在這個專利地圖上，橫軸代表的是時間，而縱軸代表的是卡方的分數。

圖 4-4 為使用者查看 1993-7-13 到 2003-1-14 中間熱門的趨勢所得到的結果，得到 6 個群，在這 6 個群中，有 5 個群各自出現的專利篇數佔整個資料庫的 10%~20%。本語料庫中的專利說明書，大部份都是在探討有關 ”資料庫” 方面的改良，但在 1994 與 1995 年間的時候，與影像處理有關的詞在這段期間卻是具有顯著性，由此現象，我們或許可以猜測在那段時期左右，曾興起一波影像處理與資料庫結合的研究熱潮。

群的命名是以人工的方式，在群裡挑選兩個比較能代表這群大致上所討論議題的詞，但除此之外使用者也可依本身的專業在圖 4-5 的介面上，更改群的命名，或影響分群的結果，使分析的結果能更貼切使用者需求。

除此之外，使用者可以在呈現概念的長條圖上，按左鍵列出在這分析時間點包含這概念的專利文件或這語料庫中包列這概念的專利文件，圖 4-6 為使用者在右邊的平面，mouse click 的區塊，選擇”show patents in the time”的選項後在左邊的平面長條塊”cok, histogram”按右鍵所得到的結果。系統會呈現這段時間點上，包含這概念的專利文件編號，使用者可依據這專利編號，進一步查看這專利特別強調的概念，也就是關聯式探勘所得到的結果。

圖 4-4 呈現專利趨勢分析結果的介面

圖 4-5 專利趨勢分析中使用者修改概念的介面

圖 4-6 呈現包含選取概念的專利文件

第四節結果分析

相較於挖掘出代表各篇的概念再做趨勢分析而言，先對相同意義的字做分群再進行專利趨勢分析似乎能得到更佳的效果。現在趨勢分析的結果深受分群結果、分群命名所影響，雖然採取的 K-means 針對語料庫進行分群的工作，在有些分群中，所探討的議題還蠻貼近的，然而 K-means 同時也會產生過大或過小的群，過大的群會導致不同意思的字被集中在一起，對我們分析結果造成相

在文檔中以時間序列將專利文件視覺化的研究 (頁 33-55)

第五章 結論與未來研究方向

方程式 3- 3 卡方 (Chi-Square)檢定公式

第五章結論與未來研究方向