研究動機

第一章緒論

1.2 研究動機

根據上節所述，可知在過去研究裡關聯式規則演算法本身會有些許的問題產

生，例如：產生大量的候選項目集合、為了產生頻繁項目集合需要多次掃描整個資料庫以致程式執行時間過長、產生的規則過於繁瑣無意義或重要有意義的規則未被產生等。針對以上各個問題，相繼有研究學者提出改善的演算法。

針對“產生的規則過於繁瑣無意義或重要有意義的規則未被產生”此項問題以及其他影響基於關聯的分類準確度的因素，將會在以下詳加描述。上述影響準確度的因素主要可分成四部分加以分析討論：

(1) 支持度門檻值

支持度門檻值太高：當支持度門檻值設定過高，會造成多數候選項目集合其支持度值小於門檻值，則無法生成頻繁項目集合，也就導致多數規則無法產生，

重要有意義的規則亦被涵蓋在多數規則中，最後許多重要有意義的規則並未被生成，將會影響演算法的正確性。

支持度門檻值太低：當支持度門檻值設定過低時，多數候選項目集合將會輕易通過支持度門檻值，過多的候選項目集合造成程式在執行上的時間過長，因為需要反覆搜尋資料庫求得候選項目集合的支持度值；而通過門檻值所產生的關聯規則，也會因為門檻值太低產生許多不重要無意義的規則，過多無意義的規則被產生亦會影響演算法的可信度。

(2) 緊密性

關聯規則的緊密性是指產生的關聯規則前項和後項稠密的程度，也就是以單一規則而言其前項和後項一起出現的機率高低，某些規則支持度可能很低，但是規則的緊密性很高也就是說規則會集中在某一類別，如圖 1-3 所示，可觀察出項目集合{W, Y}明顯地集中在 Class3 中，規則“W, Y→Class3”緊密性很高。

→ Class3 A, B, D, E

...

→ Class3 A, B, D

→ Class3 A, B, C, D

→ Class2 A, B, C, E

→ Class2 B, C, D

→ Class2 A, B, C, D

...

→ Class2 A, B, C, D

→ Class2 A, D

...

→ Class1 A, B

→ Class1 A, B, C, D

→ Class1 A, B, D, E

→ Class1 A, B, C, D

→ Class1 A, B, C

→ Class3 W, X, Y

...

→ Class3 W, Y

→ Class3 W, Y, Z

→ Class3 W, X, Y, Z

資料庫

規則支持度高

規則支持度低，緊密性高

→ Class3 A, B, D, E

...

→ Class3 A, B, D

→ Class3 A, B, C, D

→ Class2 A, B, C, E

→ Class2 B, C, D

→ Class2 A, B, C, D

...

→ Class2 A, B, C, D

→ Class2 A, D

...

→ Class1 A, B

→ Class1 A, B, C, D

→ Class1 A, B, D, E

→ Class1 A, B, C, D

→ Class1 A, B, C

→ Class3 W, X, Y

...

→ Class3 W, Y

→ Class3 W, Y, Z

→ Class3 W, X, Y, Z

當未知類別的測試資料無法根據關聯規則所建立出的分類模型進行分類時，則需有一預設類別能對資料進行最終分類的判斷。因此，好的預設類別演算法也是影響分類結果的因素之一。

根據以上四項分析討論，為了解決基於關聯的分類所造成的問題，並將關聯規則整合應用在分類上，因此，本論文中提出 CARC(Condensed Association Rule on Classification)演算法，一種新的基於關聯規則的分類演算法，所產生的關聯式規則在本文中以 CAR(Condensed Association Rule)稱之。藉由此方法能改善因為支持度設得太高或太低所造成的問題，產生出重要的關聯規則並提高資料分類的精確度，將測試資料正確無誤進行分類，並能更加廣泛應用於各個領域，實際活用在現實生活上。

在規則的緊密性中，舉例來說，以醫院病歷為例，常見醫院診療中會出現一些罕見的家族病例史，這些病例，只是鎖定某些特定族群，我們如何根據這些病例資料找出病患間的共同特徵(即找出病患特徵和疾病間的關聯規則)，進而預防避免疾病的發生。從上述醫院病歷例子中可得知，罕見病例史即為關聯規則中支持度低但是重要性高且聚集性高的規則。

在文檔中衡量分類關聯規則的新方法 (頁 10-13)

第一章 緒論

1.2 研究動機

第一章緒論