第二章 文獻回顧
2.5 資料探勘( Data Mining )技術
的協助審計人員找出非自然的經濟交易,例如可能的錯誤、潛在的舞 弊行為、人為的偏差與無效率或不正常的經濟行為等。但是根據 Benford 定律所完成的分析結果仍須要依賴專業的判斷,才能正確判 斷統計數據中是否確實存在錯誤或舞弊。因此,Benford 定律雖然不 能直接斷定資料的正確性,但由於其能夠協助審計人員有效的找出可 能的錯誤、潛在的舞弊行為、人為的偏差與無效率或不正常的經濟行 為,指導審計人員查核的方向,降低審計的風險,增加審計工作的效 率與效果,故 Benford 定律已被實務界相當推崇與採用。
智慧或能自動產生資訊的技術或工具來應付業務上之需求,於是結合 統計、資訊等資料探勘的技術便應運而生。
葉怡成(2005)指出,資料探勘是一門相當新的理論,在 1987 年 以前不曾出現這個名詞,1990 年之前雖然有這一類的期刊論文,但 數量很少。雖然資料探勘這名詞很晚出現,但其發展卻極為迅速。且 很多領域都陸續使用這種技術,其已廣泛的被應用在企業界及科學研 究上。資料探勘興起於 1990 年代,但它的三大支柱:資料庫、統計 方法、人工智慧(機器學期、類神經網路)等早已分別發展茁壯。這些 相關技術的發展如下。
1960 年代 網路式資料模式、通用問題求解器 1970 年代 關聯式資料模式、決策支援系統
1980 年代 高等資料模式、應用導向 DBMS(Database Management System)、專家系統
1990 年代 資料倉儲、多媒體資料庫、機器學習、類神經網路、資 料探勘
2000 年代 高等資料之資料探勘、應用導向資料探勘
資料探勘技術的發展史如表 2.4 所示:
表 2.4 資料探勘技術的發展史
1989 舉 辦 IJCAI(International Joint Conferences on Artificial Intelligence ) Workshop on Knowledge Discovery in Database。
1991-1994 舉辦 Workshop on Knowledge Discovery in Database。
1995-1998 舉 辦 International Conferences on Knowledge Discovery in Database and Data Mining(KDD ’95-’98)。
1997 創辦 Journal of Data Mining and Knowledge Discovery。
1998 以後 舉辦許多研討會(ACM SIGKDD、PAKDD、PKDD、SAIM-Data Mining、ICDM 等)。
2000 麻省理工學院 2000 年元月號「科技評論(Technology Review)」
預測,未來會改變世界的十大新興科技中,資料探勘名列第四。
2000 國人第一套自行研發資料探勘之演算法及核心技術正式誕生。
2002 第六屆亞太知識發現/資料探勘大會(PAKDD,Pacific-Asia Conf.
on Knowledge Discovery and Data Mining )在台北舉辦。
2.5.2 資料探勘的定義
Clifton 與 Thuraisingham(2001)指出,資料探勘是一選出樣本的過 程,以及從大量引起疑問的資料中預測趨勢(先前未知的)。數十年 來,不同的組織均曾使用統計軟體來進行分析,且使用類神經網路和 人工智慧技術,預測趨勢和選出樣本。近年來,透過資料庫管理系統,
管理大量數據,結合統計、人工智慧和資料庫管理,已發展成為一個 新的領域,叫做資料探勘。
葉怡成(2005)指出,資料探勘在發展的歷史上雖然較短,但自 1990 年代以來,發展的速度很快,因其為一綜合許多學科的產物,
故目前尚未有一完整的定義。目前人們已為資料探勘下了許多種定 義,如以下所示:
在大量資料中,有價值的資訊或知識的蒐尋,稱為資料探勘。
從大型資料庫中,預測知識的自動擷取,稱為資料探勘。
從大型資料庫的資料中,有興趣的模式或樣式的擷取,稱為資料 探勘。
資料探勘是從資料中,識別有效的、新奇的、有用的、和能理解 的樣式之過程。
資料探勘是一種知識發現過程。
資料探勘是快速的統計學。