• 沒有找到結果。

第二章 文獻回顧

第四節 資料探勘的定義

拜人類科技與文明的突飛猛進所賜,現在的社會已經擁有許多應用於各領域 工作的資料庫。這些資料庫內包含著許多人文或是科技研究的龐大資料,也因此 吸引許多學者專家想要去了解,是否能從這些複雜的資料中找到什麼新的規則或 新知,讓人類的知識能有更進一步的發展。這樣的求知動機就開啟了資料探勘 (Data Mining)這個領域的應用與發展。

在哈佛商業評論(Harvard Business Review)的一篇研究中,Davenport(2006) 曾指出目前有許多大公司如 Amazon.com 都使用各種分析工具對公司從日常交 易和活動中所收集的各項資料,以對客戶、供應商、企業流程及供應鏈充分的了 解,這樣的做法能使供應鏈最佳化、報酬率最大化與提供更好的客戶服務等。這 種在大量資料中,找到先前未知的模式或關聯,並應用在改善企業營運上的研究 方法,就十分符合今日資料探勘的精神。

資料探勘在學術界的發展歷史並不長,其概念與技術是源自於 1980 年代早 期 所 發 展 的 統 計 分 析 與 人 工 智 慧 的 理 論 與 技 術 (Efraim, Ramesh, & Dursun 2010),所以資料探勘在學術界算是新興的研究領域。學術界在 1987 年以後才開 始出現資料探勘的相關說明,而在 1990 年代之前雖已出現此類期刊論文,但是 研究者很少。不過近十幾年來資料探勘在商業界被發現它的實用價值,因此發展 十分迅速,目前資料探勘的技術與概念已被廣泛應用於各領域的研究與實務中 (葉怡成,2005)。

資料探勘在許多的中文的文章中常被翻譯成資料採礦、資料挖掘或是資料探 勘等不同的形式,但其皆源自於英文 Data Mining 一詞。本研究中以資料探勘一 詞為 Data Mining 的中譯名稱。

由於資料探勘是一種從資料中發掘新知的過程,其所使用的方式十分多元,

因此在學術界對於資料探勘並沒有一種明確定義。以下將一些專家學者對資料探 勘的定義整理歸納如下表 2-7 所示:

表 2-7 資料探勘定義之相關研究

作 者 ( 年 代 ) 對 資 料 探 勘 的 定 義 與 說 明 Grupe & Owrang(1995) 從現有資料庫中挖掘出學者專家仍未發現的新事

實。

Fayyad, U. & Stolorz, P.(1997)

Roiger & Geatz(2003) 針對整個資料庫內的資料,運用一種或多種電腦演 算法技術來分析或是擷取知識的過程。

Berry & Lionoff(2004) 對大量資料進行分析與探索,並使用自動化或半自 動化的方法,目的為找出有意義的型樣、關聯或是 規則,也可以說是發掘知識。

Han ,Kamber ,& Pei (2005)

David & Yong(2008) 以傳統的統計或是人工智慧的方法對大量資料進行 探究型的分析,得到所需的資訊。在過程中選擇適 當的資料或是資料轉換是必要的步驟,以確保資訊 的正確性。

Keating(2009) 從經過一段時間收集到的大量資料中尋找有價值的 資訊,此資訊是某種特徵或關係,且能幫助決策。

續下頁

續表 2-7 資料探勘定義之相關研究

作 者 ( 年 代 ) 對 資 料 探 勘 的 定 義 與 說 明 謝邦昌、鄭宇庭、蘇志雄

(2011)

是指在資料庫中,運用各種的分析方法或技術,對 大量資料進行分析、歸納與整合,萃取出使用者所 需要的資訊,做為決策的依據。

資料探勘並非是一種技術或是軟體,而是結合數種 專 業 技 術 的 應 用 。 它 從 資 料 中 發 掘 出 各 種 假 設 (Hypothesis),但不會查證與確認這些假設,也不會 判斷這些假設是否有價值。

廖述賢、溫志皓(2012) 一種資料轉換的過程,將資料轉換成資訊最後轉換 成知識,最後幫助決策。也是一種知識發現的過程,

其目的在找出資料中有效、新穎、潛在有用的資訊 或 知 識 , 如 趨 勢 (Trend) 、類型(Pattern)或相關性 (Relationship)。

張云濤、龔玲(2012) 就是從大範圍的資料中探勘有用的資訊,或是從大 量的、有雜訊的、模糊的或是隨機的實務資料中,

發現內隱的、有規律的或是未知的,但是屬於有用 的知識的一種過程。

a資料來源:研究者自行整理

綜合以上各學者專家對資料探勘的定義與看法,可說資料探勘是一種不需事 先假設,是以大量的資料或資料庫為探勘的內容,運用各種的可行的方法與技術 (可能是人工智慧或是統計技術)處理,去發現、萃取、歸納而得到存在於資料中 的隱含且尚未被發現的知識(可能是趨勢、預測、類型或相關等)的過程。資料探 勘最具價值之處在於可以發掘隱藏資料庫中深層並且客觀的知識,並且能提供決 策者作決策時之依據。資料探勘重視結果的實用性大於學術價值,因此資料探勘 的方法中多數不強調和驗證假設的顯著性與資料的抽樣或常態分配的問題(尹相 志,2006)。

本研究的目的為建立一校舍建築耐震能力快速判斷的模型,讓非土木專業背 景的學校人員也能運用電腦系統快速判斷並得到所需要的建築耐震能力資訊。因 此以資訊的實用性為主要目標,故選擇資料探勘的方法配合耐震能力詳細評估資

料庫為校舍建築耐震能力快速判斷的核心,並能為建築耐震能力評估建立另一種 新的判斷模式。