• 沒有找到結果。

第二章 文獻回顧

第三節 資料庫的定義與建置

人類文明在數千年的時間內持續發展,自從文字符號發明之後,資料的累積 就是人類知識傳遞的重要方式之ㄧ。在近年來資訊科技的快速發展,隨著資料電 子化的腳步,資料的數量與複雜度日益龐大且快速成長,其規模遠遠超出傳統資 料與檔案管理的能力範圍。因此,為了能處理和運用這些超量的資料,讓人們能 有效率的在浩瀚的資料中擷取所需,資料庫的概念就因此而成形。

資料庫(Database)一詞是在 1963 年於美國舉行之「電腦化資料庫發展與管理」

研討會中被提出,最早的定義包含一個資料庫對應一個檔案,一個檔案內有一套 編 輯 好 的 資 料 登 錄 , 而 每 一 個 資 料 登 錄 是 由 一 個 存 取 鍵 和 資 料 所 組 成 的 (Robin,1989/1993)。目前資料庫的功能,除了保存資料之外,更能在大量的資料 的存取上,達到事半功倍的成效。因此將各種工作所收集到的資料,轉換成電子 資料並以資料庫的形式儲存,已是今日各領域工作上必要的程序之ㄧ。本研究即 秉持著此一理念,將所收集到的耐震補強評估資料,以資料庫的型態儲存,以利 後續研究分析所需。

在資訊科技發展的初期,資料庫的管理是由專業的人員以手動操作軟體的方 式進行管理作業。但是隨著資料的電子化與快速累積,以手動的方式處理資料的 模式已經無法滿足現今各領域的的需求,包含能快速的查詢到所需且正確的資 料、如何避免資料重複的問題、如何更有效率的儲存更多的資料、…等各種的問 題。為了解決這一問題,藉著資訊科技的技術的協助,各式各樣資料庫系統就如 同雨後春筍般的出現,資料庫系統軟體能以更自動化且快速的方式管理資料,以 滿足各領域的工作所需。

資料庫系統(Database System)是由兩個部份所組成的,一個是資料庫本身,

另一個是資料庫管理系統(Database Management System)。資料庫本身只是儲 存各式各樣資料的電子檔案,使用者必須透過一個程式介面來管理資料庫內的資 料,這個程式就稱為資料庫管理系統。資料庫系統可以解決早期以傳統檔案系統

儲存資料所產生的不便與缺失,例如資料不一致、資料的安全性、…等各種的問 題。它是一種專門處理資料的程式系統,扮演著使用者和大量資料之間的溝通橋 樑,其優點如下所示(許正憲、張嘉琪,2011):

一、程式與資料有可切割的獨立性。

二、資料容易網路化和多人共享。

三、可檢查和減少資料重複性的問題,增加資料的一致性。

四、可以使用各種自動化的技術處理、轉換和分析資料。

五、減少程式開發者的負擔,有現成的資料系統可提供使用。

六、完整的權限管理功能,增加了資料的安全性。

由以上的說明可知,資料庫系統具有許多的優點,因此被大量運用於各行各 業之中。資料庫系統伴隨著數十年來人類科技的創新與進步,目前已有許多的型 態與應用方式。目前常見的資料庫系統以儲存模式來分類,可分成六種不同的類 別,茲分述如下(廖述賢、溫志皓,2012)(許正憲、張嘉琪,2011):

一、階層式資料庫(Hierachical Database):

階層式資料庫是較早期發展的類型,其設計理念是認為資料以階層的方 式來呈現最清楚,因此它採用樹狀結構的方式,將資料分類儲存在不同的階 層下。

二、網路式資料庫(Network Database):

為了解決階層式資料庫搜尋資料速度的問題,就發展出網狀式資料庫的 類型(Gerald,2004)。其儲存方式為將每一個資料變成一個節點,每個節點之 間都可以建立關聯性,因此可以表示多對多的資料關係,也有從不同路徑存 取相同資料的特性,其資料節點間可形成一複雜的網狀結構。

三、關聯式資料庫(Relationship Database):

關聯式資料庫是目前使用率最高的資料庫類型,其資料的主要儲存型態 為二維的資料表(Table),資料表內有資料欄(Column)和資料列(Row),使用

者可藉由行與列的關係來找出所要的資料內容。而在數個不同的資料表間可 以使用相同的欄位來維繫之間的關聯與查詢作業。

四、實體關聯式資料庫(Entity-Relationship Database):

是關聯式資料庫的延伸形式,強調以實體-關係圖(Entity-Relationship Diagram,E-R Diagram)來設計和表達資料欄位之間的關聯,如此可以設計出 正確的關聯式資料庫架構(Peter & Carlos ,2009)。

五、物件導向式資料庫(Object-Oriented Database):

物件導向式資料庫是近期發展的新型態資料庫,其資料是以物件的方式 來表示,物件可以表示複雜度較高的資料類型,其概念來自物件導向的程式 設計,將反覆使用的程式碼定義成物件,可以加快執行速度,減少錯誤的發 生(Gerald,2004)。前述的四種資料庫型態都無法表示動態的物件,故發展物 件導向式資料庫來解決此一問題。物件資料有屬於自己的屬性和方法,物件 間則依賴方法來傳遞訊息。

六、多維度資料庫(Multi-Dimensional Database):

多維度資料庫是應用於大型資料庫之資料倉儲(Data Warehouse)的作業 中,其資料格式為資料倉儲所需要的形式,可分成事實資料(Fact Data)與維 度 資 料 (Dimension Data) 兩 部 分 。 常 見 的 儲 存 架 構 有 多 維 度 立 方 體 (Multi-Dimensional Cube)、星狀綱要(Star Schema) 、與雪花式綱要(Snowflake Schema) 與事實群集綱要(Fact Constellation Schema)。

本研究將收集的耐震詳細評估資料整理之後,採用目前最常使用的關聯式資 料庫建立研究資料庫,做為資料探勘研究的資料來源。

雖然資料庫系統能協助大量的資料的存取,達到事半功倍的效果,但是如果 資料庫的結構與關連性設計不當,除了會影響到資料存取速度,浪費資料儲存的 空間,甚至還會造成資料不一致的情形,造成存取錯誤的資料,更直接影響到工 作的成效。在設計資料庫的時候,資料欄位的設計和規畫是非常重要的。資料庫

的規劃不當會造成日後資料處理和查詢的困難,更會影響到資料分析與探勘的效 率和結果。因此在資料探勘的工作中,要使用約 80%的時間處理資料選擇(Data Select)、資料清理(Data Clean)和資料轉換(Data Transformation)的工作,但是有這 樣的投資,才能讓後續的工作更順利的進行。

正因如此,一般在資料庫初步設計完成後,會接著進行資料庫的正規化工 作,其目的為去除多餘資料與不協調的資料關連性,以達成資料表內容最佳化的 結果。常見的的正規化動作與其概略說明分述如下(王鴻儒,2010):

一、第一正規化(First Normal Form,1NF):

重要的原則是要符合欄位的唯一性,避免重複性的資料存在於資料庫 中。

二、第二正規化(Second Normal Form,2NF):

為解決過多重複性的資料存在於資料庫中,必須先找出資料表的主鍵值 (Primary Key),再檢查主鍵值與其他欄位的相依性,決定是否將單一資料表 拆開成數個獨立的資料表,並建立資料表之間的關聯性。

三、第三正規化(Third Normal Form,3NF):

主要的目的為消除資料表內的遞移相依性(Transitive Dependency),如果 資料表內有此一情形發生,將可能會造成資料的不一致性,因此必須適度的 拆開資料表,再建立關聯。

以上是目前用的正規化方式與其使用時機的說明。至於使用到幾種正規化的 步驟,仍需設計者依據資料的實際應用情形而定,通常是要在資料重複性與使用 便利性之間取得正確的平衡模式(高偉格,2006)。