緒論 - 雲端運算環境下基於知識本體之資訊檢索系統建置-以半導體產業為例

在資訊爆炸的今日，數位資訊量以驚人速度成長，Gantz & Reinsel(2009)指出，

2008 年全球所創造的數位資訊量高達約 3.9*10²¹bits，直至 2012 年數位資訊量將達到 2008 年的 5 倍。IDC 研究報告(Gantz & Reinsel，2010)更預測 2020 年新增的數位資訊成長幅度將是 2009 年的 44 倍。面對如此龐大的資訊量，人們遭遇的困境從過去資料不易取得轉變成無法從大量資料中找出真正有用的資訊。如何蒐集資訊、整理資訊、找出有意義的資訊、儲存資訊並提供正確、快速地檢索方式將是一門重要的學問。資訊檢索(Information Retrieval)在大量非結構化資料中找到需要的資訊，資訊檢索技術過去較常見的包括單純利用字串比對的布林模式 (Boolean Model)、加入部分比對及相似度觀念的向量模式 (Vector Model)、以機率架構計算的機率模式 (Probabilistic Model)，但此三種模式僅著重詞彙間的比對，

忽略詞彙的意義與詞彙之間的關聯度，若能透過預先定義好之領域知識，搭配詞頻、索引、權重及排序演算法將能提供更精確的檢索結果，因此，近幾年內陸續發展透過語意理解之自然語言查詢、甚至是加入本體論(Ontology)概念之檢索方式。

直至 2020 年，超過三分之一的數位資訊量會存在或經過雲端環境(Gantz &

Reinsel，2010)，雲端運算(Cloud Computing)這個名詞最早出現在 2007 年由 Google 提出(Wikipedia, 2007)，此種新的資源整合方式提供一種便利、能由客戶透過網路連接並自由設定其組態的運算資源(如網路、伺服器、儲存、應用程式與服務)與隨選化的網路存取服務，並能夠在最小的管理成本或服務供應商互動下快速提供與釋出(朱明中，2010)。雲端運算並非新技術，大致上是延續「分散式運算」(Distributed Computing)及「網格運算」(Grid Computing)而來，在過往分散運算的時代後，集

‧

持續不斷，並為 Gartner(2008)發表 2011 年最具影響力的十大策略性科技中之一。

企業界無不審慎面對並發展許多相關計畫及產品搶攻這塊市場，如 Amazon Web Services(AWS) 雲端帄台上之 EC2(Elastic Compute Cloud) (Amazon, 2011a) 及 S3(Simple Storage Service)提供儲存與運算能力(Amazon, 2011b)；Salesforce 的 Force.com 帄台提供資料庫、邏輯及使用者介面(Salesforce, 2011)；IBM 的藍雲(Blue Cloud)計畫提供雲端運算所需擁有的硬體設備與管理軟體(IBM, 2007)；Google 發表 MapReduce 軟體架構(Dean & Ghemawat, 2004)、BigTable 資料庫模式(Chang 等，

2006)及 GFS(Google File System)檔案系統(Ghemawat, Gobioff, & Shun, 2003)，

Google Apps 將雲端概念應用在服務上，GAE(Google App Engine)則提供在 Google 的基礎架構上執行自己開發之網路應用程式(Google, 2011)；Intel、Yahoo、HP 共同成立雲端運算測詴帄台 (Cloud Computing Test Bed)，是一個全球的開放源碼計畫，由多資料中心組成，將推展在軟體、資料中心管理與大規模網際網路運算硬體各方面的研究(謝良奇，2008)；Microsoft 推出 Azure 提供軟體與網路帄台作為雲端服務，讓軟體開發者所撰寫的程式可以直接在微軟資料中心上線)(Windows Azure, 2011)；趨勢科技則建立防毒雲提供使用者在網路上即時偵測病毒及惡意程式(趨勢科技，2011)。

雲端運算的發展讓企業在硬體上的支出日益減少，關於企業雲端運算與虛擬化技術亦在國際會議中受到重視，2011 年 5 月於倫敦舉辦之 Enterprise Cloud Computing & Virtualization 2011 Conference 即將主題放在 Infrastructure as a Service 及 Virtualization，前者著重雲端運算帶來的外包及 SOA 趨勢，後者針對不同層面之虛擬化技術作探討，提供企業評估雲端運算帶來之影響及未來應用方向之參考。

第二節研究目的

隨著網路發達及科技日益進步，資訊的取得越來越方便，各大網站如 Google、

‧

通的機制；文字探勘(Text Mining)則藉由分析大量非結構或半結構化的文件找尋詞彙間隱藏的規則及相關性。本研究希望結合本體論及文字探勘發展出半導體產業

‧

本研究提出與專家共同建立之半導體產業概念模型，並使用詞庫與 Meta Model 記錄相關詞彙及實體間的關聯，透過文字探勘分析新聞網頁、產業報告及半導體產業供應鏈內廠商網頁之關聯規則及詞頻計算，建構半導體產業知識本體作為資訊檢索系統精確度提升及視覺化呈現的基礎，亦運用雲端運算滿足處理大量資料的需求。本研究之研究架構如下：

第一章緒論

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

本章針對研究背景、動機、目的及架構逐一說明。

在文檔中雲端運算環境下基於知識本體之資訊檢索系統建置-以半導體產業為例 - 政大學術集成 (頁 9-13)

緒論

‧

第二節 研究目的

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節研究目的

立政治大學