• 沒有找到結果。

第一章 緒論

第三節 研究流程

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5

第三節 研究流程

本研究的研究流程,首先對感興趣研究主題與研究對象進行界定,並收集相 關的資料,再來透過蒐集而來的次級資料提出研究目的與研究問題,並進一步閱 讀與本研究相關的理論文獻與書籍,以建立研究架構,並適時回頭調整研究問題 的擬定,研究架構建立完成之後,則進行個案公司的邀約訪談,以及相關合作夥 伴與客戶的邀訪,訪談過程中也須重新檢視研究問題的適當性,最後將訪談後所 獲得的資料與次級資料加以分析研究,提出本研究的結論與建議。本研究之研究 流程如圖一-1 所示:

圖 一-1 研究流程圖 資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6

文獻探討 第二章

第一節 Big Data

一、定義及特性

根據 Ward 和 Barker 兩位學者(Ward & Barker, 2013)對 Big Data 定義 所做的整理如下:

1. 美國國家標準與技術研究院(NIST)對於 Big Data 的定義為「“資 料”超出目前常見的系統或技術所擁有的資料處理能力及數 量。」

2. 美國市場調查研究機構(Gatner)認為 Big Data 具有「大量

(high-volume)、快速(high-velocity)、多樣性(high-variety)等特性 的資訊資產,並具有成本效益與創新形式的資訊處理程序 (information processing)可增強對資料的洞察與決策的制定。」

3. 大型資料庫公司甲骨文(Oracle)認為 Big Data 是「來自於傳統關 聯式資料庫所驅動的商業決策,擴大至非結構化資料

(unstructured data)的衍生價值。」

4. 世界最大半導體公司英特爾(Intel)根據其經驗解釋「Big Data 的 機會出現於當公司每周產生 300TB 的資料量時,大部份是針對 儲存於常見的關聯式資料庫上的業務交易(business transactions) 資料進行分析,其次則是文件、電子郵件、感測器數據、部落 格與社群媒體。」

5. 軟體巨人微軟(Microsoft)則認為「Big Data 是用來描述一種應用

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

7

大量電腦計算能力的過程,其包括使用最新的機器學習與人工 智慧技術,針對大量且高複雜度的資料進行處理的過程。」

而在「大數據」(麥爾荀伯格、庫基耶, 2013)一書中,對於 Big Data 的解釋是「資料量一定要達到相當規模才能做的事(例如得到新觀點、創 造新價值),沒有一定規模就無法實現,而且這些事將會改變現有市場、

組織、公民與政府間的關係。」

「雲端時代的殺手級應用-海量資料分析」(胡世忠, 2013)一書中則 對 Big Data 的解釋為「超過典型資料庫工具的硬體環境和軟體工具所能 獲取、存儲、管理和分析能力者,即被視為 Big Data。」

知名顧問管理公司麥肯錫(MGI, 2011)在發表的一篇論文中指出「Big Data 是指大小超出了典型資料庫軟體工具所能收集、儲存、管理和分析 能力的數據資料集。」

從以上各大科技公司與書籍對 Big Data 的定義中,進一步可以發現 Big Data 相較於傳統資料庫所能處理的資料,擁有一些不同的特性,常看 到許多文章會提及 Big Data 必須擁有 3V 或 4V 特性,而目前在市場上引 用比較多的說法是,由(IBM, 2012)所整理定義的 Big Data 四大特性,又 稱為 4V:資料量龐「大」(Volume)、變化飛「快」(Velocity)、種類繁「雜」

(Variety)及真為存「疑」(Veracity),如圖二-1 所示:

資料量龐「大」:因為各種新科技的誕生,如智慧型手機、平板電腦、

穿戴式科技、電子標籤、感測器等等,讓許多企業內部所存放的資料量 呈現爆炸性的成長,10 年前資料量超過 TB 就已經算是很大的資料量,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8

而現在許多大企業所存放的資料量,已經超過了 PB (1024TB)的等級,以 知名的社群網站 Twitter 來說,其每天所產生的資料量為 7TB,而 Facebook 每天所產生的資料量則高達 100TB(胡世忠, 2013),資料量成長的態勢仍 不見趨緩的徵兆。

資料變化飛「快」:因網路取得的方便性提高加上行動裝置的普及,

人們製造資料的速度也大幅成長,在此特性中所謂的「快」,指的是變動 的流動性資料,以網路口碑資料來說,網友在網路上所產生的口碑是持 續性的,而且其傳播速度也是十分驚人,在面對如此快速變化的資料,

如何能夠即時地處理與分析,也是 Big Data 必須克服的問題。

資料種類繁「雜」:由於硬體技術的發展,生活中出現許多感測器、

智慧型裝置、照相工具等等,以及社群網站大量的崛起,企業所要面對 的資料來源愈來愈多元,也愈來愈複雜,不僅有以往的傳統關聯式資料 庫所儲存的結構性資料,也必須處理來自網站內容、搜尋引擎、社群媒 體、電子郵件等各式各樣非結構或半結構的資料。

資料真偽存「疑」:過去許多資料的取得來源,大多是從企業內部或 經過人工過濾後所建立的資料庫,所以其可靠度較高,但如今網路資料 來自四面八方,有不同的人或物在不同的背景下所產生,不完整的、不 可靠或真偽難辨的資料將愈來愈多,預計到 2015 年全球所採集的所有資 訊中將超過八成是不確定可靠與否的資訊(胡世忠, 2013)。很多時候會造 成資料的不確定性,包括製造過程的不可靠與資料內容的不可靠。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

9

圖 二-1 IBM 對 Big Data 的特性定義

資料來源:http://www-01.ibm.com/software/data/bigdata/

二、Big Data 的相關技術

Big Data 並非是指單一種的資訊技術,其運作的背後包含了許多資訊工程 技術的整合應用,包含資料的儲存、分類、萃取和分析等等,因為相關 技術種類繁多,以下將會介紹五種關鍵的技術應用,做為 Big Data 技術 層面的入門探討。

(一) Hadoop

Hadoop 是一個開放原始碼大規模資料的分散式處理技術。尤其是在 處理大量非結構化資料,在效能與成本上均具有優勢,再加上可彈性 擴充容量,故成為 Big Data 中最重要的基礎技術。Hadoop 主要是由 三項要素所組成,即用於儲存大容量檔案的分散式檔案系統 HDFS (Hadoop Distributed File System)、用於對大量資料進行高效分散式處

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10

理的架構 Hadoop MapReduce,以及名為 HBase 的超大型資料池。

Hadoop 的最大優勢是能夠處理以往需要大量時間與成本的非結構化 資料,過去因為處理的高成本,讓人不得不放棄這些非結構化資料的 採用,而今 Hadoop 技術所能處理的資料量,已能夠擴充至 PB 甚至 是 EB 級的資料容量(城田真琴, 2013)。

(二) 串流資料(即時資料)處理

在 Big Data 的資料特性中一個很重要的特性是「快速」(Velocity),表 示資料的變動程度相當快速,所以必須要能夠處理源源不絕產出的大 量資料,串流資料處理技術又稱為即時資料處理技術,與傳統關聯式 資料庫不同之處在於,串流資料處理在資料輸入時不將資料寫入硬碟,

而是先於記憶體中處理,故可以達到高速的處理效果(城田真琴, 2013)。

(三) 機器學習

機器學習是一門人工智慧的研究科學,是為了以電腦實現人類自然進 行學習能力的技術,機器學習理論主要是設計和分析一些讓計算機可 以自動「學習」的演算法。機器學習的應用領域相當廣泛,包括影像 辨識、氣象預報、語音辨識與交通路況等等(城田真琴, 2013)。

(四) 資料探勘(Data Mining)

資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊 關聯性的訊息的過程。而資料探勘的方法又可細分成好幾種程式演算 法,如「資料分群」、「神經網路」、「迴歸分析」、「決策樹」等等,其 目的都是希望從大量資料中找出知識與模型(城田真琴, 2013)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

11

(五) 自然語言處理

是用以電腦程式對人們日常溝通所使用的語言進行分析與運用,具有 對文句依其各種詞性來進行分解之「構詞分析」、計算各種詞彙所出 現頻率的「常用度分析」,以及理解文章的意義的「語意分析」等等 (城田真琴, 2013)。

三、Big Data 應用案例

所謂的資料含金量,指的是從蒐集得來的資料中尋找出商機,而提 到從資料中挖掘商機,就不得不提到發生在美國沃爾瑪(Wal-Mart)經典的

“尿布、啤酒、星期五”案例,在 90 年代美國零售業龍頭沃爾瑪,從龐 大的交易資料庫中發現,每當週五的晚間,總會有大量的尿布跟啤酒會 被一起購買。經過進一步的市場調查之後,發現原來美國婦女通常會在 星期五請先生下班後替小孩買尿布,而先生也因為買尿布之餘順手買了 當晚要喝的啤酒,而在沃爾瑪發現這樣的消費行為之後,就在每個星期 五改變貨架的擺放位置,將尿布與啤酒放在一起,結果成功地增加了這 兩項商品的銷售量,也在行銷界留下一段經典的傳奇(數位時代, 2012)。

以上是早期 Big Data 的應用模式,而如今 Big Data 的應用範圍已經 相當的廣泛,也因為產業的不同本身所產生的資料類型也有很大差別,

例如金融、政府部門、零售業等會產生大量的文本和數字資料,而製造 業、醫療業、媒體業則是以大量的圖片、影音為主的多媒體資料(胡世忠, 2013),隨著資料類型的不同所使用的資料分析技術也不一樣,不過應用 Big Data 的目的不外乎是希望能夠達到觀察過去、分析現狀、預測未來的

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

目的,而「預測」更是 Big Data 最具價值的地方(麥爾荀伯格、庫基耶, 2013)。

大數據的獲利模式(城田真琴, 2013)這本書中,整理出許多 Big Data 的運 用模式,以下將對各運用模式進行說明:

(一) 精準推薦商品或服務

根據使用者的分類、行為以及消費記錄等資料為基礎,對使用者發送 相關適合的商品資訊。這在許多經營電子商務的平台,已被頻繁的運 用,例如美國亞馬遜、臺灣博客來的書籍推薦以及 facebook 的好友推 薦等,都是成功的經典例子。

(二) 行為定位廣告

在不斷蒐集使用者在網路上的瀏覽記錄或消費記錄的資訊後,依據使 用者的興趣、嗜好等屬性分類,並針對所屬的不同群體,投放不同的 網路廣告。擁有這種能力的公司,主要是以經營入口網站或搜尋引擎 的公司為主,如 yahoo、google 等。

(三) 適地性(Local-Based Service, LBS)行銷

利用智慧型手機基地台定位或 GPS 定位的技術,來獲得使用者所在 位置,並推播附近商家的廣告。這種行銷活動,常見於百貨公司拍賣 活動的宣傳或連鎖餐廳的折扣優惠廣告等。

(四) 顧客流失分析

在許多以會員制的公司企業中,如電信公司、保險公司、DVD 出租

在許多以會員制的公司企業中,如電信公司、保險公司、DVD 出租