研究流程

第一章緒論

第三節研究流程

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節研究流程

本研究的研究流程，首先對感興趣研究主題與研究對象進行界定，並收集相關的資料，再來透過蒐集而來的次級資料提出研究目的與研究問題，並進一步閱讀與本研究相關的理論文獻與書籍，以建立研究架構，並適時回頭調整研究問題的擬定，研究架構建立完成之後，則進行個案公司的邀約訪談，以及相關合作夥伴與客戶的邀訪，訪談過程中也須重新檢視研究問題的適當性，最後將訪談後所獲得的資料與次級資料加以分析研究，提出本研究的結論與建議。本研究之研究流程如圖一-1 所示：

圖一-1 研究流程圖資料來源：本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

文獻探討第二章

第一節 Big Data

一、定義及特性

根據 Ward 和 Barker 兩位學者(Ward & Barker, 2013)對 Big Data 定義所做的整理如下：

1. 美國國家標準與技術研究院(NIST)對於 Big Data 的定義為「“資料”超出目前常見的系統或技術所擁有的資料處理能力及數量。」

2. 美國市場調查研究機構(Gatner)認為 Big Data 具有「大量

(high-volume)、快速(high-velocity)、多樣性(high-variety)等特性的資訊資產，並具有成本效益與創新形式的資訊處理程序 (information processing)可增強對資料的洞察與決策的制定。」

3. 大型資料庫公司甲骨文(Oracle)認為 Big Data 是「來自於傳統關聯式資料庫所驅動的商業決策，擴大至非結構化資料

(unstructured data)的衍生價值。」

4. 世界最大半導體公司英特爾(Intel)根據其經驗解釋「Big Data 的機會出現於當公司每周產生 300TB 的資料量時，大部份是針對儲存於常見的關聯式資料庫上的業務交易(business transactions) 資料進行分析，其次則是文件、電子郵件、感測器數據、部落格與社群媒體。」

5. 軟體巨人微軟(Microsoft)則認為「Big Data 是用來描述一種應用

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

大量電腦計算能力的過程，其包括使用最新的機器學習與人工智慧技術，針對大量且高複雜度的資料進行處理的過程。」

而在「大數據」(麥爾荀伯格、庫基耶, 2013)一書中，對於 Big Data 的解釋是「資料量一定要達到相當規模才能做的事(例如得到新觀點、創造新價值)，沒有一定規模就無法實現，而且這些事將會改變現有市場、

組織、公民與政府間的關係。」

「雲端時代的殺手級應用－海量資料分析」(胡世忠, 2013)一書中則對 Big Data 的解釋為「超過典型資料庫工具的硬體環境和軟體工具所能獲取、存儲、管理和分析能力者，即被視為 Big Data。」

知名顧問管理公司麥肯錫(MGI, 2011)在發表的一篇論文中指出「Big Data 是指大小超出了典型資料庫軟體工具所能收集、儲存、管理和分析能力的數據資料集。」

從以上各大科技公司與書籍對 Big Data 的定義中，進一步可以發現 Big Data 相較於傳統資料庫所能處理的資料，擁有一些不同的特性，常看到許多文章會提及 Big Data 必須擁有 3V 或 4V 特性，而目前在市場上引用比較多的說法是，由(IBM, 2012)所整理定義的 Big Data 四大特性，又稱為 4V：資料量龐「大」(Volume)、變化飛「快」(Velocity)、種類繁「雜」

(Variety)及真為存「疑」(Veracity)，如圖二-1 所示：

資料量龐「大」：因為各種新科技的誕生，如智慧型手機、平板電腦、

穿戴式科技、電子標籤、感測器等等，讓許多企業內部所存放的資料量呈現爆炸性的成長，10 年前資料量超過 TB 就已經算是很大的資料量，

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

而現在許多大企業所存放的資料量，已經超過了 PB (1024TB)的等級，以知名的社群網站 Twitter 來說，其每天所產生的資料量為 7TB，而 Facebook 每天所產生的資料量則高達 100TB(胡世忠, 2013)，資料量成長的態勢仍不見趨緩的徵兆。

資料變化飛「快」：因網路取得的方便性提高加上行動裝置的普及，

人們製造資料的速度也大幅成長，在此特性中所謂的「快」，指的是變動的流動性資料，以網路口碑資料來說，網友在網路上所產生的口碑是持續性的，而且其傳播速度也是十分驚人，在面對如此快速變化的資料，

如何能夠即時地處理與分析，也是 Big Data 必須克服的問題。

資料種類繁「雜」：由於硬體技術的發展，生活中出現許多感測器、

智慧型裝置、照相工具等等，以及社群網站大量的崛起，企業所要面對的資料來源愈來愈多元，也愈來愈複雜，不僅有以往的傳統關聯式資料庫所儲存的結構性資料，也必須處理來自網站內容、搜尋引擎、社群媒體、電子郵件等各式各樣非結構或半結構的資料。

資料真偽存「疑」：過去許多資料的取得來源，大多是從企業內部或經過人工過濾後所建立的資料庫，所以其可靠度較高，但如今網路資料來自四面八方，有不同的人或物在不同的背景下所產生，不完整的、不可靠或真偽難辨的資料將愈來愈多，預計到 2015 年全球所採集的所有資訊中將超過八成是不確定可靠與否的資訊(胡世忠, 2013)。很多時候會造成資料的不確定性，包括製造過程的不可靠與資料內容的不可靠。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖二-1 IBM 對 Big Data 的特性定義

資料來源：http://www-01.ibm.com/software/data/bigdata/

二、Big Data 的相關技術

Big Data 並非是指單一種的資訊技術，其運作的背後包含了許多資訊工程技術的整合應用，包含資料的儲存、分類、萃取和分析等等，因為相關技術種類繁多，以下將會介紹五種關鍵的技術應用，做為 Big Data 技術層面的入門探討。

(一) Hadoop

Hadoop 是一個開放原始碼大規模資料的分散式處理技術。尤其是在處理大量非結構化資料，在效能與成本上均具有優勢，再加上可彈性擴充容量，故成為 Big Data 中最重要的基礎技術。Hadoop 主要是由三項要素所組成，即用於儲存大容量檔案的分散式檔案系統 HDFS (Hadoop Distributed File System)、用於對大量資料進行高效分散式處

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

理的架構 Hadoop MapReduce，以及名為 HBase 的超大型資料池。

Hadoop 的最大優勢是能夠處理以往需要大量時間與成本的非結構化資料，過去因為處理的高成本，讓人不得不放棄這些非結構化資料的採用，而今 Hadoop 技術所能處理的資料量，已能夠擴充至 PB 甚至是 EB 級的資料容量(城田真琴, 2013)。

(二) 串流資料(即時資料)處理

在 Big Data 的資料特性中一個很重要的特性是「快速」(Velocity)，表示資料的變動程度相當快速，所以必須要能夠處理源源不絕產出的大量資料，串流資料處理技術又稱為即時資料處理技術，與傳統關聯式資料庫不同之處在於，串流資料處理在資料輸入時不將資料寫入硬碟，

而是先於記憶體中處理，故可以達到高速的處理效果(城田真琴, 2013)。

(三) 機器學習

機器學習是一門人工智慧的研究科學，是為了以電腦實現人類自然進行學習能力的技術，機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的演算法。機器學習的應用領域相當廣泛，包括影像辨識、氣象預報、語音辨識與交通路況等等(城田真琴, 2013)。

(四) 資料探勘(Data Mining)

資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關聯性的訊息的過程。而資料探勘的方法又可細分成好幾種程式演算法，如「資料分群」、「神經網路」、「迴歸分析」、「決策樹」等等，其目的都是希望從大量資料中找出知識與模型(城田真琴, 2013)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(五) 自然語言處理

是用以電腦程式對人們日常溝通所使用的語言進行分析與運用，具有對文句依其各種詞性來進行分解之「構詞分析」、計算各種詞彙所出現頻率的「常用度分析」，以及理解文章的意義的「語意分析」等等 (城田真琴, 2013)。

三、Big Data 應用案例

所謂的資料含金量，指的是從蒐集得來的資料中尋找出商機，而提到從資料中挖掘商機，就不得不提到發生在美國沃爾瑪(Wal-Mart)經典的

“尿布、啤酒、星期五”案例，在 90 年代美國零售業龍頭沃爾瑪，從龐大的交易資料庫中發現，每當週五的晚間，總會有大量的尿布跟啤酒會被一起購買。經過進一步的市場調查之後，發現原來美國婦女通常會在星期五請先生下班後替小孩買尿布，而先生也因為買尿布之餘順手買了當晚要喝的啤酒，而在沃爾瑪發現這樣的消費行為之後，就在每個星期五改變貨架的擺放位置，將尿布與啤酒放在一起，結果成功地增加了這兩項商品的銷售量，也在行銷界留下一段經典的傳奇(數位時代, 2012)。

以上是早期 Big Data 的應用模式，而如今 Big Data 的應用範圍已經相當的廣泛，也因為產業的不同本身所產生的資料類型也有很大差別，

例如金融、政府部門、零售業等會產生大量的文本和數字資料，而製造業、醫療業、媒體業則是以大量的圖片、影音為主的多媒體資料(胡世忠, 2013)，隨著資料類型的不同所使用的資料分析技術也不一樣，不過應用 Big Data 的目的不外乎是希望能夠達到觀察過去、分析現狀、預測未來的

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

目的，而「預測」更是 Big Data 最具價值的地方(麥爾荀伯格、庫基耶, 2013)。

大數據的獲利模式(城田真琴, 2013)這本書中，整理出許多 Big Data 的運用模式，以下將對各運用模式進行說明：

(一) 精準推薦商品或服務

根據使用者的分類、行為以及消費記錄等資料為基礎，對使用者發送相關適合的商品資訊。這在許多經營電子商務的平台，已被頻繁的運用，例如美國亞馬遜、臺灣博客來的書籍推薦以及 facebook 的好友推薦等，都是成功的經典例子。

(二) 行為定位廣告

在不斷蒐集使用者在網路上的瀏覽記錄或消費記錄的資訊後，依據使用者的興趣、嗜好等屬性分類，並針對所屬的不同群體，投放不同的網路廣告。擁有這種能力的公司，主要是以經營入口網站或搜尋引擎的公司為主，如 yahoo、google 等。

(三) 適地性(Local-Based Service, LBS)行銷

利用智慧型手機基地台定位或 GPS 定位的技術，來獲得使用者所在位置，並推播附近商家的廣告。這種行銷活動，常見於百貨公司拍賣活動的宣傳或連鎖餐廳的折扣優惠廣告等。

(四) 顧客流失分析

在許多以會員制的公司企業中，如電信公司、保險公司、DVD 出租

在文檔中 Big Data應用於網路口碑監測服務之商業模式研究－以意藍科技為例 - 政大學術集成 (頁 13-0)

第一章 緒論

第三節 研究流程

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節 研究流程

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

文獻探討 第二章

第一節 Big Data

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章緒論

第三節研究流程

立政治大學

第三節研究流程

立政治大學

文獻探討第二章

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學