巨量資料分析文獻探討

2.2 巨量資料分析（Big Data Analytics）

2.2.1 巨量資料分析文獻探討

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

移動平均線又有依天數變動與否，分為固定天數移動平均線（FLMA, fixed length moving averages）及變動天數移動平均線（VLMA, variable length moving averages；Gunasekarage and Power, 2001）。移動平均線公式（2.1）如下：

𝑆𝑀𝐴_𝑘^𝑇 = ¹

𝑇∑^𝑘_{𝑡=𝑘−𝑇+1}𝑃𝑟𝑖𝑐𝑒_𝑡 （2.1）

T 為日期，Price 為日期 T 的收盤價，以 6 天移動平均線（SMA⁶）為例，即計算每一日之前 6 個交易日（含當日）平均收盤價，再將每個 SMA⁶繪成線而成移動平均線。亦代表移動平均線中的每一日價格權數均等，更多研究運用移動平 均線建立模型進行趨勢及買賣決策預測。

2.2 巨量資料分析（Big Data Analytics）

2.2.1 巨量資料分析文獻探討

巨量資料顧名思義代表成千上萬的資料迅速地被產生且其資料量快速增加，

引申如何從巨量資料中進行資料分析的議題。藉由巨量資料分析探勘後，發現一些新知識，來提升生產力、推動創新及優化決策品質。一些學者對巨量資料（Big Data）定義如下所示：

Gartner 認為巨量資料是項具有高容量（high volume）、速度（velocity）及多樣性（variety）之資訊資產（information assets），此項資訊資產能夠增加對於企業需求成本效益衡量、提升資訊處理創新的洞見（insight）及決策品質。

Zikopoulos et al.（2012）指出巨量資料是由三個 V 字所組成—數量（volume）、

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

速度（velocity）及多樣性（variety）。Volume 表示大量資料增加有別以往過去

（over traditional settings），Velocity 表示信息產生的速度遠超過以往傳統的系統，Variety 表示企業資料以多樣的面貌存在。

Zikopoulos et al.（2012）更進一步提出第 4 個真實（Veracity）及第 5 個 V-價值（Value）來融入於巨量資料的概念以表示大數據。真實性是表達數據或資料的準確性（accuracy）、真實性（truthfulness）和可靠性（reliability）。第 4 個 V 所呈現價值雖是令人期待，但因其需匯聚多個來源管道資料，將是項艱鉅的任務。第 5 個 V-價值（Value）則點出了巨量資料將帶來對於企業資訊科技投入所產生的附加效益，但仍需考量成本效益的適合性。

Teradata 公司認為巨量資料是由不同的資料來源（diverse data）需用不同資料結構與分析方式處理。Bawa（2011）指出數以千計應用系統產生資料的速度將迅速擴增中，而數以萬計正在分析這些資料的程式亦同時迅速成長中。此外，

Bawa 亦指出多樣的資料結構很可能具有高變異性（highly variant），另部份資料結構是由系統功能程式產生而成。故與時俱增的巨量資料，確需用巨量分析方法來進行分析以茲因應。

由於多樣、複雜及少結構化的資料正不斷迅速增加，所以分析方法尤為重要（Chen and Zhang, 2014）。為了滿足這些需求，對於傳統資料庫處理方式及基礎建設將是項巨大挑戰。巨量資料分析將以新的基礎架構及建置方式來達成這些需要，亦即利用大量分散式架構處理及管理分析資料。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

O'Leary（2013）綜整以上巨量資料的定義，強調資料量多（more data）、

資料複雜多樣、非結構化的特性。而巨量資料分析包含資料快速被產生，以及企業必須快速回應巨量資料。因此，資料遂較具模糊性（equivocality；O'Leary, 2013），為進行此種特性資料的分析，首先需先將其去模糊性。模糊性代表分析資料具有不一致、不完整、可擴展性、即時性特質（Chen and Zhang,

2014）。最後，強調必須改變資訊科技架構朝併行處理方式（parallel

processing）。

巨量資料分析框架可分為三大部份（Wu et al., 2014），分別為資料隱私及領域知識（Data privacy and domain knowledge）、資料存取運算（Data

accessing and computing）、巨量資料探勘（Big data mining algorithm），如圖 2-1 所示。

圖 2-1：巨量資料分析框架（Wu et al., 2014）

資料隱私及領域知識部份，是指在處理巨量資料背後所需之專業領域知識及其相關隱私議題，如前 2.1 所探討的股票相關領域知識。

資料存取運算部份，主要是提供能處理巨量資料運算平台與程式，以因應巨量成長的資料量與計算量。而巨量資料運算平台可分為批次處理（batch

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

processing）及即時處理（stream processing）兩大架構，分別由不同平台技術支援（Chen and Zhang, 2014），如圖 2-2 所示。

批次處理平台架構有 Apache Hadoop、Dryad、Apache Mahout、Jaspersoft BI Suite、Pentaho Business Analytics、Skytree Server、Tableau、Karmasphere Studio and Analyst、Talend Open Studio 等。在即時處理的平台架構有 Storm、

S4、Proven、SQLstream s-Server、Splunk、Apache Kafka、SAP Hana 等。

圖 2-2：巨量資料分析運算平台（Chen and Zhang, 2014）

巨量資料探勘部份，是以資料的角度將領域知識、人工智慧、模擬、資料探勘、文字探勘及統計等資料分析方法，以及分散式運算平台處理大量且複雜資料，並進行知識發掘的工作。而在知識發現的方法中，常被大家所採納的是 KDD（Knowledge Discovery from Data），透過 7 個步驟（Begoli and Horey, 2012）逐步建構並發現知識，步驟說明如下：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

KDD（Knowledge Discovery from Data），透過 7 個步驟（Begoli and Horey, 2012）逐步建構並發現知識，步驟說明如下：

1. 由客戶端角度（customer’s perspective）根據歷史資料定義應用領域處理流程

（Application domain prior to information and defining purpose of process from customer’s perspective）。

2. 知識發掘議題中產生資料子集合（Generate subset data point for knowledge discovery）。

3. 去除雜訊、處理漏失資訊、收集必要資料及計算時間資訊、已知變化

（Removing noise, handling missing data fields, collecting required information to model and calculating time information and known changes）。

4. 找尋可以表示知識發掘議題之資料及屬性（Finding useful properties to present data depending on purpose of job）。

5. 配適符合研究目的的資料發掘方法（Mapping purposes to a particular data mining methods）。

6. 選擇資料探勘方法，以找尋資料態樣（Choose data mining algorithm and method for searching data patterns）。

7. 用表示式表達研究的態樣（Researching patterns in expressional form）。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

反覆多次執行步驟 1 至 7，將有可能發現新的樣態與知識機會。其中於步驟 5 之資料挖掘方法，可依資料來源及解決問題特性，選擇適合的結構化與非結構資料分析方法，本研究將於 2.2.3 與 2.2.4 深入探討。

此外，建構巨量資料分析應用，首先最重要需考量具有良好的架構框架，

其次如支援多種分析方法、依需求選擇適合平台架構、兼具平行運算、分散式儲存與調合程式資料間的能力等（Chen and Zhang, 2014）。並以資料（data-intensive）為導向，從應用層、分析層、管理層、基礎層由上往下思考規劃，

並由下往上建構（Big Data Solution；EMC and VMware, 2014）。

在應用層部份，瞭解在巨量資料生態系統的位置，解決問題的本質內涵是什麼，解決問題的目標，解決問題的資料及程式流，並歸納出問題的屬性（如 what、how long）與對應的資料分析方法（如最佳化、分群）。資料分析層部份則考慮適合何種資料分析及視覺化呈現技術，欲建構方式是自行打造或選擇資料分析工具平臺。在管理層部份屬於如何透過介面自動及統一有效管理應用層、資料分析層、基礎層之工具與資料儲存等議題範疇。在基礎層部份為實現巨量資料規模的應用，需考量重點應以企業需要一高度自動化、可水平擴充的儲存和計算平臺建構，包含計算虛擬化、巨量資料儲存、網路虛擬化、安全層等面向。

在文檔中 EPSO-GHSOM股票巨量資料選擇交易策略 - 政大學術集成 (頁 33-38)

2.2 巨量資料分析（Big Data Analytics）

2.2.1 巨量資料分析文獻探討

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2 巨量資料分析（Big Data Analytics）

2.2.1 巨量資料分析文獻探討

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2014）。最後，強調必須改變資訊科技架構朝併行處理方式（parallel

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學