• 沒有找到結果。

應用巨量資料分析與增長層級式自我組織映射圖演算法於股票選擇策略

N/A
N/A
Protected

Academic year: 2021

Share "應用巨量資料分析與增長層級式自我組織映射圖演算法於股票選擇策略"

Copied!
4
0
0

加載中.... (立即查看全文)

全文

(1)

應用巨量資料分析與

應用巨量資料分析與

應用巨量資料分析與

應用巨量資料分析與增長層級式自我組織映射圖演算法於股票選擇

增長層級式自我組織映射圖演算法於股票選擇

增長層級式自我組織映射圖演算法於股票選擇

增長層級式自我組織映射圖演算法於股票選擇

策略

策略

策略

策略

Big Data Analytics for stock selecting strategy with GHSOM

陳婷妤1、劉文卿1

1國立政治大學資訊管理系(Department of Management Information Systems, National Chengchi

University)

E-mail : timvickie2003@gmail.com, w_liou@nccu.edu.tw

一 一 一 一、、、、 中文摘要中文摘要中文摘要 中文摘要 股票買賣投資最終目的在於獲取最大投資 報酬,其關鍵要素在於挑選優質安全的股票買賣 標的。本研究運用巨量資料分析方法與平台技 術,結合增長層級式自我組織映射圖演算法,並 以巴菲特價值投資理論為基礎,建立資料自動決 定最佳股票分群規則機制,進而提升選擇預測策 略的鑑別能力,以及萃取發掘有用的規則態樣。 不僅可以區別優質成長明星股、經營不善之地雷 股、獲利能力穩定股、經營能力較過去表現差 股,有效增進股票投資報酬獲利能力。 關鍵字 關鍵字 關鍵字

關鍵字::::Big Data Analytics, stock selecting strategies, stock market forecast, stock market prediction

二 二 二 二、、、、 緣由與目的緣由與目的緣由與目的 緣由與目的 長期以來,挑選優質安全的股票標的一直相 當具挑戰性的議題,由於太多難以控制的因素影 響著股票市場。然一般投資人的股票選擇決策多 以基本分析與技術分析為主,基本分析【1】是 運用經濟學觀點(總經、個經)及公司財務或其他 非財務相關資訊,如商品需求預測、政府政策或 新制度影響分析、人口或其結構改變、新科技發 明等,來評估企業價值及未來表現;技術分析【2】 則是運用過去歷史股價資料轉化為統計量(指標) 及圖表來進行股票市場未來趨勢預測判斷,兩種 分析方式各有所長。 另一方面,巨量資料分析方法與平台技術日 益成熟,不僅克服平台長期運算效能不足的問 題,透過資料角度詮釋過程,對於新知識的發現 與探索將會帶來了新的機會與視野。 由於目前文獻研究鮮少運用巨量資料分析 (Big Data Analytics)方法【3】解決股票選擇策略 問題,在思考如何找出優質安全低風險股票標的 之方向上,本研究以公司長期永續經營能力與財 務健全觀點著眼,從基本分析理論出發,權衡一 家公司財務健全與否、獲利能力、發放股息股利 政策、董監事持股角度等屬性,識別公司經營本 質優劣,評估公司股票實際應有價值與未來看好 的潛力。 然區別公司經營優劣與股票價值好壞問 題,屬一分群分類區別問題,而分群問題最重要 考量的因素有二,所選區別變數(屬性)是否具有 鑑別力,以及可否分配適合群數及群內成員。本 研究在分群問題選擇區別變數(屬性)上,以巴菲 特價值投資理論【4】之重要衡量公司價值之屬 量變數為主。而在分群分析方法選擇上,以能依 資料分佈母體狀況,即依資料的平均值與變異程 度來決定其母體分群態樣,自我配置適當群數及 群內成員,彰顯群組資料特徵之增長層級式自我 組織映射圖演算法(Growing Hierarchical

Self-Organizing Map,簡稱 GHSOM)演算法【5】, 運用巨量資料分析方法(Big Data Analytics)【3】 與平台技術,以巴菲特價值投資理論【4】為基 礎,建立資料自動決定最佳股票分群規則機制, 進而提升選擇預測策略的完整性與精準度,以及 萃取發掘有用的選擇態樣。 三 三三 三、、、、 研究方法研究方法研究方法 研究方法 3.1研究架構研究架構研究架構研究架構 本研究運用巨量資料分析方法與平台技 術,結合增長層級式自我組織映射圖(GHSOM) 演算法,由來源資料自我生成聚類分群特性建立 模型,輸入變量為基本面資訊,以價值投資理論 之公司經營獲利能力相關財務指標-股東權益 報酬率、盈餘再投資率、稅後淨利、配息率、每 股盈餘、董監事持股比率為主,輸出變量為股票 交易預測策略產生之投資報酬率,經由訓練並由 來源資料找出辨識優質安全股票標的之規則、態 樣(pattern),以使股票交易獲利最大。 平台建構部份則運用巨量資料分析運算架 構建置步驟考量基礎層、管理層、資料層、應用 層等四層面【6】。在基礎層部份採 Hadoop 平行 運算架構,在管理層部份採 HBase 檔案資料庫 分散儲存巨量資料,而在資料分析層部份採 GHSOM演算法進行資料分析,由來源資料決定 買賣決策準則、辨識買賣訊號規則及選擇股票標 的規則,在應用層部份,由於人工智慧訓練學習 與演化特性,資料演化之代與代間習習相關,故 採單獨執行設計方式(stand alone),捨平行運算

(2)

設計方式,透過實驗執行時間結果分析得知巨量 資料運算架構確實對於運算效能提升上有相當 大的助益,以下就預測模型建立、訓練及測試、 分析塑模段等三個重要步驟建構方式說明如次。 3.2股票選擇策略預測模型建立股票選擇策略預測模型建立股票選擇策略預測模型建立股票選擇策略預測模型建立 (1)股票分群變數的選擇及股票分群規則建立股票分群變數的選擇及股票分群規則建立 股票分群變數的選擇及股票分群規則建立股票分群變數的選擇及股票分群規則建立 (a)定義 GHSOM 之輸入變量 本研究在分群區別變數的選擇,選用以價值 投資理論【4】之基本面財務指標作為輸入顯著 變量。由於上述變量是依據財務指標相關文獻探 討而得,其變數衡量值相對於母體較具有代表 性,有助於識別優質安全特性的股票,並縮小輸 入變數的數量,使收集到更適合之樣本集合。本 研究之分群區別變數,如每股盈餘(Earnings Per Share, EPS)、股本報酬率(Return On Equity, ROE)、 稅 後 淨 利 、配息 率 、 盈 餘 再投 資 率 (Earnings reinvestment) 【4,7】、董監持股比率等 (b)定義 GHSOM 之輸出變量 輸出變量為樣本資料經區別變數分群後,判 斷合理群數指標。換言之,輸出變量確認定位 後,才能進行分析及了解分群意義,與群內的所 代表的真正意涵。由於股票投資以獲利為最終目 的,而公司財務健全與否、經營獲利能力如何, 將對於股票投資獲利有一定程度影響,因此,本 研究選擇投資報酬率為 GHSOM 之輸出變量。 股票投資報酬率受買賣時點價差影響,不同 投資人有不同買賣決策,將影響投資報酬率是否 具有衡量客觀性。因此,本研究選擇經由另一研 究 EPSO 股票交易預測模型所產生投資報酬率 (ROI)作為輸出之顯著變量,採納原因是由於同 一交易決策準則與方法產出,較具衡量客觀性。 (c)界定 GHSOM 分群之廣度參數(τ1)和深度參數 (τ2)值實驗範圍(boundary)。 (2)進行分群聚類進行分群聚類(cluster),進行分群聚類進行分群聚類 ,,,建立分群規則建立分群規則建立分群規則。建立分群規則。。 由於 GHSOM 競爭學習特性,使得其成為 一可發現樣本群中具有統計學顯著特點之規律 性偵測器(regularity detector)。其發展拓撲表達方 式,可以捕捉每一集群之最顯著特徵。此外,透 過一組小型葉節點,GHSOM 可以將訓練樣本分 類成具有層次之分類關係,而不是僅二分結果, 因 此 , 其 優 點 是 可 細 膩 分 析 與 分 類 。 經 過 GHSOM 分群聚類後,計算每群之輸入變量(區 別變數)之平均數、標準差、最大值、最小值, 並且與輸出變量 ROI 一併探討,找出每群蘊涵 的財務資訊及其代表的意義,以及其財務資訊與 ROI間關係,並觀察輸入變數(區別變數)是否具 有鑑別度,是否足夠衡量一家公司之獲利能力評 斷參考。 3.3訓練訓練訓練訓練、、、、測試測試測試測試 GHSOM 訓練目的主要運用樣本資料及本 研究所選用之區別變動,建立一個可以接受的 GHSOM樹,而這 GHSOM 樹的每個葉節點,均 計算兩個統計值(平均數與標準差),以形成在此 訓練樣本基礎下之最優分類規則,並提取特徵, 建立基於一空間關係之分類(葉節點)。 如何得到一可以被接受之 GHSOM 樹,亦 即得到在一空間關係下之最優分類規則,關鍵在 廣度參數(τ1)和深度參數(τ2)如何調校,找出最佳 分群參數。 GHSOM 演算法需要對廣度參數(τ1)和深度 參數(τ2)進行訓練,找出最適規則。本研究廣度 參數(τ1)之訓練範圍為 0.5 至 0.1,深度參數(τ2) 訓練範圍為 0.1 至 0.001。訓練過程先決定最佳 廣度參數(τ1)後(即 τ2=1),再決定最佳深度參數 (τ2)。 3.4分析塑模分析塑模分析塑模分析塑模

以 GHSOM 演算法分群與 EPSO 演算法 ROI 績效觀點,在各群基本分析財務指標之表現特性 下,是否可提供一最適分類分群規則進行股票選 擇決策,供分析塑模參考。其步驟如下所示: (1)分析並觀察 GHSOM 分群群組各樹葉節點 (leaf node)之基本分析財務指標觀點分析(財務 健全角度、經營獲利能力),其區別變數之財務 資訊屬性是否具有鑑別度,能夠彰顯群間特性, 並與 EPSO 股票交易買賣預測策略之 ROI 績效 探討,是否具有分類分群相關規則。 (2)提取特徵:探討股票選擇策略預測模型之影 響 ROI 最大化之選擇策略因素為何,提取最佳 股票選擇策略之具鑑別力變數與規則特徵。 (3)根據提取之特徵與規則,建立股票選擇預測 策略(分群、過濾),以篩選優質安全低風險之買 賣股票標的。 四 四四 四、、、、 結果與討論結果與討論結果與討論 結果與討論 4.1實驗實驗實驗實驗設計背景設計背景設計背景設計背景 GHSOM 訓練以台灣上市股票按類別區分 為 33 類,除 5 類屬於憑證指數類別,非公司概 念,無個股基本財務資料可供分析外,其餘 28 類作為選用樣本來源,每類股票依該類股按股價 高中低(以實驗當日 2014/11/14 之收盤價為準)隨 機各選一支作為樣本來源,因此總計 28 類、84 支股票為訓練之樣本標的,從這些樣本資料標的 於台灣證交所公佈財務報告及投顧公司次級資

(3)

料作為資料來源,自動載入過去 5 年重要財報資 訊,作為 GHSOM 訓練之資料來源。 4.2 股票選擇策略探討股票選擇策略探討股票選擇策略探討股票選擇策略探討 GHSOM 股票選擇預測策略以價值投資理 論之財務指標為輸入變量,而 EPSO 股票交易預 測策略所產生之 ROI 為輸出變量,即在 EPSO ROI績效觀點下,觀察 GHSOM 之分類分群規則 並找出態樣(pattern),提供股票投資人作為股票 選 擇 標 的 決 策 的 參 考 。 實 驗 結 果 得 到 以 τ1=0.065、τ2=0.003 之分群效果最好,總計分為 16群,如表 1 所示。 表 1:GHSOM 分群後之財務指標平均值與斜率 群 編號 個數 平均ROE% 盈再% 平均 平均稅後淨利 $b 平均配 息% 平均EPS$ 平均 董監事 持股 平均 ROIPSO 平均 斜率 ROE% 平均 斜率 盈再% 平均斜 率稅後 淨利$b 平均 斜率 配息% 平均 斜率 EPS$ A 1 1 26.97 58.61 1748.80 56.35 6.75 0.07 0.80 -0.01 -0.03 103.37 0.01 0.03 A 2 1 16.39 47.52 945.11 19.34 7.86 0.13 0.57 -0.01 0.11 181.58 -0.09 0.70 B 3 2 14.44 -8.18 252.49 82.77 11.21 0.44 0.59 -0.01 0.08 10.05 -0.00 0.29 B 4 2 10.90 17.12 264.56 72.16 4.43 0.25 0.27 -0.03 0.07 -66.88 -0.10 -1.17 B 5 1 7.30 187.77 192.31 85.95 1.32 0.21 0.23 -0.02 0.14 -41.31 0.04 -0.35 B 6 1 30.53 14.92 225.36 46.46 26.82 0.12 0.16 -0.21 0.01 -148.37 -0.25 -17.82 C 7 2 36.77 260.58 198.79 73.48 10.87 0.08 0.67 0.16 -5.78 110.56 -0.22 6.89 C 8 1 11.84 92.11 99.63 0.00 1.82 0.37 15.48 0.12 0.60 79.09 0.00 2.62 C 9 3 22.43 53.18 136.19 52.47 8.72 0.10 1.26 0.00 -0.03 21.17 0.00 1.27 C 10 1 17.04 7.27 197.50 72.65 5.13 0.29 0.34 -0.01 -0.09 -0.71 0.02 -0.03 D 11 8 23.79 147.58 85.04 62.54 16.13 0.27 1.41 0.01 -1.21 12.00 -0.01 3.48 E 12 13 15.36 23.04 23.39 64.28 4.11 0.24 0.73 -0.02 0.20 -2.62 0.04 -0.21 F 13 4 26.14 21.98 4.81 64.13 4.61 0.26 0.94 -0.05 0.02 0.43 0.04 -0.18 F 14 5 12.36 34.14 4.11 69.33 2.86 0.26 0.64 -0.01 0.10 0.06 0.05 -0.16 F 15 23 8.94 60.32 2.98 74.79 1.57 0.23 1.14 0.09 0.48 1.06 0.11 0.62 F 16 16 15.76 87.79 9.21 70.51 4.06 0.28 0.68 -0.01 -0.21 -1.28 0.08 0.0 全體資料平均數 15.66 67.11 77.25 67.65 5.30 0.24 全體資料標差差 12.59 183.77 220.08 32.50 7.94 0.17 從表 1 整體角度觀察,平均 ROI 與稅後淨 利$b 平均斜率表現方向最為一致,當稅後淨利 $b平均斜率為正值時,群平均 ROI 表現會較佳, 而稅後淨利$b 平均斜率呈現負值時,群平均 ROI 表現通常較差。而大部份的 EPS$、ROE$平均斜 率,仍會影響群平均 ROI 績效,同樣地,EPS$、 ROE$平均斜率為正值時,大部份的群平均 ROI 績效較佳,反之則群平均 ROI 績效較差。 另外,本研究觀察到整個母體樣本之屬性值 標準差差異愈大者,則表示值的離散程度愈大, 愈容易作為區別的變數,如稅後淨利$b 的標準 差 220.08,為各輸入變量中標準差差異最大,其 區別能力最好。因此,得知輸入變量的離散程度 會影響 GHSOM 的分群規則。 經分群並以EPSO ROI角度觀察各樹葉節點 (leaf node)內股票表現,可分為三種現象, 一為 樹葉節點內所有股票表現均佳,一為樹葉節點內 所有股票表現均不佳,最後為樹葉節點內所有股 票表現有好有壞或普通。 (1)樹葉節點內所有股票表現均佳 C-7、C-8、C-9、D-11 屬之,其稅後淨利$b 平均斜率、EPS$斜率為正值且 5 年圖形趨勢呈 現遞增,大多數股票之 ROE%為正斜率(僅 2 支 股票為-0.0016, -0.03),其 EPSO ROI 表現較佳, 如圖 1:2915 潤泰全財務指標所示,屬優質成長 股。 圖 1:2915 潤泰全財務指標

(4)

(2)樹葉節點內所有股票表現均不佳 B-4、B-5、B-6、C-10 屬之,其稅後淨利$b 平均斜率、EPS 斜率為負值且 5 年圖形趨勢呈現 遞減,其 EPSO ROI 表現較不佳。,如圖 2:1326 台化財務指標所示,屬經營不善地雷股。 圖 2:1326 台化財務指標 (3)樹葉節點內所有股票表現有好有壞或普通 A-1、A-2、B-3、E-12、F-13、F-14、F-15、 F-16屬之,其稅後淨利$b、EPS$ 5 年圖形趨勢 呈現 U 或 W 型,其斜率為正值時,EPSO ROI 表現較佳,如圖 3:2439 美律財務指標,屬獲利 穩定股。反之,則 EPSO ROI 表現較不佳,如圖 4:2704 國賓財務指標,屬公司經營較過去表現 較差之股票。 圖 3:2439 美律財務指標 圖 4:2704 國賓財務指標 4.3 GHSOM參數探討參數探討 參數探討參數探討 GHSOM在訓練階段對於廣度參數(τ1)、深 度參數(τ2)、最適群數及群內個數決定,可以先 決定廣度參數(τ1)之最適參數後,再決定深度參 數(τ2)。本研究分群實驗中,廣度參數(τ1)部份由 0.25至 0.05 測試,觀察並找出第一層分群群內 個數分佈最為適當個數後,再執行深度參數(τ2) 由 0.01 至 0.0025 測試,觀察並找出子層群內個 數分佈最為適當個數,實驗結果得知 τ1=0.065、 τ2=0.003之分群效果最好。 五 五五 五、、、、結論結論結論 結論 本 研 究 運 用 巨 量 資 料 分 析 方 法 結 合 GHSOM 演算法,由來源資料自動建立分群規 則,可識別四種股票樣態-優質成長明星股、經 營不善之地雷股、公司經營獲利能力穩定股、公 司經營獲利能力較過去表現差股票,其中區別變 數以稅後淨利、每股盈餘(EPS)較具有鑑別度。 未來將利用資料採擷強大的資料分析,針 對股票選擇預測策略準則之各群特性、特徵分佈 狀況進行探索,分析萃取出新的分群特徵態樣。 另外股票表現有好有壞之節點,將再深入探討區 別變動的影響程度,精進本研究分群方法,提升 識別能力。 六 六六 六、、、、參考文獻參考文獻參考文獻 參考文獻

1. FRANKEL, Jeffrey A.; FROOT, Kenneth A. “Understanding the US dollar in the eighties: the expectations of chartists and fundamentalists.”Economic record, Vol.62, No.1, pp. 24-38, 1986.

2. MURPHY, John J. “Technical analysis of the financial markets: A comprehensive guide to trading methods and applications.” Penguin, 1999.

3. C.L. Philip Chen, C.-Y. Zhang, “Data-intensive applications, challenges, techniques and technologies: A survey on Big Data”, Inform. Sci., 2014.

4. Buffett, Warren, and Carol Loomis. “Warren Buffett on the stock market.” Fortune, December 10, 2001.

5. Das, Debashish, and Mohammad Shorif Uddin. “TECHNIQUES IN STOCK MARKET PREDICTION: A METHODOLOGICAL REVIEW.”, 2013. 6. EMC研究院、Vmware 研究團隊,「巨量資 料的下一步:Big Data 新戰略、技術及大型 網站應用實錄」,『上奇時代出版社』,2014。 7. 洪瑞泰,「巴菲特選股魔法書」,『Smart 智富出版社』,2004。

參考文獻

相關文件

本論文之目的,便是以 The Up-to-date Patterns Mining 演算法為基礎以及導 入 WDPA 演算法的平行分散技術,藉由 WDPA

資料探勘 ( Data Mining )

由於資料探勘 Apriori 演算法具有探勘資訊關聯性之特性,因此文具申請資 訊分析系統將所有文具申請之歷史資訊載入系統,利用

介面最佳化之資料探勘模組是利用 Apriori 演算法探勘出操作者操作介面之 關聯式法則,而後以法則的型態儲存於介面最佳化知識庫中。當有

本章將對 WDPA 演算法進行實驗與結果分析,藉由改變實驗的支持度或資料 量來驗證我們所提出演算法的效率。實驗資料是以 IBM synthetic data generator

譚志忠 (1999)利用 DEA 模式研究投資組合效率指數-應用

本研究採用的方法是將階層式與非階層式集群法結合。第一步先運用

日本檢證法計算值為 t start =(2√A floor /15)+3,其考量起火居室 以外部份之情報傳遞上於樓層計算部分另要加上 3 分鐘之延遲餘裕 時間(非就寢用途之建築物)。9 樓與