• 沒有找到結果。

05相關套件介紹.pdf

N/A
N/A
Protected

Academic year: 2021

Share "05相關套件介紹.pdf"

Copied!
19
0
0

加載中.... (立即查看全文)

全文

(1)

05 相關套件介紹

王元俊

Wang Yuan-Jiun

(2)

教材

• R 語言資料分析:從機器學習、資料探勘、文 字探勘到巨量資料分析 [第二版] • 作者:李仁鐘、李秋緣 • 出版社:博碩文化股份有限公司 • 書號:MP31714 • 出版日期:2017 年 6 月 2 日 • 範例檔案下載

(3)

機器學習 (1)

• 機器學習 (Machine Learning) 是讓機器(計算 機)具有學習能力,從資料中自動建立規則, 並利用規則對新的資料進行預測。 • 機器學習理論主要是設計和分析一些讓電腦可 以自動「學習」的演算法。機器學習演算法是 從資料中自動分析獲得規律,並利用規律對未 知資料進行預測的演算法。(來源:維基百科) • 機器學習已廣泛應用於資料探勘、電腦視覺、 自然語言處理、生物特徵識別、搜尋引擎、醫 學診斷、檢測信用卡欺詐、證券市場分析、 DNA 序列測序、語音和手寫識別、戰略遊戲和

(4)

機器學習 (2)

• 常用的機器學習: 1. 監督式學習 (Supervised Learning)  由訓練資料集 (Training Dataset) 學到或建 立一個模型,並依此模型預測新的案例。  訓練資料是由輸入資料與預期輸出所組成。  分類 (Classification) 是一種常見的監督式學 習演算法。  機器學習領域中可結合多個分類模型,已 達到最佳的分類效能。此種方法稱之為組 合方法 (Ensemble Methods)。

(5)

機器學習 (3)

2. 非監督式學習 (Unsupervised Learning)  與監督式學習不同的是訓練資料中並無預 期輸出。  分群 (Clustering) 是一種常見的非監督式學 習演算法。 3. 演化式學習 (Evolutionary Learning)  基於模仿生物演化及行為而發展出來的學 習演算法。  基因演算法 (Generic Algorithm) 是一種典型 的演化式學習演算法。

(6)

機器學習 (4)

4. 混合式學習 (Hybrid Learning)

 結合多種學習法。

 以提昇學習的效能 (Performance) 或效率 (Efficiency)。

(7)

資料探勘 (1)

• 資料探勘 (Data Mining) 是為了要發現出有意義 的樣型或規則 (Rule),從大量資料之中以自動 或半自動的方式來探索和分析資料。(Berry & Linoff, 1997)

(8)

資料探勘 (2)

• 常用的資料探勘方法: 1. 分類 (Classification)  將資料中各屬性 (Attribute) 分門別類地加 以定義,透過訓練大量資料後,所得到的 規則來建立類別 (Class) 模型。  分類屬於監督式學習演算法。

(9)

資料探勘 (3)

2. 分群 (Clustering)  透過相似程度的定義將資料分別不同的群 集 (Cluster)。  相似程度可利用不同的距離或相似度 (Similarity) 來定義。  分群與分類最大的不同點,在於分群並沒 有預先定義好類別。而群集結果的意義要 靠分析者事後的闡釋決定。  分群屬於非監督式學習演算法。

(10)

資料探勘 (4)

3. 關聯性規則 (Association Rule)  關聯性規則的目的是找出資料間可能相關 的項目。  透過資料尋找同時發生的事件 (Event) 或記 錄 (Record),藉以推導出其他的關聯規則。

(11)

社群網路分析及文字探勘

1. 社群網路分析 (Social Network Analysis)

 社群是擁有相同興趣,或者因共同目的而 結合的團體。  社群網路是一個架構在網路環境中,虛擬 的社會群體概念。 2. 文字探勘  文字探勘的特點在於原始輸入資料都是沒 有特定結構的純文字,這些文字內容則是 由自然語言寫成。  所以無法直接使用資料探勘的演算法

(12)

巨量資料分析

• 巨量資料的四個特性  資料量 (Volume)  速度 (Velocity)  多樣性 (Varity)  真實性 (Veracity) • 巨量資料是資料量大、速度快、多樣性及資料 的真偽難分,所以需要全新的處理模式,來促 成更強的資料分析與決策能力。

(13)

套件 (1)

• 分類的監督式學習演算法包含

– 決策樹 (Decision Tree)

– 支持向量機器 (Support Vector Machine) – 人工神經網路 (Artificial Neural Network) – 組合方法 (Ensemble Method) – 套件 • rpart • C50 • e1071 • neuralnet • randomForest • adabag

(14)

套件 (2)

• 分群的非監督式學習演算法包含 – K 平均算法 (K Means) – 模糊 C 平均算法 (Fuzzy C Means) – 套件 • e1071 • 演化式學習演算法包含 – 基因演算法

– 人工蜂群 (Artificial Bee Colony) – 套件

(15)

套件 (3)

• 關聯規則分析 – 套件 • arules • 社群網路分析 – 分析臉書 (Facebook) 資料 – 套件 • Rfacebook • wordcloud

(16)

套件 (4)

• 文字探勘

– 套件

• gutenbergr • jiebaR

(17)

套件 (4)

• 巨量資料分析

– Hadoop:Java 寫成的分散式運算環境,將資 料和運算的程式分散到可使用的電腦上。 – Hadoop 提供 MapReduce 做為分散式處理技

術及 HDFS (Hadoop Distributed File System) 做為分散式檔案技術,可以處理及儲存資料。 – Spark 軟體平台可以將資料和運算的程式分

散到可使用的電腦上。

– SparkR 可應用 R 語言使用 Spark 提供的技術。 – 套件

(18)

套件 (5)

• rpart (Recursive partitioning for classification, regression and survival trees):分類與迴歸等 • C50:C5.0 決策樹

• e1071:支持向量機器學習法

• neuralnet:人工神經網路學習法

• randomForest:組合方法之隨機森林學習法 • adabag:組合方法之推進法 (Boosting)

• NbClust:提供分群指標 (Clustering Index),藉 以評估分群的效果。

(19)

套件 (6)

• arules:關聯分析演算法 • Rfacebook:取得授權後能存取臉書的 API • wordcloud:產生文字雲 • rmr2:使用 R 語言在 Hadoop 上實作 MapRecduce

參考文獻

相關文件

• 我們通常用 nD/mD 來表示一個狀態 O(N^n) ,轉移 O(N^m) 的 dp 演算法. • 在做每題

Keywords: pattern classification, FRBCS, fuzzy GBML, fuzzy model, genetic algorithm... 第一章

新高中課程中國語文科第十個選修單元:「普通 話與表演藝術」中提到的學習目標,正是期望學 生能「欣賞不同類型的普通話表演藝術,學習語

並以較淺易的方式進行評估,為學生建立學習成就感。整體而言,大多數政治演變的課題,會以概覽式課題的方法處理,即教師

2.注重實地演練,角色扮演、跟隨經驗、實地參訪及邀請業界主管演講方 式,使學生能從「經驗中學習」

W ing )教授在美國電腦權 威期刊《 C ommunications of the

4.2 Copy the selected individuals, then apply genetic operators (crossover and mutation) to them to produce new individuals.. 4.3 Select other individuals at random and

本論文之目的,便是以 The Up-to-date Patterns Mining 演算法為基礎以及導 入 WDPA 演算法的平行分散技術,藉由 WDPA