AI人工智慧,資料科學
The 7 forces that will change the way you work
7種力量會改變你的工作方式
2018 World Economic Forum(世界經濟論壇)
巨量資料 科技無所不在 世代變化 人工智慧,機器人 自動化取代 大量派遣工作
• AI元年!科技部預計5年投入160億台幣,打造台灣AI創新生態環 境。 • 104資訊科技統計,國內AI人才缺口保守估計約6千個,3年翻倍增 長,主要集中電子製造、知識密集服務兩大產業。 • 104人力銀行數據長呂承諭說,AI人工智慧(Artificial Intelligence)已 逐漸從實驗室走入商業運用,領域專家如資料科學家、演算法工 程師、機器人工程師等關鍵人才,市場需求孔急,近年已有物理 系、心理系、財金系畢業生成功躋身年薪百萬的資料科學家。
• 也因稀有性,AI人才薪資水漲船高。
• 104分析資料庫中1,575筆AI相關工作經歷,
• 其中,被譽為
「21世紀最性感職業」的資料科學家
,平
均年薪122萬,是
AI人才薪水最頂尖的職務
;
• 其次是演算法工程師,平均年薪88萬;
• 機器人工程師平均年薪83萬,排名第三。
專業門檻高 薪資行情看俏
• 104突破傳統分類及年資限制,分析資料庫中,共1,575筆求職會 員履歷填寫的AI相關工作經歷,發現AI相關工作平均年薪TOP 3依
序是:資料科學家122萬、演算法工程師88萬、機器人工程師83
資料科學家背景 非理工當道
• 想成為年薪百萬的資料科學家,未必非理工不可! • 呂承諭說,碩士學歷是資料科學家的基本門檻,比資料工程師會 要求更高的學歷,•不過
,科技演進浪潮從雲端運算、機器學習、物聯網,到AI, 人才需求的科系背景也從電腦科學、電子電機,到數學、統計
、 物理、財金、以及心理相關科系,產業專家、以及洞察使用者經 驗、情緒與軟性需求,在硬底子當道的AI,更顯珍貴。• 2017/12月, Gartner(高德納諮詢公司)發布報告指出,2020年時, 全球將有180萬個職缺被AI取代,但它也將創造出230萬個全新工 作機會。 • 即便不懂程式設計、演算法的素人,若能透過AI核心知識為履歷 加值,培養洞悉大數據背後意義的能力,就能成為AI頂尖人才, 在台灣起薪年薪300萬起跳,美國甚至達30萬至50萬美元(合台 幣879萬至1466萬元),顯見AI對履歷加值的力道有多強。
資料科學家 vs. 資料科學團隊
https://medium.com/simple-is-power/%E8%B3%87%E6%96%99%E7%A7%91%E5%AD%B8%E5%AE%B6 -vs-%E8%B3%87%E6%96%99%E7%A7%91%E5%AD%B8%E5%9C%98%E9%9 A%8A-d134694d3dce資料科學的本質到底是什麼?
• 資料科學是一門跨領域學科,結合程式設計、數學與統計和產業 應用。 • 資料科學是一種專業能力,從零散資料中,找到規則、意義和價 值。 • 資料科學具有高度需求,在資訊爆炸時代,要能抽絲剝繭、找出 競爭力與商業價值。所謂的跨領域學科,不同學科的重點是什
麼?
• 程式設計 — 抓取、判斷資料,運用技術從中分析、挖掘出有幫助 的資訊。 • 數學與統計 — 選擇實用的數學方法,去診斷問題、開發並改善統 計方式。 • 商業應用 — 根據不同領域的使用情境,去釐清待解決問題、設定 目標、了解限制。用白話文的說法,一個資料科學家
• 須具備有資工、資管系
寫程式的能力
; 還要有數學、統計
系的背景,找到適合的
統計方法
; 除此之外,還要有企管、
國企系相關的
商學院背景
,能夠切入市場的需求並提出
全盤性的策略。
資料科學家可大致分為兩種取向:策略型
與技術型。
1. 策略型資料科學家 :對於商業敏感度高、具有商業思維,擅長 商業活動的規劃與執行,善用數據分析作為輔助工具,提出問 題假設和挖掘企業內部問題。 2. 技術型資料科學家:工程師或統計學背景,擅長活用軟體工具 和程式語言,往往扮演找問題答案、提出解決方案的角色。 • 簡單的說,對於文組背景的人而言,成長曲線主要從左上到右下 ; 而理工背景的人,成長曲線比較是從右下到左上。根據不同的背景和學科,資料科學家可再
細分為以下類型:
• 商業智能 (Business Intelligence Analysis):著重於投資報酬率、獲利率、 商業決策分析、動態報表以幫助企業決策,並轉化為企業的競爭優勢。 • 資料視覺化 (Data Visualisation):數據的呈現方式考量認知心理學和視 覺設計。 • 統計 (Statistic):專精於建立模型、預測方法、假設驗證、實驗設計、 取樣和品質保證。 • 機器學習(Machine Learning):擅長學習演算法、資料蒐集和驗證、精 準指標、培訓技法。 • 資料工程師 (Data Engineering):建立資料流程圖和架構、數據倉庫設 計、ETL增量數據資料擷取/CDC異動資料擷取、針對不同資料規模評估 合適的處理技術。 • 軟體工程師 (Programming):擅長不同的程式語言並活用於企業營運系 統設計。
最後,如果要成立一個資料科學團隊最大
的挑戰是什麼?
• 「 溝通 」、「 溝通 」、「 再溝通 」 • 「 說對方聽得懂的話」 • 「 精確表達你的意思」 • 「 正確理解夥伴的想法」資料科學家
• 《哈佛商業評論》將之譽為「
21 世紀最性感工作
」
1,因
為優異的資料科學家就像獨角獸一樣珍貴難尋,而且可
不是只有科技公司在搶人,傳統金融界、零售商、廣告、
教育,幾乎所有產業都需要資料科學家從大量數據中萃
取精華。根據去年七月 Indeed.com 的調查,
美國資料科
學家每年均薪 12.3 萬美金
2,夠讓 99.99% 的上班族望塵
莫及。
• 頂尖的資料科學家最好統計、數學、程式能力最好都要掌握
,
而且要能從中洞察意義,並且擁有非凡的直覺,用數據資料
發聲,幫助公司制定重大決策。但是,其實就算同樣都是尋
找「資料科學家」,Google 跟沃爾瑪超市要的人才,可能非
常不一樣。
•別因你好像缺了哪個專長而打退堂鼓
,
如果仔細閱讀每家公司張貼的職缺敘述,你會發現說不定現
有的技能就能進入資料科學的殿堂。Airbnb 資料科學家 Dave
Holtz 把市場上所需的
資料科學家概括成以下四類
3:
菜鳥資料科學家說穿了就是資料分析師
• 有些公司需要的資料科學家,說白話就是資料分析師
(data analyst),而資料分析師就是菜鳥資料科學家。
你的工作包括從
MySQL 萃取數據或是一名 Excel 專家,
也
許要能繪製基礎的
數據視覺圖表、分析 A/B 測試的結果
或者管理公司的 Google Analytics 帳號
。這種公司對抱負
遠大的資料科學家來說,是很不錯的練功場所,當你變
成老手了,也能開始嘗試新事物,擴充技能組合。
來清理我們亂糟糟的數據!
• 公司發展到了一定規模之後,累積一堆尚未理清的數據,而且持 續大幅增加,因此他們會需要一個能夠建立資料基本設施
(data infrastrucure)的人,以讓他們在這個基礎上繼續成長。由 於你是第一個或第一批獲聘的資料相關人員,工作通常不會太難, 不求統計學家或機器學習專家才能勝任。在這種公司裡面,帶有 軟體工程背景的資料科學家就很吃香了,重點任務是提供數據到 production code,關於數據的洞見與分析倒是其次。就像前面說 的,你是這家公司的第一個數據探勘者,通常你不會獲得太多上 層的支援,雖然反而更有機會大放異彩,不過因為比較缺乏真正 的挑戰,也有可能面臨停滯不前的窘境。我們就是資料,資料就是我們
• 也有很多公司,主要的產品就是數據(或數據分析平台)。如果 你想進入這種公司,那你勢必要具備很高深的資料分析或機器學 習功力。完美的人選應該是有正規的數學、統計、物理背景,而 且有意繼續朝學術面鑽研。這些資料科學家的主要職責在於研發 出色的資料產品,而非解答公司的營運問題。擁有大量消費者數 據也以此作為主要營利來源的公司、或者提供基於數據的服務的 公司,都歸屬此類。產品並非數據、卻以數據驅動產品的公司
• 很多公司都屬這種類型。你可能會加入一組已經建立的資料科學 家團隊,這家公司很重視數據,但稱不上一家數據公司。你既要 能夠進行資料分析、接觸 production code、也能將數據視覺化。 一般來說,這種公司要的人才要不是通才,就是他們團隊缺乏的 某種特殊專才,比如資料視覺化或機器學習。想要通過這類公司 的考驗,端看你對「大數據(比如 Hive 或 Pig)」工具的熟稔程 度,以及過往處理雜亂無章數據的經驗。資料科學家
基本工具(Basic Tools)
• 無論哪一類公司,統計程式語言如 R 或 Python,以及資料庫查詢
基礎統計學(Basic Statistics)
• 對統計起碼要有基本認識,才稱得上及格的資料科學家,一名擁 有許多面試經驗的人資說,很多他曾面試的人連 p-value 的定義 都講得不清不楚。你應該熟悉統計測試、分佈、最大似然法則 (maximum likelihood estimators)等等。機器學習也很重要,但 更關鍵的能力,是你能否判斷不同狀況該用什麼不同的技術。統 計學適用於所有類型的公司,但對那些主要產品並非數據、卻大 幅依賴數據的公司來說尤為必備能力,老闆需要的是你能不能利 用數據幫助他們進行決策,以及設計、評估實驗與結果。
機器學習(Machine Learning)
• 假如你是在握有大量資料的大型企業,或是產品本身就是以數據 為賣點的公司工作,機器學習就是你用來吃飯的傢伙。雖然 KNN 演算法(k-nearest neighbors)、隨機森林(random forest)、集 成學習(ensemble methods)這類機器學習的流行術語好像不懂 不行,不過因為事實上很多技術都可以用 R、Python 程式庫解決, 所以即使你不是演算法的世界頂尖專家,並不代表就毫無希望。 比較重要的是,能夠縱觀全局,每種狀況出現都能找出最契合的 技術。
多變量微積分、線性代數(Multivariable
Calculus and Linear Algebra)
• 就算你即將面試的公司並未要求機器學習或統計學知識,基礎多 變量微積分與線性代數問題十之八九都是逃避不了的必考題,因 為資料科學就是由這些技術型塑而成。儘管很多事情可以交給 sklearn 或 R 自動執行,但是未來如果公司想要建立自有的方案, 這些基本知識就變得很重要了。如果你置身於「數據就是產品」, 或者預測績效僅因小小進步或演算法優化就能帶來驚人效益的公 司裡面,微積分、線性代數等數學概念都需了解通透。
清理數據(Data Munging)
• Data Munging 是最容易令人不耐的過程,你面對的是亂七八糟的 數據。這些數據包含消失的數值、不一致的字串格式(比如
「New York」與「new york」與「ny」)、數據格式(「2015-03-26」、「03/26/2015」,「unix time」、「timestamps」等等), 必須勞心費神梳理這些龐雜的數據。雖然這工作吃力不討好,但 只要是資料科學家,大概都避免不了,而如果你是某家小公司的 先遣資料科學家,或是在一家產品非與數據相關,但是數據卻扮 演重要角色的公司裡工作,清理數據的任務格外重要。
資料視覺化與溝通(Data Visualization &
Communication)
• 把枯燥繁瑣的數據轉成圖像,以及向外界溝通的技能愈來愈重要, 尤其是在年輕的公司制定由數據驅動的決策,或者協助其他組織 進行數據決策的公司。「溝通」二字的真諦在於,面對技術人或 一般人,你都能準確的傳達研究發現,並能讓他們輕易理解。至 於視覺化,如果可以熟悉 ggplot、d3.js 等軟體的運用,會有很大 的助益,當然工具只是表象,能否參透資料視覺化的原則,才是 最需費心的地方。軟體工程(Software Engineering)
• 如果你是公司資料科學團隊的草創元老,擁有強悍的軟體工程背 景十分重要,你會負責處理很多資料登錄(data logging),也有 可能需要參與開發以數據為本的產品。
像個數據科學家般思考(Thinking Like A
Data Scientist)
• 所謂資料科學家,就是你解決問題的方法奠基於數據資料。在面 試過程中,主考官可能會出一些比較艱澀的問題,比如公司想要 執行的某個測試,或者計劃開發的數據產品。判斷事情的輕重緩 急、作為資料科學家如何與工程師和產品經理互動、知道該用什 麼方式解決問題,都是你該培養的能力。培訓AI人才單位
• 資策會(http://taipei.iiiedu.org.tw/) (地點:北) • Data Engineer 巨量資料分析就業養成班 • AI Engineer 人工智慧應用開發就業養成班 (課程偏資工) • AIOT(人工智慧+物聯網)平台應用程式開發養成班 (課程偏資工) • 台灣人工智慧學校(http://aiacademy.tw/) (地點:北中南)「創新趨勢下『5+2 產業』未
來 10 年工作及技 能需求分析」
資料來源:國家發展委員會106年度-創新趨勢下『5+2產業』未來10 年工作及技能需求分析研究報告
• 『5+2產業』包括智慧機械、綠能科技、亞洲‧矽谷、生技醫藥、 國防科技、循環經濟、新農業等業別。
• 下面說明{智慧農業、智慧機械、綠能科技、生技醫藥、金融科 技、智慧零售}