• 沒有找到結果。

數據多樣化 (Variety)

在文檔中 版權 (頁 143-156)

NBA 勝率大謎團 主場客場逐個捉!

三. 數據多樣化 (Variety)

多樣化不但指資料來源豐富,而且數據並非只是局限於數

143

字,任何形式及格式的資訊,諸如文字、圖像,甚至音訊及 影像數據亦可用作分析。隨著人工智能技術越來越成熟,

大數據應用層面亦日趨廣泛。

大數據的應用

在電腦運行速度較為遜色的年代,使用數 TB 的數據進行分析 已可謂天方夜譚。隨著科技的不斷進步,大數據分析不再只是 局限於一些較大規模的機構的工作,普羅大眾亦可使用家用電 腦,從網上下載各式各樣的大數據自行設計分析模型。現時,

政府、學術界及商界均應用大數據作為輔助工具,協助機構作 出大大小小的決策。

大家若是臉書的用戶,會發現臉書對你的喜好、朋友圈子、行 蹤等均瞭如指掌。事實上,臉書正利用每天由你及身邊朋友收 集的大量數據進行分析,如透過你曾瀏覽的網頁去了解你的喜 好,利用人面辨識技術從照片找出你和你的朋友。商界往往亦 利用從客人收集的數據,去制定更適切的推銷策略。政府及公 營機構亦使用大數據提升工作效能及改善服務。例如香港天文 台便利用大數據來分析天氣對社會帶來的影響,如 2018 年 9 月 超強颱風山竹襲港時,天文台便利用塌樹或水浸等報告,並與 天氣圖上的天氣資料聯繫起來作更全面的分析;醫院管理局早 於十年前便利用臨床大數據,就內科長者病人再次入院機會率 進行預測,從而提供更適切的服務以降低其再次入院的機會;

而政府亦將利用人工智能技術,於 1823 聯繫中心和「香港政府

一站通」網站正式推出聊天機械人服務以處理市民的查詢。只

要留心,便會發現日常生活中有很多產品及服務和大數據息息

相關。

144

機器學習的技術

接下來將跟大家簡單介紹現時一些流行的大數據分析技術,亦 即機器學習(Machine learning)技術。如上文提及,除了數字 外,文字、圖像、聲音等亦可透過機器學習,從大量的資料中 發掘隱藏的資訊。

以文字為例,早期使用的文字分析方法,大多數將句子或文章 中每一個字以一個不重複的數字來表示,或以 1 和 0 標示,1 代 表該字在句子或文章中存在, 0 代表不存在,這些方法並未包含 文字與文字之間相互關聯,簡單來說,中國和北京字義上很相 近,因為兩個詞語分別代表國家及其首都,但以數字代表時卻 看不出其關聯性。而字詞嵌入(word embedding)的出現則能打 破上述方法的限制。以一個名為 Word2Vec 的模型為例,模型透 過學習大量文字數據,將每一個詞語以一個字詞的向量(字詞 的向量為一組數字)代表,向量涵蓋該詞的字義,透過比較各 字詞的向量,便能利用模型去猜測和目標字/句最有關聯的字/

句。例如輸入中國一詞,模型能猜測到和中國相關的詞語為北 京;若以圖表示,會發現相關聯的字詞位置會較接近(如下圖) 。

圖片來源:https://www.tensorflow.org/images/linear-relationships.png

145

現時較廣泛應用的技術除了 Word2Vec 外,還有 GloVe、fastText 等。而圖像、聲音等亦可轉化為有意義的數字,利用各種機器 學習的模型進行分析。由於機器學習的突破,有關技術已被廣 泛應用於文章翻譯、將圖像、聲音轉化為文字,辨識面容、簽 名等。

大數據時代所面對的挑戰

縱然利用大數據進行分析有很多過人之處,但亦要留意其不足 的地方。首先,龐大的數據中往往夾雜很多垃圾資訊,因而影 響分析的準確度;此外,數據的來源可能只涵蓋分析對象的一 部分,資料未必有代表性,而依賴這些欠缺代表性的數據所得 出的結論亦會有偏差。

而另一值得關注的是,不同機構往往在用戶知情甚至不知情情 況下收集了大量數據。因此,將個人資料提供予其他機構前,

要確保你已清楚對方收集資料的用途,以及有關機構會否向其 他人士或機構披露資料,以保障個人私穩。

結論

隨著大數據應用的普及,有關使用及分析大數據的資源亦日趨 豐富,只要小心處理數據,大數據無疑對人們的生活帶來更多、

更新、更有用的資訊。大家亦可嘗試自行設計分析模型,去探

索更多大數據的可能性。

146

參考資料:

[1] IBM, “What is big data? More than volume, velocity and variety…”

https://developer.ibm.com/dwblog/2017/what-is-big-data-insight/

[2] IBM, “The Four V's of Big Data”

https://www.ibmbigdatahub.com/infographic/four-vs-big-data

[3] International Data Corporation (IDC), “The Digitization of the World.

From Edge to Core”

https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf

[4] Tensor Flow, Word embeddings

https://www.tensorflow.org/tutorials/representation/word2vec?hl=zh-cn [5] 香港天文台。從大數據探索天氣對社會的影響

http://my.weather.gov.hk/m/article_uc.htm?title=ele_00515

[6] 醫院管理局。善用大數據 規劃未來服務

http://www3.ha.org.hk/ehaslink/issue97/tc/news-04-tc.html

[7] 立法會資訊科技及廣播事務委員會。電子政府服務 2019 年 6 月 10 日討論文件

https://www.ogcio.gov.hk/tc/news/legco_papers/2019/06/doc/lb_2019061 0.pdf

[8] 香港電台。「大數據」分析局限 乃傳統統計學問題 https://app3.rthk.hk/mediadigest/media/pdf/pdf_1490268097.pdf

147

邀請作品:

《標準差—何去何從?》

探討加入(或移除)的數據值不等於平均值時,標準差的變化。

朱吉樑老師 宣道會鄭榮之中學

於中學課程中,數據變化對離散度的影響是一個頗熱門的問題。一般 討論方向,是加入(或移除)的數據值(或一組數據的平均值)與原本的 數據平均值相同,由於加入數據後的平均值沒有變化,通過代入標準 差的公式,便能得出標準差的值必定下跌的肯定結果(見附頁)。學生 偶而會問:「若加入或移除的數據的平均值與原本的數據平均值不相 同,標準差又會如何?」

為了方便討論,本文只探討加入數據的情況,(實際上,移除數據的 處理手法也是差不多,可留給學生嘗試。) 讓我們先與學生考慮一 些特殊情況作為討論的開場。

給定兩個數據 和 ,假設 、 ,我們可得出表一的

統計量:

表一:數據的平均值及標準差。

數據 平均值( ) 標準差( )

, 2 1

148

若加入的數據值( )不斷增加(向右遠離平均值2 時)3,平均值( )和

標準差( )會有甚麼影響?作為初探,選了 2(平均值),2.5(原

數據的範圍內),3(原數據的範圍的最大值)及 3.5(原數據的範圍以外) 測試一下對標準差的影響,表二記錄了當中的結果。

表二:加入數據 時,平均值及標準差的改變。

2 0.816

2.17 0.850

2.33 0.943

2.5 1.08

從上表可見,平均值和標準差均隨 的增加而上升。此外,原

本數據的平均值是 2,當加入的數據值高於平均值,不難想像,

新的平均值會隨 的增加而不斷上升;可是標準差的情況卻有

點不同,原本數據的標準差是 1,但當 的值在原數據的範圍內 時(小於或等於 3),新的標準差的值看來會小於原本數據的標準 差(當 3 時,標準差也只是 0.943 < 1);不難想像,當 的 值於範圍外(大於 3)時,新的標準差的值不一定大於原本數據的 標準差!

   

我們不能無止境的試不同的 值,為了了解更多,在此,運用了試算

表(EXCEL)的功能,看看 與標準差的變化(見圖 1),表面上看,好 像是一條直線!保守一點,至少可以看到是一條遞增的線。但當仔細

觀察時,聚焦於 的值於2 與 4 之間,圖像清楚顯示應為曲線(見圖

3 由於加入數據的值減少和增加只是反射對稱的關係,對標準差的影響相同,故本文不贅論 述,只考慮增加的轉變。

149 2)。

另一個問題, 應為何值才會令標準差保

持不變(即 )?從圖 3 中可見,當

稍稍大於最大值 ( ) 時,標準差便

開始大於本身的值,但究竟要大多少才會 發生呢?而當數據大於兩個時,此現象會 否不同?

對於加入數據值與標準差,現在有了基本的看法,是時候從數式找尋 更深入的答案。

為了方便討論,因應標準差不受整體數 據的位移影響,即當每個數據 加上常 數 c 時,另把轉換後的數據稱為

(即 )時, 的標準差和 的標

準差無異(即 ),圖4 把當中的關

係以圖像形式展示。

150

現假定有 n 個數據,而當中的平均值為零,即 。若實則數據的

平均數不是零,只須通過線性轉換 ,便可把數據組的平均

值轉為零,而不影響本身數據組的標準差。

有了以上的簡化,再把標準差的公式4以另一形式展示

由於這個數據的平均值為0,標準差為 ,即上式可再簡化為:

0 及 現加入數據

= =

4 為了方便沒有修讀M2 的同學,此處並未以連加符號” ”簡化。

151

మ మ

若考慮標準差不變的情況時,即

మ మ

మ మ

మ మ

從以上只得兩個數據的情況為例,只有兩個數據 , ,

即 , ,

152

即當 ,標準差將維持不變。

由於例一的數據平均值是2,只要把數值右移兩個單位,即當加入的

數據為 3.2247…(與圖 3 的情況吻合),標準差便會不變。(同學可用 計算機作簡單驗證)

同學亦不難發現,當 時,新的標準差便會大於原本的

標準差,反之亦然。

再考慮新的標準差的公式:

మ మ

當 的值越大, 和 相對越小,以致標準差與 的關係出

現了圖1 右上方,好像直線的關係。另一方面,若數據量(n)很大

時, , 則 。在此情況下, 的改變對

於整體數據的影響將會變得微不足道。最後,若 ,由於

,數式中新的標準差又變回附頁一中的 了。若考慮

移除數據又會如何?不如作為同學的功課,試試證明一下。

153 參考資料:

[1] Miller, I., Miller, M., Freund, J. E., & Miller, I. (2004). John E. Freund's mathematical statistics with applications. Upper Saddle River, NJ:

Prentice Hall.

154 附頁一:

加入數據相等於平均數( )時,標準差( )的變化。

考慮 n 個數據,它的平均值( )及標準差( )為:

現加入數據

若 ,新的平均值( )及標準差( )為

=

< (因 )

移除數據的技巧與加入數據的技巧類同,同學可自行證明當移除數

據相等於平均數時, .

155

邀請作品:

Matrix Completion and Its Application to Movie

在文檔中 版權 (頁 143-156)

相關文件