數據多樣化（Variety）

NBA 勝率大謎團主場客場逐個捉！

三．數據多樣化（Variety）

多樣化不但指資料來源豐富，而且數據並非只是局限於數

143

字，任何形式及格式的資訊，諸如文字、圖像，甚至音訊及影像數據亦可用作分析。隨著人工智能技術越來越成熟，

大數據應用層面亦日趨廣泛。

大數據的應用

在電腦運行速度較為遜色的年代，使用數 TB 的數據進行分析已可謂天方夜譚。隨著科技的不斷進步，大數據分析不再只是局限於一些較大規模的機構的工作，普羅大眾亦可使用家用電腦，從網上下載各式各樣的大數據自行設計分析模型。現時，

政府、學術界及商界均應用大數據作為輔助工具，協助機構作出大大小小的決策。

大家若是臉書的用戶，會發現臉書對你的喜好、朋友圈子、行蹤等均瞭如指掌。事實上，臉書正利用每天由你及身邊朋友收集的大量數據進行分析，如透過你曾瀏覽的網頁去了解你的喜好，利用人面辨識技術從照片找出你和你的朋友。商界往往亦利用從客人收集的數據，去制定更適切的推銷策略。政府及公營機構亦使用大數據提升工作效能及改善服務。例如香港天文台便利用大數據來分析天氣對社會帶來的影響，如 2018 年 9 月超強颱風山竹襲港時，天文台便利用塌樹或水浸等報告，並與天氣圖上的天氣資料聯繫起來作更全面的分析；醫院管理局早於十年前便利用臨床大數據，就內科長者病人再次入院機會率進行預測，從而提供更適切的服務以降低其再次入院的機會；

而政府亦將利用人工智能技術，於 1823 聯繫中心和「香港政府

一站通」網站正式推出聊天機械人服務以處理市民的查詢。只

要留心，便會發現日常生活中有很多產品及服務和大數據息息

機器學習的技術

接下來將跟大家簡單介紹現時一些流行的大數據分析技術，亦即機器學習（Machine learning）技術。如上文提及，除了數字外，文字、圖像、聲音等亦可透過機器學習，從大量的資料中發掘隱藏的資訊。

以文字為例，早期使用的文字分析方法，大多數將句子或文章中每一個字以一個不重複的數字來表示，或以 1 和 0 標示，1 代表該字在句子或文章中存在， 0 代表不存在，這些方法並未包含文字與文字之間相互關聯，簡單來說，中國和北京字義上很相近，因為兩個詞語分別代表國家及其首都，但以數字代表時卻看不出其關聯性。而字詞嵌入（word embedding）的出現則能打破上述方法的限制。以一個名為 Word2Vec 的模型為例，模型透過學習大量文字數據，將每一個詞語以一個字詞的向量（字詞的向量為一組數字）代表，向量涵蓋該詞的字義，透過比較各字詞的向量，便能利用模型去猜測和目標字/句最有關聯的字/

句。例如輸入中國一詞，模型能猜測到和中國相關的詞語為北京；若以圖表示，會發現相關聯的字詞位置會較接近（如下圖）。

圖片來源：https://www.tensorflow.org/images/linear-relationships.png

145

現時較廣泛應用的技術除了 Word2Vec 外，還有 GloVe、fastText 等。而圖像、聲音等亦可轉化為有意義的數字，利用各種機器學習的模型進行分析。由於機器學習的突破，有關技術已被廣泛應用於文章翻譯、將圖像、聲音轉化為文字，辨識面容、簽名等。

大數據時代所面對的挑戰

縱然利用大數據進行分析有很多過人之處，但亦要留意其不足的地方。首先，龐大的數據中往往夾雜很多垃圾資訊，因而影響分析的準確度；此外，數據的來源可能只涵蓋分析對象的一部分，資料未必有代表性，而依賴這些欠缺代表性的數據所得出的結論亦會有偏差。

而另一值得關注的是，不同機構往往在用戶知情甚至不知情情況下收集了大量數據。因此，將個人資料提供予其他機構前，

要確保你已清楚對方收集資料的用途，以及有關機構會否向其他人士或機構披露資料，以保障個人私穩。

結論

隨著大數據應用的普及，有關使用及分析大數據的資源亦日趨豐富，只要小心處理數據，大數據無疑對人們的生活帶來更多、

更新、更有用的資訊。大家亦可嘗試自行設計分析模型，去探

索更多大數據的可能性。

146

參考資料:

[1] IBM, “What is big data? More than volume, velocity and variety…”

https://developer.ibm.com/dwblog/2017/what-is-big-data-insight/

[2] IBM, “The Four V's of Big Data”

https://www.ibmbigdatahub.com/infographic/four-vs-big-data

[3] International Data Corporation (IDC), “The Digitization of the World.

From Edge to Core”

https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf

[4] Tensor Flow, Word embeddings

https://www.tensorflow.org/tutorials/representation/word2vec?hl=zh-cn [5] 香港天文台。從大數據探索天氣對社會的影響

http://my.weather.gov.hk/m/article_uc.htm?title=ele_00515

[6] 醫院管理局。善用大數據規劃未來服務

http://www3.ha.org.hk/ehaslink/issue97/tc/news-04-tc.html

[7] 立法會資訊科技及廣播事務委員會。電子政府服務 2019 年 6 月 10 日討論文件

https://www.ogcio.gov.hk/tc/news/legco_papers/2019/06/doc/lb_2019061 0.pdf

[8] 香港電台。「大數據」分析局限乃傳統統計學問題 https://app3.rthk.hk/mediadigest/media/pdf/pdf_1490268097.pdf

147

邀請作品：

《標準差—何去何從？》

探討加入(或移除)的數據值不等於平均值時，標準差的變化。

朱吉樑老師宣道會鄭榮之中學

於中學課程中，數據變化對離散度的影響是一個頗熱門的問題。一般討論方向，是加入(或移除)的數據值(或一組數據的平均值)與原本的數據平均值相同，由於加入數據後的平均值沒有變化，通過代入標準差的公式，便能得出標準差的值必定下跌的肯定結果(見附頁)。學生偶而會問：「若加入或移除的數據的平均值與原本的數據平均值不相同，標準差又會如何？」

為了方便討論，本文只探討加入數據的情況，(實際上，移除數據的處理手法也是差不多，可留給學生嘗試。) 讓我們先與學生考慮一些特殊情況作為討論的開場。

給定兩個數據和，假設、，我們可得出表一的

統計量：

表一：數據的平均值及標準差。

數據平均值( ) 標準差( )

, 2 1

148

若加入的數據值( )不斷增加(向右遠離平均值2 時)³，平均值( )和

標準差( )會有甚麼影響？作為初探，選了 2(平均值)，2.5(原

數據的範圍內)，3(原數據的範圍的最大值)及 3.5(原數據的範圍以外) 測試一下對標準差的影響，表二記錄了當中的結果。

表二：加入數據時，平均值及標準差的改變。

2 0.816

2.17 0.850

2.33 0.943

2.5 1.08

從上表可見，平均值和標準差均隨的增加而上升。此外，原

本數據的平均值是 2，當加入的數據值高於平均值，不難想像，

新的平均值會隨的增加而不斷上升；可是標準差的情況卻有

點不同，原本數據的標準差是 1，但當的值在原數據的範圍內時(小於或等於 3)，新的標準差的值看來會小於原本數據的標準差(當 3 時，標準差也只是 0.943 < 1)；不難想像，當的值於範圍外(大於 3)時，新的標準差的值不一定大於原本數據的標準差！

我們不能無止境的試不同的值，為了了解更多，在此，運用了試算

表(EXCEL)的功能，看看與標準差的變化(見圖 1)，表面上看，好像是一條直線！保守一點，至少可以看到是一條遞增的線。但當仔細

觀察時，聚焦於的值於2 與 4 之間，圖像清楚顯示應為曲線(見圖

3 由於加入數據的值減少和增加只是反射對稱的關係，對標準差的影響相同，故本文不贅論述，只考慮增加的轉變。

149 2)。

另一個問題，應為何值才會令標準差保

持不變(即 )？從圖 3 中可見，當

稍稍大於最大值 ( ) 時，標準差便

開始大於本身的值，但究竟要大多少才會發生呢？而當數據大於兩個時，此現象會否不同？

對於加入數據值與標準差，現在有了基本的看法，是時候從數式找尋更深入的答案。

為了方便討論，因應標準差不受整體數據的位移影響，即當每個數據加上常 數 c 時，另把轉換後的數據稱為

(即 )時，的標準差和的標

準差無異(即 )，圖4 把當中的關

係以圖像形式展示。

150

現假定有 n 個數據，而當中的平均值為零，即 。若實則數據的

平均數不是零，只須通過線性轉換，便可把數據組的平均

值轉為零，而不影響本身數據組的標準差。

有了以上的簡化，再把標準差的公式⁴以另一形式展示

భమ

భ మ

మమ

మ మ

೙మ

೙ మ

భమ మమ

೙మ

భ మ ೙ మ మ మ

భమ మమ

೙మ మ మ

భమ మమ

೙మ మ

భమ మమ

೙మ

由於這個數據的平均值為0，標準差為，即上式可再簡化為：

0 及 ^భ^మ ^మ^మ ^య^మ ^೙^మ 現加入數據

= ^ೌ = ^ೌ

భమ మమ

೙మ

ೌమ

4 為了方便沒有修讀M2 的同學，此處並未以連加符號” _௜”簡化。

151

మ ೌమ

ೌ

మ ೌమ

ೌమ మ

మ ೌమ

ೌమ మ

మ ೌమ

మ

ೌమ మ మ

若考慮標準差不變的情況時，即

ೌమ

మ మ

ೌమ

మ మ

ೌమ

మ మ

మ

從以上只得兩個數據的情況為例，只有兩個數據 , ，

即，，

152

即當，標準差將維持不變。

由於例一的數據平均值是2，只要把數值右移兩個單位，即當加入的

數據為 3.2247…(與圖 3 的情況吻合)，標準差便會不變。(同學可用計算機作簡單驗證)

同學亦不難發現，當時，新的標準差便會大於原本的

標準差，反之亦然。

再考慮新的標準差的公式：

ೌమ మ మ

మ

當的值越大，和 _మ相對越小，以致標準差與的關係出

現了圖1 右上方，好像直線的關係。另一方面，若數據量(n)很大

時，， _మ 則。在此情況下，的改變對

於整體數據的影響將會變得微不足道。最後，若，由於

，數式中新的標準差又變回附頁一中的了。若考慮

移除數據又會如何？不如作為同學的功課，試試證明一下。

153 參考資料:

[1] Miller, I., Miller, M., Freund, J. E., & Miller, I. (2004). John E. Freund's mathematical statistics with applications. Upper Saddle River, NJ:

Prentice Hall.

154 附頁一：

加入數據相等於平均數( )時，標準差( )的變化。

考慮 n 個數據，它的平均值( )及標準差( )為：

భ మ య ೙ 及 ^భ ^మ ^మ ^మ ^య ^మ ^೙ ^మ

現加入數據

若，新的平均值( )及標準差( )為

^భ ^మ ^య ^೙ ^ೌ

భ మ య ೙

^భ ^మ ^మ ^మ ^య ^మ ^೙ ^మ ^ೌ ^మ

భ మ మ మ య మ ೙ మ మ

భ మ మ మ య మ ೙ మ

< (因 )

移除數據的技巧與加入數據的技巧類同，同學可自行證明當移除數

據相等於平均數時， .

155

邀請作品：

Matrix Completion and Its Application to Movie

在文檔中版權 (頁 143-156)

數據多樣化 （Variety）

NBA 勝率大謎團 主場客場逐個捉！

三． 數據多樣化 （Variety）

多樣化不但指資料來源豐富，而且數據並非只是局限於數

字，任何形式及格式的資訊，諸如文字、圖像，甚至音訊及 影像數據亦可用作分析。隨著人工智能技術越來越成熟，

大數據應用層面亦日趨廣泛。

大數據的應用

政府、學術界及商界均應用大數據作為輔助工具，協助機構作 出大大小小的決策。

而政府亦將利用人工智能技術，於 1823 聯繫中心和「香港政府

一站通」網站正式推出聊天機械人服務以處理市民的查詢。只

要留心，便會發現日常生活中有很多產品及服務和大數據息息

相關。

機器學習的技術

接下來將跟大家簡單介紹現時一些流行的大數據分析技術，亦 即機器學習（Machine learning）技術。如上文提及，除了數字 外，文字、圖像、聲音等亦可透過機器學習，從大量的資料中 發掘隱藏的資訊。

句。例如輸入中國一詞，模型能猜測到和中國相關的詞語為北 京；若以圖表示，會發現相關聯的字詞位置會較接近（如下圖） 。

大數據時代所面對的挑戰

而另一值得關注的是，不同機構往往在用戶知情甚至不知情情 況下收集了大量數據。因此，將個人資料提供予其他機構前，

要確保你已清楚對方收集資料的用途，以及有關機構會否向其 他人士或機構披露資料，以保障個人私穩。

結論

隨著大數據應用的普及，有關使用及分析大數據的資源亦日趨 豐富，只要小心處理數據，大數據無疑對人們的生活帶來更多、

更新、更有用的資訊。大家亦可嘗試自行設計分析模型，去探

索更多大數據的可能性。

參考資料:

邀請作品：

《標準差—何去何從？》

探討加入(或移除)的數據值不等於平均值時，標準差的變化。

朱吉樑老師 宣道會鄭榮之中學

從上表可見，平均值和標準差均隨 的增加而上升。此外，原

本數據的平均值是 2，當加入的數據值高於平均值，不難想像，

新的平均值會隨 的增加而不斷上升；可是標準差的情況卻有

邀請作品：

Matrix Completion and Its Application to Movie

NBA 勝率大謎團主場客場逐個捉！

三．數據多樣化（Variety）

字，任何形式及格式的資訊，諸如文字、圖像，甚至音訊及影像數據亦可用作分析。隨著人工智能技術越來越成熟，

政府、學術界及商界均應用大數據作為輔助工具，協助機構作出大大小小的決策。

接下來將跟大家簡單介紹現時一些流行的大數據分析技術，亦即機器學習（Machine learning）技術。如上文提及，除了數字外，文字、圖像、聲音等亦可透過機器學習，從大量的資料中發掘隱藏的資訊。

句。例如輸入中國一詞，模型能猜測到和中國相關的詞語為北京；若以圖表示，會發現相關聯的字詞位置會較接近（如下圖）。

而另一值得關注的是，不同機構往往在用戶知情甚至不知情情況下收集了大量數據。因此，將個人資料提供予其他機構前，

要確保你已清楚對方收集資料的用途，以及有關機構會否向其他人士或機構披露資料，以保障個人私穩。

隨著大數據應用的普及，有關使用及分析大數據的資源亦日趨豐富，只要小心處理數據，大數據無疑對人們的生活帶來更多、

朱吉樑老師宣道會鄭榮之中學

從上表可見，平均值和標準差均隨的增加而上升。此外，原

新的平均值會隨的增加而不斷上升；可是標準差的情況卻有