• 沒有找到結果。

利用影像處理與類神經網路進行人體坐姿判讀

N/A
N/A
Protected

Academic year: 2022

Share "利用影像處理與類神經網路進行人體坐姿判讀"

Copied!
155
0
0

加載中.... (立即查看全文)

全文

(1)

國立臺灣大學工學院應用力學研究所 碩士論文

Graduate Institute of Applied Mechanics College of Engineering

National Taiwan University Master Thesis

利用影像處理與類神經網路 進行人體坐姿判讀

Using Image Processing and Artificial Neural Networks to Identify Human Sitting Postures

林 品 喬 Pin-Chiao Lin

指導教授:劉佩玲 博士 Advisor: Pei-Ling Liu, Ph.D.

中華民國 2013 年 7 月

July, 2013

(2)
(3)

致謝

本論文能夠順利完成,首先要感謝我的指導教授 劉佩玲教授,

非常謝謝老師在這兩年期間所給予我最細心的指導,不厭其煩地一次 又一次帶領我克服在研究上所遭遇到的各種難題,同時也讓我深刻學 得做研究時對於每一個內容與步驟都必須要實事求是的精神以及自 我解決問題的能力,在此獻上最真誠的敬意與感謝,謝謝老師的指導。

在論文定稿的過程中,承蒙輔仁大學資工系 梅興教授與台灣大 學職能治療系 毛慧芬教授對於本文的指導與啟發,在百忙之中仍然 抽空給予我許多寶貴的意見,使得本論文能夠更臻完備,在此亦表達 最深的敬意給予以上兩位教授。

在研究所的這兩年中,謝謝葉柏涼學長總能夠在我遭遇問題的當 下及時給予指導,謝謝阮智宇、吳宇盛同學陪同我在研究生涯中一同 渡過各種階段,謝謝陳思妤學妹、曾柏融學弟、林立權學弟在實驗上 獻身當模特兒以及給予各項幫忙與協助,也謝謝各位 227 研究室的助 理姊姊們,總是親切的關懷我,謝謝所有 227 研究室的成員們,讓整 個研究室增添不少笑語。

謝謝最親愛的父親大人與母親大人在背後的支持與鼓勵,謝謝奶 奶總是在我北上之際給予我加油打氣,謝謝屁熊的經驗分享與英文文 法修正與可愛的黑色擦子,謝謝牛同貍貍同老皮同小兔子同哈吉的歡

(4)

樂玩耍敲鍵盤與美白精華液,謝謝德先生所給的量子物理震撼教育,

謝謝無時無刻總能夠當合購夥伴的屁糖與她的方吉,謝謝每天聽我吐 亂七八糟口水的偉誌哥哥,謝謝大半夜關心我身體健康叫我睡覺的郭 黑黑,謝謝胖大鄒的花蓮羊羹和伴手禮,謝謝台雁雁的加油簡訊,謝 謝當我爆肝還在線上可以聊天的小喬妹妹,謝謝給我影像處理好建議 的柏誠學長,謝謝所有三姑六婆社團的大家在一起三姑六婆的時光,

謝謝成大橋藝社的大家終於讓我在學生時代進了一次 BBO 轉播室,

謝謝 5/18 大土盃盃盃的夥伴們讓我重回大學時代打球的青春熱血,

辛苦阿蘑頂著大太陽參加我的畢業典禮,謝謝你們讓我的研究所生涯 更加豐富與精采,我愛你們!將本文獻給所有曾經幫助我與關心我的 大家,謝謝!

(5)

摘要

本研究之目的在於使用人體影像進行坐姿的判讀。利用相機拍攝 人體坐姿影像,以正規化與高斯濾波法消除背景,

之後進行二元化處 理

。為避免坐姿的判讀會受到影響,嘗試將圖形中小腿刪除後之結果 視為第一類目標圖型,將手與下半身刪除的結果視為第二類目標圖 型。計算目標圖型的特徵參數-慣性矩(moment of inertia)與慣性 積(product of inertia),並將參數輸入倒傳遞類神經網路(Back Propagation Neural Networks,BPNN)進行分析運算,最後再將網路 輸出值透過分類器來判讀坐姿。

本研究中有10位受試者,共拍攝708張坐姿影像,其中屬於坐姿 正的影像有317張,屬於坐姿不正的影像有391張。隨機挑選其中388 張坐姿影像訓練類神經網路,剩餘的320張坐姿影像則進行後來的測 試。其測試結果中第一類目標圖型之靈敏度(sensitivity)為80%,準 確率(accuracy)為79.38%;第二類目標圖型之靈敏度(sensitivity)

為78.13%,準確率(accuracy)為82.82%。因此由本研究的結果可知,

以慣性矩與慣性積作為圖形特徵參數所建立起的坐姿判讀法具有辨 識坐姿好壞的能力。

關鍵詞: 影像處理;類神經網路;慣性矩;慣性積;倒傳遞類神經網路

(6)

Abstract

The purpose of this study is to identify human sitting postures by using images. We use camera to capture the body's sitting images, remove the background by image normalization and Gaussian Smoothing filter, and then make images binaries. To avoid the identification of sitting postures being affected, we try to remove lower leg of posture images for first target pattern, remove hands and lower body for second target pattern. We calculate the target patterns characteristic parameters - moment of inertia and product of inertia, and then we make those parameters input back-propagation neural network (BPNN) for analysis and computing, finally, the output value of neural network through a classifier to identify the sitting postures.

In this study, there are 10 subjects and 708 sitting images, which belong to the good posture were 317 images, belong to the bad posture were 391 images. Randomly selected 388 sitting images to train the neural network, the remaining 320 sitting images do test later. The test results of the images of first target pattern, the sensitivity is 80%, and the accuracy is 79.38%; the sensitivity of second target pattern is 78.13%,and the accuracy is 82.82%. From the results of this study, the posture identify system which we set up by using moment of inertia and product of inertia has the ability to recognize good and bad posture.

Key words:image processing;neural network;moment of inertia;product of inertia;Back Propagation Neural Networks

(7)

目錄

口試委員會審定書... I 致謝... II 中文摘要... IV 英文摘要... V 目錄... VI 圖目錄... VII 表目錄... X

第一章 前言... 1

1-1 研究動機 ... 1

1-2 文獻回顧 ... 2

1-3 研究內容 ... 4

第二章 影像處理... 7

2-1 去除背景 ... 7

2-2 高斯平滑濾波 ... 9

2-3 擷取目標圖型 ... 12

第三章 類神經網路... 32

3-1 生物神經網路 ... 33

3-2 類神經網路學習演算法 ... 38

3-1-1 類神經網路系統架構 ... 41

3-1-2 類神經網路學習演算法 ... 43

3-3 倒傳遞類神經網路 ... 68

3-3-1 權重修正公式 ... 68

3-3-2 圖形特徵參數 ... 74

3-3-2 隱藏層層數與神經元數量 ... 77

第四章 判斷分類器... 104

第五章 坐姿判定之實驗分析與討論... 114

5-1 受試者與受試環境介紹 ... 114

5-2 實驗流程與結果 ... 114

5-3 實驗討論 ... 116

第六章 結論與未來展望... 138

參考文獻... 141

(8)

圖目錄

圖 1-3-1 人體坐姿判斷系統流程圖 ... 6

圖 2-1-1 影像座標示意圖 ... 19

圖 2-1-2 光度校正圖 ... 19

圖 2-2-1 幕罩運算範圍示意圖 ... 21

圖 2-2-2 一維的高斯函數圖 ... 21

圖 2-2-3 二維的高斯函數圖 ... 22

圖 2-3-1 高斯濾波後之圖形 ... 22

圖 2-3-2 高斯濾波後圖形之灰階分佈 ... 23

圖 2-3-3 經閥值判斷後之二元圖 ... 23

圖 2-3-4 正姿圖形一 ... 24

圖 2-3-5 正姿圖形二 ... 25

圖 2-3-6 標準坐姿二元圖 ... 26

圖 2-3-7 九宮格劃分預想圖 ... 27

圖 2-3-8 九宮格實際架構圖 ... 28

圖 2-3-9 九宮格實際完成圖 ... 28

圖 2-3-10 刪除小腿之上半身圖 ... 29

圖 2-3-11 刪除小腿、手與大腿之上半身圖 ... 29

圖 2-3-12 非標準坐姿劃分九宮格圖 ... 30

圖 2-3-13 非標準坐姿刪除小腿之上半身圖 ... 31

圖 2-3-14 非標準坐姿刪除小腿、手與大腿之上半身圖 ... 31

圖 3-1-1 神經系統對於外界刺激與回應圖 ... 81

圖 3-1-2 神經元構造圖 ... 81

圖 3-1-3 神經元傳遞訊息圖 ... 82

圖 3-1-4 膜電位示意圖 ... 82

圖 3-1-5 動作電位圖 ... 83

圖 3-2-1 人工神經元模型圖 ... 83

圖 3-2-2 活化函數圖 ... 84

圖 3-2-3 前饋式類神經網路之架構 ... 84

圖 3-2-4 單層前饋式類神經網路圖 ... 85

圖 3-2-5 多層前饋式類神經網路圖 ... 85

圖 3-2-6 回饋式類神經網路之架構圖 ... 85

圖 3-2-7 降兩量回傳時間稽延圖 ... 86

圖 3-2-8 學習演算法分類 ... 86

圖 3-2-9 赫賓學習法示意圖 ... 87

圖 3-2-10 贏者全拿學習法示意圖 ... 87

(9)

圖 3-2-11 神經元權重學習示意圖 ... 88

圖 3-2-12 最小均方演算法示意圖 ... 88

圖 3-2-13 最陡坡降法示意圖 ... 89

圖 3-2-14 單層感知器學習法示意圖 ... 89

圖 3-2-15 多層感知器學習法示意圖 ... 90

圖 3-2-16 Delta 學習法示意圖... 90

圖 3-2-17 Grossberg 學習法示意圖 ... 91

圖 3-3-1 倒傳遞類神經網路架構圖-前饋式網路 ... 91

圖 3-3-2 倒傳遞類神經網路正向傳播與負向傳播圖 ... 92

圖 3-3-3 倒傳遞類神經網路演算之流程圖 ... 92

圖 3-3-4 任意形狀平面積 ... 93

圖 3-3-5 矩形的慣性矩 ... 93

圖 3-3-6 在對稱軸線上慣性積等於零 ... 94

圖 3-3-7 慣性矩與慣性積與圖形關係圖 ... 94

圖 3-3-8 不同坐姿圖 ... 95

圖 3-3-9 ROC 曲線圖 ... 98

圖 3-3-10 判斷結果分佈圖 ... 98

圖 3-3-11 閥值移動對照 ROC 曲線圖 ... 99

圖 3-3-12 具有高判斷力的 ROC 曲線圖 ... 99

圖 3-3-13 不具有高判斷力的 ROC 曲線圖 ... 100

圖 3-3-14 完全不具判斷力的 ROC 曲線圖 ... 100

圖 3-3-15 刪除小腿之上半身神經元個數與 AUC 關係圖 ... 101

圖 3-3-16 刪除小腿之上半身之 ROC 曲線面積圖 ... 101

圖 3-3-17 刪除小腿、手與大腿之上半身神經元個數與 AUC 關係圖 ... 102

圖 3-3-18 刪除小腿、手與大腿之上半身神經元個數與 ROC 曲線面積圖 . 102 圖 4-1 刪除小腿之上半身之坐姿正輸出統計長條圖... 109

圖 4-2 刪除小腿之上半身坐姿不正輸出統計長條圖... 109

圖 4-3 刪除小腿、手與大腿之上半身坐姿正時輸出統計長條圖... 110

圖 4-4 刪除小腿、手與大腿之上半身坐姿不正時輸出統計長條圖... 110

圖 4-5 刪除小腿之上半身機率密度函數圖... 111

圖 4-6 刪除小腿、手與大腿之上半身機率密度函數圖... 111

圖 4-7 刪除小腿之上半身判斷閥值與圖 ... 112

圖 4-8 刪除小腿、手與大腿之上半身判斷閥值與圖 ... 112

圖 5-2-1 實驗判斷流程圖 ... 121

圖 5-2-2 訓練資料在刪除小腿時參數正規化圖 ... 122

圖 5-2-3 訓練資料在刪除小腿、大腿與手時參數正規化圖 ... 123

圖 5-2-4 測試資料在刪除小腿時參數正規化圖 ... 125

圖 5-2-5 測試資料在刪除小腿、大腿與手時參數正規化圖 ... 126

(10)

圖 5-2-6 測試資料在刪除小腿時 ROC 曲線圖 ... 128

圖 5-2-7 測試資料在刪除小腿時不同閥值與值關係圖 ... 128

圖 5-2-8 測試資料在刪除小腿、大腿與手時 ROC 曲線圖 ... 129

圖 5-2-9 測試資料在刪除小腿、大腿與手時不同閥值與值關係圖 ... 129

圖 5-3-1 誤判姿勢類型 1 ... 130

圖 5-3-2 誤判姿勢類型 2 ... 130

圖 5-3-3 誤判姿勢類型 3 ... 131

圖 5-3-4 誤判姿勢類型 4 ... 132

圖 5-3-5 誤判姿勢類型 5 ... 133

圖 5-3-6 誤判姿勢類型 6 ... 133

圖 5-3-7 誤判姿勢類型 7 ... 134

圖 5-3-8 誤判姿勢類型 8 ... 134

圖 5-3-9 誤判姿勢類型 9 ... 135

(11)

表目錄

表 3-3-1 參數正規化 ... 103

表 3-3-2 Confuse Matrix ... 103

表 3-3-3 ROC 量表 ... 103

表 4-1 κ 量表 ... 113

表 4-2 兩位醫生判斷結果之對照表... 113

表 4-3 類神經網路目標與實際輸出結果之對照表... 113

表 5-2-1 測試資料在刪除小腿時各判斷值 ... 137

表 5-2-2 測試資料在刪除小腿、大腿與手時各判斷值 ... 137

(12)

第一章 前言

1-1 研究動機

在一天 24 小時之中,人們自起床到下次上床睡覺之中的時間約 莫有 16 小時。而在這 16 小時之中,人們又有將近八成的時間都是採 取「坐著」的姿勢。不論是辦公室人員、司機、工程師、教授、作業 員、會計師、顧問等職業的工作者,以及任何年齡層的學生,甚至是 已經退休閒賦在家與高齡的老年人們,每個人每天都離不開「椅子」!

尤其現今是資訊爆炸的時代,越來越多的知識只需要透過網路就 可以得知,更使得人們不需要出門使需要坐在電腦桌前就能解決問 題,相對起過去的年代,也就大大增加了接觸椅子的時間;甚至是娛 樂方面的線上遊戲等也都非常蓬勃發展,更使得平日已經坐了一整天 椅子的學生,在假日或是空閒時也仍然長時間的持續坐在電腦桌前。

因此,如果不去注意坐姿的好壞,長期這樣下去會使得人體產生腰酸 背痛或是一些脊椎方面的問題。一旦出現這樣的問題後要再去解決,

基本上會花上非常多的金錢與時間成本,如此一來可以說是得不償 失。

因此如果能夠發展出一種方式具有可以有效辨識坐姿好壞的能 力,就可預防很多因坐姿不良而引起的病痛,尤其是正值發育期的學

(13)

生,在身體的骨骼尚未完全成熟之時,坐姿的好壞對於身體的發展非 常重要。

本研究之目的即在建立坐姿判讀的準則與方法,藉由讀取影像的 方式,來對於自己本人的坐姿做出正與不正的判讀。由於自己是無法 判斷自身坐姿的,需要外人對於自己的姿勢進行監測或糾正,故本研 究最終希望能夠達到自我監測之效果,同時亦能用此準則結合任何具 有影像拍攝功能的系統或是工具,可監測所有需要監測坐姿的使用 者,以達到預防與保健之功用。

1-2 文獻回顧

利用非侵入式感測器量測人體訊號是醫學上非常重大的發展,

K. K. Kim,Y. K. Lim and K. S. Park(2005)發展出一張能夠測量人 體ECG(心電圖)訊號的智慧椅。隨著社會發展,越來越多文明病的出 現,尤其是因久坐與姿勢不良產生的腰酸背痛現象,因此有許多關於 人體坐姿這方面的議題與研究內容,然而一直以來的研究重心幾乎都 是圍繞著壓力感測器。H. Z. Tan,L. A. Slivovsky and A. Pentland

(2001)發展出壓力椅,藉由將壓力感測器裝置於辦公室椅上,觀察 壓力分佈的情形來判讀坐姿。G. Chen,Q. Wu,and Z. Yang(2008)

將壓力感測器裝置在椅子上,利用量測人坐在椅子上不同坐姿時的壓 力分佈為何,去發展出一套舒適度最高的輔助椅。G. A. Vos et al.

(14)

(2006)在探討不同坐姿與不同椅子設計時,對於椅子上壓力分布的 情形。H. Nakane and J. Toyama(2011)認為人在疲勞時坐姿會與精 神好時的坐姿有所差異,藉由監控壓力感測椅中的壓力變化可以判讀 出疲勞與否,進而給予提醒。M. Yamada et al.(2009)藉由在椅墊與 椅背上裝上壓力感測器,透過感測器量測到的訊息達到判讀此時椅子 上的人在做什麼樣的動作。Y. Li and R. Aissaoui 亦是藉由將壓力感 測器裝置在椅子上的方式,來判斷人的坐姿為何。

有別於利用椅子上的壓力感測器來判讀坐姿,S. Murphy ,P.

Buckle and D. Stubbs(2002)則是利用攝影與在身上穿戴感測器的方 式監測學生上課時的坐姿。而C. C. Li and Y. Y. Chen(2006)則是利 用攝影的方式拍下人體影像,並透過人體中的一些特徵參數,例如身 高或體寬等等,藉由這些參數的處理來發展出一套規則辨別人體站姿 的系統,以此達到居家看護系統對於小孩或老年人的監控。在醫學 上,一般是採用兩種方式來對人體姿勢做出判讀,一種是以多台攝影 機拍攝的方式,或是藉由X光的拍攝,來找出人體轉動的關節處為何,

進而對人體姿勢做出判讀,如Jun Ohya and Fumio Kishino(1994)就 是藉由架設多台相機拍攝人體姿勢影像的方式,來建立起人體姿勢三 維圖型,Juergen Gall et al.(2009)亦是;另一種則是在人體關節處 貼上標記(marks),藉由觀察標記處位移的變化來對於人體關節處

(15)

的運動做記錄,如Kazutaka Kurihara et al.(2002)。

過往研究中判讀人體坐姿大多是以壓力感測器為主,但是一來壓 力感測器的價格非常昂貴,無法普及化,二來其判斷的方式也不若人 眼來的直接。而醫學上判斷姿勢的影像或是亮點追蹤的兩種方式雖然 很精準,但是所需要耗費的成本太大,基於多方考量,因此本研究利 用拍照的方式記錄坐姿,類比人眼觀看他人坐姿的視野,且只採用一 台相機,之後再將這些照片進行一連串的處理,最後對於坐姿做出判 斷,並給予警告。由於不需要在身上穿戴儀器,故不會影響到做事的 效率,而影像的來源可以從個人手機照相得來,所以人人得以對自己 的坐姿進行監控,也可以與居家看護的監測系統做結合,如此一來,

就能達到非常普及化之效果。

1-3 研究內容

本研究將發展一套坐姿判讀的方式。處理過程為先利用相機將人 體各坐姿影像攝入,結合影像處理的方式消除背景,只餘下人體姿勢 的圖形,再將圖形做二值化處理,以計算圖形的特徵參數值,之後將 各參數值輸入至類神經網路中,模擬人腦在做判斷時對於多方因素比 較與考量的情境。最後,設定一閥值來當做劃分人體坐姿正與不正之 標準。如果判斷結果為正的姿勢,則不給予任何警告;反之,如果被 判斷為不正的姿勢,則立即給予警告。本研究之人體判斷系統流程圖

(16)

如 1-3-1 所示。

本論文共分六章,各章節內容安排如下:

第一章 前言

第二章 為本研究中人體坐姿判讀流程的第一步驟:將圖形進行影像 處理之過程。先介紹如何如何將影像去除背景,之後再將圖 形透過平滑濾波的處理消除雜訊以及將圖形內部做一平均的 動作,以利最後做影像二元化與擷取目標圖型之處理

第三章 為本研究中人體坐姿判讀流程的第二步驟:類神經網路之 析。一開始先介紹生物神經網路與類神經網路結構,之後介 紹本研究所使用的倒傳遞類神經網路,以及如何將圖形特徵 轉化成類神經網路的輸入值

第四章 為本研究中人體坐姿判讀流程的第三步驟:坐姿分類器。介 紹如何將類神經網路之演算結果透過閥值的方式來分類出坐 姿正與不正,以及閥值該如何選取之過程

第五章 利用上述所介紹之方法來對於實驗受試者進行坐姿的判斷與 分析,並且討論其結果

第六章 總結全文並對未來研究方向提出建議

(17)

圖 1-3-1 人體坐姿判斷系統流程圖

(18)

第二章 影像處理

此章節是人體坐姿判讀流程的第一步驟,在此我們將會介紹如何 把拍攝到的原始圖檔處理成我們所需要的人體坐姿圖形,首先介紹如 何將原始圖檔去除背景,之後引入一平滑濾波器做一些處理,最後則 是將圖片中的人體姿勢部分擷取出來,以利下一步驟類神經網路分析 的處理。

2-1 去除背景

在進行影像處理之前,我們必須將原始的圖片從彩色的 RGB 圖 檔轉換成灰階圖檔。之所以要將圖檔轉換成灰階圖檔,一來是因為灰 階圖檔是二維矩陣的表示方式,且每個像素(pixel)由 8 個位元來表 示,故灰階值的變化可以從 0 到 255,而彩色圖檔為三維矩陣且每一 像素需要用 24 位元來表示,相較之下用灰階圖能夠較省空間;二來 是因為若將圖檔用灰階表示之,則其物件的輪廓會比用彩色表示更加 明顯。因此,我們每次拍攝到的坐姿圖,都會先將其轉成灰階圖檔後 才能做後續的處理。

圖檔的座標格式與我們常用的座標格式略有不同,如圖 2-1-1 所 示,由圖 2-1-1 我們可以發現圖檔的原點是在左上角,且圖檔座標的 表示法是先行(row)後列(column),與我們所用的在卡氏座標中描述一

(19)

點的座標時,x 座標為橫坐標 y 座標為縱座標的方式不同。

在本研究採取的背景消除方法是採用相減法,其處理過程分成兩 步驟,第一步驟是先校正光度,第二部份則是將校正光度後的圖片與 背景圖做相減的動作。在此我們將椅子視為不會移動的背景之一,意 即背景圖是指椅子上尚未坐人時的圖檔,人體坐姿圖則是人坐在椅子 上的圖檔,將兩張圖相減之後,相同的部分就會變成零,不同的地方 就是人體姿勢取代原本背景圖的地方,因此這兩張圖有灰階值變化的 地方就是整個人體姿勢圖。因為在實際過程中,拍攝背景圖與人體坐 姿圖時光度可能會產生了改變,所以在將兩張圖檔做相減的動作之前 需要先做光度校正的處理。

在本研究中光度校正的過程為:先從背景圖的左上角取一小塊像 素的背景灰階值,再從人體坐姿圖中相同位置的地方取一塊像素的背 景灰階值,之後用從人體坐姿圖中取出的這一塊像素的灰階值各自去 除上背景圖中相同位置的灰階值,用以判斷此時人體坐姿圖與純背景 圖的光度變化了多少,之後再將得到的灰階值變化取平均,最後用人 體坐姿圖去除上這個灰階變化值的平均,就完成光度校正的工作了。

我們用圖檔座標的格式來描述背景圖與人體坐姿圖的灰階值,令背景 圖中各畫素的灰階值為B ,

 

r c ,坐姿圖中各畫素的灰階值為P ,

 

r c座標中的 r 代表第幾行,c 代表第幾列,則光度校正的計算過程如下

(20)

式:

   

n m

c r B

c r P s

m

r n

c



1 1 , ,

(2-1-1)

   

B

 

r c s

c r c P

r

P , ,

ˆ , (2-1-2)

其中 s 為人體坐姿圖中光度校正的倍率,P ,ˆ

 

r c 則是去除掉背景 後的人體姿勢圖,如圖 2-1-2 所示,在本研究中我們 m 與 n 都是取 100。

由圖 2-1-2(c)可以大致看出坐姿的圖樣,然而單單只是相減之後 的圖檔其背景的雜訊仍然存在,雖然光度經過校正但並不是每個屬於 背景的畫素在經過相減之後的灰階值都一定會是零,因此我們需要將 背景殘餘的雜訊去掉,故我們在此引入一平滑濾波器來做後續的處 理。

2-2 高斯平滑濾波(Gaussian Smoothing filter)

空間濾波器一般又稱為幕罩(mask),使用幕罩對於影像處理的 方式就稱為幕罩法,藉由移動一固定大小的幕罩,將此幕罩所涵蓋的 區域的灰階值與幕罩做疊積運算(convolution)。一般常使用的幕罩 大小為一33的矩陣,如以下的格式:

 

 

9 8

7

6 5

4

3 2

1

w w

w

w w

w

w w

w

假設P ,ˆ

 

r c 為一張影像中的任意一點

 

r,c 所具有的灰階值,利用幕罩

(21)

法將一個33矩陣的幕罩與以

 

r,c 點為中心、半徑為 1 所形成的 3

3 區塊(如圖 2-2-1 所示)的灰階值做疊積運算,運算過程如下:

       

     

1 1

8

1

9

1 1

7

1 6 5

1 4

1 1 3 1

2 1

1 1

ˆ , ˆ ,

ˆ ,

ˆ , ˆ ,

ˆ ,

ˆ , ˆ ,

ˆ ,

~ ,

j i j

i j

i

j i j

i j

i

j i j

i j

i

c r P w c

r P w c

r P w

c r P w c

r P w c

r P w

c r P w c

r P w c

r P w c r P

(2-2-1)

其中P ,~

 

r c

代表灰階值P ,ˆ

 

r c 經過幕罩運算後所得到的新的灰階值。

其意思也就是說針對任意一點

 

r,c 之灰階值,會被以此點為中心、半 徑為 1 的周圍 9 個點之灰階值分別乘上一權重後加總的灰階值取代 之。

最常用的平滑濾波器為高斯平滑濾波,一維的高斯函數即是我們 常說的高斯分佈曲線,也就是常態分布曲線,如圖 2-2-2 所示,其式 子如下:

2 2

( )

1

2

( ) 2

x

G x e



(2-2-2)

其中 σ 代表的是標準差,μ 代表的是平均數(一般來說為零) 。 二維的高斯函數則可寫成:

2 2

2

( ) ( )

2 2

( , ) 1 2

x y

G x y e



 

(2-2-3) 其圖形示意圖為圖 2-2-3。

由圖形 2-2-3 可看出,二維的高斯函數具有以下特性:

(22)

1. 在二維的平面中,二維高斯函數是一個環狀對稱,對於任何 方向處理的平滑程度都是相等的。

2. 高斯二維函數是一單峰值的函數,距離原點越遠則峰值越 小,也就是說對於每一個要運算灰階值的點,若是週圍的點 與其距離越遠,則影響的權重就越小,因此能夠保留局部特 性而消除其他不必要之雜訊。

3. 高斯平滑濾波器之濾波平滑程度是藉由 σ 來控制的,當 σ 越 大則越平滑,能夠濾掉越多雜訊,但是相對的影像也會越模 糊;反之,σ 越小則越不平滑,濾掉的雜訊較少,但是相對的 影像也會越清晰。

由於我們的目的是要消除雜訊,但又不能夠使得人體姿勢圖 形太過模糊,因此我們選用的

σ 為 1,當 σ=1 時,對於一

33高斯平 滑濾波器可以得到以下的濾波器係數:

1 2 1 1 2 4 2 16 1 2 1

而高斯平滑濾波除了可以消除掉背景的雜訊之外,對於人體姿勢 圖的內部灰階值亦有平均化的功能,可以使得裡面各點的灰階值與周 圍的灰階值變得平滑,如此一來,則對於下一步要進行目標圖型的擷 取會有很大的幫助。

(23)

2-3 擷取目標圖型

為了要將姿勢圖與背景圖完全的做出區隔,在此我們要對影像進 行二元化的處理。

所謂的二元化處理乃是將影像變成只用 0 跟 1 這兩種值來表示 之,值為 0 呈現黑色,值為 1 則呈現白色。一來可以使圖上只留下需 要的人體坐姿圖(將其變成 1),完整消除不要的人體坐姿圖之背景

(將其變成 0),二來是為了簡化後續圖形參數的計算,將姿勢圖中 各畫素的灰階值都變成相同的值(同為 1),就可以將人體姿勢圖上 的各分點都視為均值(uniform)分布的狀態。

要想將影像做二值化處理,最簡單的方式就是設定一個閥值

(threshold),藉由邏輯二元分類的概念,將各畫素灰階值大於此閥 值的灰階值令為 1(白色),將小於此閥值的灰階值令為 0(黑色),

如此一來就可以將人體坐姿圖與背景單調化,造成完全分離的黑白對 比現象。

至於閥值的大小應該要如何設立呢?如果閥值選擇的過小,則會 造成除了人體坐姿圖點外還有其他外在背景圖像的干擾;但如果閥值 選擇的過大,則會造成人體坐姿圖中有部分的人體圖象消失,使得圖 形失真。我們先觀察經過高斯平滑濾波之後的坐姿圖形與其灰階分布 圖,由圖 2-3-1 與圖 2-3-2 所示,由於高斯平滑濾波會對於背景的雜

(24)

訊有消除的能力,所以由圖 2-3-1 可看出背景(黑色)的部分佔了整 張圖很大的比例,對照圖 2-3-2 可看到在灰階值很小的時後,數量非 常的多,此即為背景的部分;此外,高斯平滑濾波對於人體姿勢圖內 部的灰階值會做平均化的動作,所以我們亦可以從圖 2-3-2 的灰階分 佈圖發現,過了某個灰階值之後,其餘灰階值的分佈數量幾乎都差不 多,此時就是非背景的部分,故閥值就應設立在灰階值分布陡降的時 候。因此我們就去計算何時為灰階值數量變化最大的時候,則閥值就 訂為此灰階值,利用這個值來當作劃分影像二元化的門檻,大於此門 檻就定義為邏輯 1(即白色),小於此門檻就定義為邏輯 0(即黑色),

如此一來,就能夠確實的將經過邊緣檢測後的圖檔轉換成只具有黑或 白之二元形態圖檔。而圖 2-3-1 在經過閥值做二元轉化之後,其結果 為圖 2-3-3,判斷式可以寫成:

If P ,~

 

r c

> threshold ,then P ,~

 

r c

=1 (2-3-1)

If P ,~

 

r c

< threshold ,then P ,~

 

r c

=0 (2-3-2)

在本研究中,對於坐姿正的定義是以人體的上半身與下半身呈現 垂直的狀態(上半身是筆直且腿部是平放)與放鬆往後靠椅背當作是 坐姿正的狀態,往後對於姿勢的判讀都是以這兩類的姿勢做為坐姿正 與不正判斷的基準。在當二元化圖檔產生之後,整個人體姿勢圖就完 全與背景圖做分割,然而此時我們需要思考一個問題:判斷人體坐姿

(25)

的時候,對於腳的部分需要考慮嗎?例如圖 2-3-4 與 2-3-5,若是不看 椅子以下小腿的部分,只看椅子以上的部分,兩張圖的姿勢可以說是 一模一樣的!且人眼的直觀判斷上,我們會將這兩張圖視為相同的

「正」的姿勢,畢竟,當我們在判斷一個人的坐姿為正或不正的時候,

其實看的部分也只專注在人體的「上半身」是否有歪斜。因此我們可 以說:要判斷人體姿勢正與不正,只需要看上半身的部分即可。然而 對於上半身的說法,我們在此分成兩種類型的擷取方式:一類是較寬 鬆的上半身擷取,只刪掉小腿以下的部分,保留椅子以上的人體部 份;另一類是嚴格的上半身擷取,只看人體的軀幹部份,也就是刪掉 小腿、大腿以及手的部分,只剩下頭與身軀的部份。

要想從完整的人體姿勢二元圖型中去擷取出我們所要的目標上 半身圖型,必須要先知道小腿、大腿與手會分別分佈在什麼樣的區域 中。因此就先以一九宮格的框架來框出人體上半身的區域,之後再從 九宮格去對應所要刪除的區域為何,進而達到擷取圖形的動作。然而 九宮格要怎麼建立呢?在此我們建立九宮格的方式為從「標準坐姿」

下手。所謂的標準坐姿,就是用來判斷坐姿正與不正的依據坐姿。一 個判斷系統必須要先有一個標準所在,之後才能夠對於後續資料進行 判斷,因此本研究的坐姿判斷系統也必須要先建立起標準坐姿,才能 判斷現在所拍攝到的姿勢是正或不正。而標準坐姿的建立方式非常簡

(26)

單,就是在一開始的時候請受試者擺出一個正的坐姿,之後將此坐姿 進行去背景、高斯平滑濾波與二元化處理之後,結果就會如圖 2-3-6 所示。

當已經有了受試者的標準坐姿之後,接著就是對這個標準坐姿去 做九宮格的劃分。由於我們的目標圖型是人體的上半身,因此人體圖 形的頭部就令為九宮格的頂端,所坐的椅子的椅面就令為九宮格的底 端,這樣就能夠繪出整個九宮格的全高;而寬度部份,是將人體的胸 部到背部的距離(也就是人體軀幹的寬度)當作是一格的格寬,之後各 往左右延伸相同的距離,就能夠繪出整個九宮格的全寬,圖形如圖 2-3-7 所示。

由圖 2-3-7 可以看出要劃分的位置所在,接下來就是設定劃分的 條件。在進入九宮格之前,都是背景的部分,進入九宮格之後才開始 進入到人體的姿勢圖裡,此時橫向的畫素值會增多,因此我們設立一 條件當作判斷是否進入到人體姿勢圖的頭頂之中:當圖檔的每一行

(row)中累計的畫素值大於 0.1 最大寬度(0.1wmax)時,最小的行座標 即為頭頂處。因為已經經過二元化處理,所以背景部分的值為 0,唯 有在人體圖形內部才會有值,因此判斷式可寫成:

For r=1:m If

  

n

c

c r P

1

~ ,

> 0.1wmax,then min r is 九宮格頂部 (2-3-3)

(27)

其中 n 為圖形的列數(column number) ,m 為圖形的行數(row number) 而在九宮格的底部時,小於此底部為椅子以上的部份,大於此底 部為椅子以下小腿的部份,在從椅子接觸面進入到小腿時,此時人體 姿勢圖的畫素寬度會驟降很多,因此設立一條件當作判斷是否出去到 九宮格底部以外:當圖檔的每一行(row)中累計的畫素值大於 0.6 最大寬度(0.6wmax)時,最大的行座標則為九宮格底部。判斷式可寫 成:

For r=1:m If

  

n

c

c r P

1

~ ,

> 0.6wmax,then max r is 九宮格底部 (2-3-4)

同樣的,當從背景處進到背部時,此時的縱向畫素會驟增,而從 人體的圖形離開胸腹部的部分,此時縱向畫素會驟降,因此設立一條 件當作判斷判斷人體的背部與胸腹部:

For c=1:n If

  

m

r

c r P

1

~ ,

> 0 h.5 max,then min c 人體背部 (2-3-5)

If

  

m

r

c r P

1

~ ,

> 0 h.5 max,then max c 人體胸腹部 (2-3-6)

其中 n 為圖形的列數(column number) ,m 為圖形的行數(row number) 劃分出以上的四條線之後,就如圖 2-3-8 所示,之後再平分高度、

延伸寬度,最後九宮格就會變成圖 2-3-9 的樣子。如此一來,九宮格

(28)

的劃分動作就完成了。

根據九宮格的分布狀態可以看出大腿就出現在格 9 處,手會出現 在格 6 處,小腿為九宮格之下。寬鬆的上半身擷取就只需要刪掉小 腿,也就是把九宮格以下的部分的畫素都變成 0(黑色),如圖 2-3-10 所示。至於刪除椅子上的大腿與手的部分應該要如何刪除呢?由於一 般人的上臂圍約為大腿圍的一半,而大腿圍約為腰圍再少 10 毫米,

因此我們將大腿寬視為腰的寬度,手的寬度視為大腿寬的一半,而腰 的寬度即是我們剛剛畫分九宮格的格寬,也就是人體軀幹從背部到胸 腹部之間的距離。因此,如果格九中出現的人體圖形部分之行高開始 小於的小於九宮格格寬時,即視為進入大腿的部分;若格六中出現的 人體圖形部分的行高開始小於1

2九宮格格寬時,即視為進入手臂的部 分,當找出手臂與大腿之後,便將其畫素值視為 0(黑色),經過這 樣的刪除結果,最後人體的姿勢圖就只會剩下軀幹的部分而已,如圖 2-3-11 所示。

由標準坐姿所畫分出九宮格的大小,之後便將此九宮格定型,當 受試者陸續產生不同的坐姿時,我們則將完成九宮格產生左右移動來 框出人體的坐姿分布。因為椅子視為背景的部分所以不會改變,故高 度方面不需要做任何調整,至於左右要移多少呢?在標準坐姿時畫分 背部與胸腹部是藉由人體坐姿圖形的縱向畫素值大於最大高度的一

(29)

半當做劃分處,因此我們也利用同樣的方式先找出受試者之後的坐姿 在縱向畫素大於最大高度1

2處的左右格線,然後求這兩條線列座標的 中間值當做是中心九宮格新的中心點。如果是正的坐姿,則左右格線 切割出來的分佈圖會和標準坐姿圖是一樣的,會切在人體的背部與胸 腹部處,如果不是正的坐姿,則切出來的圖形就不會剛好是背部與胸 腹部處,由圖 2-3-12 可以看出坐姿不正時所切出來之結果,圖 2-3-13 為此坐姿刪除小腿之結果,圖 2-3-14 則為此坐姿刪除格 6 手的部分 與格 9 大腿部分之結果。

(30)

圖 2-1-1 影像座標示意圖

(a) 背景校正光線選取區塊

(31)

(b) 人體姿勢圖校正光線選取區塊

(c) 校正後相減去背景圖

圖 2-1-2 光度校正圖

(32)

圖 2-2-1 幕罩運算範圍示意圖

圖 2-2-2 一維的高斯函數圖

(33)

圖 2-2-3 二維的高斯函數圖

圖 2-3-1 高斯濾波後之圖形

(34)

圖 2-3-2 高斯濾波後圖形之灰階分佈

圖 2-3-3 經閥值判斷後之二元圖

(35)

(a) 原始圖形

(b) 二元圖形

圖 2-3-4 正姿圖形一

(36)

(a) 原始圖形

(b) 二元圖形

圖 2-3-5 正姿圖形二

(37)

(a) 原始圖形

(b) 二元圖形

圖 2-3-6 標準坐姿二元圖

(38)

(a) 九宮格判斷條件示意圖

(b) 九宮格劃分圖

圖 2-3-7 九宮格劃分預想圖

(39)

圖 2-3-8 九宮格實際架構圖

圖 2-3-9 九宮格實際完成圖

(40)

圖 2-3-10 刪除小腿之上半身圖

(a) 欲刪除之部分

(41)

(b) 實際刪除之結果

圖 2-3-11 刪除小腿、手與大腿之上半身圖

圖 2-3-12 非標準坐姿劃分九宮格圖

(42)

圖 2-3-13 非標準坐姿刪除小腿之上半身圖

圖 2-3-14 非標準坐姿刪除小腿、手與大腿之上半身圖

(43)

第三章 類神經網路

此章節是人體坐姿判讀流程的第二步驟,本章節會先介紹生物神 經網路,之後介紹組成類神經網路的結構與機制,最後則是介紹本研 究判斷系統所使用的倒傳遞類神經網路系統與其內部構造。

類神經網路是現今非常重要且也廣為人使用的一項技術,屬於人 工智慧(Artificial Intelligence,AI)的一個分支。人工智慧的發展最 早可以追朔到第二次世界大戰時期,在當時為了解決軍事情報上的問 題,科學家們於是就研究發展出具有智慧的機器。早期的人工智慧研 究形式主要在於模仿人類逐步思考與推演的過程,像玩棋盤遊戲一樣 推衍如何走下一步的思考與判斷過程。而到了 1980 與 1990 年代之 後,統合機率與經濟學的概念,更進一步發展出能夠解決具有不確定 性資訊的方法。而現今所謂的人工智慧,是指將電腦科學、心理學、

生物學、工程學、數學等知識作為基礎的學科,把人的智能加以電腦 化的過程,使電腦如同人一般也能夠同時具有思考、學習與解決問題 之能力。常見的應用在於感測器、專家系統、語音辨識、人臉辨識系 統、機器手臂、指紋辨識等等。類神經網路就是在人們了解腦的思考 與學習模式之後,所提出的一套計算模式。其目的在於希望能夠藉由 具有大量計算能力的電腦,來模擬出人類神經細胞網路運作過程的一

(44)

套科學運算方法。

3-1 生物神經網路

類神經網路源自於模擬人類腦神經系統思考與判斷方式,因此若 要了解類神經網路,則必須先探討與了解生物神經系統的運作方式。

在人體中,神經系統掌管著人體所有的行為:從起床時的刷牙、

洗臉,動手拿起早餐、吃早餐,搭車時的站立、走路,中午坐在椅子 上休息,到晚上上床睡覺等任何動作,全都離不開神經系統。神經系 統就是人體中的一個管制中心,同時監督、調整與管理我們身體的各

個部分。若是依照功能的角度來看,神經系統主要提供三大項功能:

1. 受器接收訊號(sensory input)

受器接受訊號即是指身體的感受器將對於外界所感受到的刺激 與資訊傳入神經系統中。

2. 整合(integration)

整合即是對於傳入的訊號做出分析與處理,進而判斷出對於此時 外界之刺激應該要做出怎樣的動作或防禦措施來回應。

3. 動器產生動作(motor output)

動器產生動作則是指整個神經系統的輸出,由於在整合過程中已 經決定好要做出什麼樣的動作,則神經系統就會將此判斷結果的 訊息傳給動器,讓身體的動器對外界的刺激做出適當的回應。

(45)

如圖 3-1-1 所示,眼睛看到一杯水即是眼睛中光的感受器收到的 訊號,並將此訊號傳給神經系統;整合即是當大腦接受到此訊號 時,做出要伸手拿起杯子喝水的決定;而當神經系統將要拿起杯 子喝水的訊息傳遞給手部的肌肉,則手就會伸出去拿起杯子來。

主宰像上述這樣一連串由受到刺激到產生相對回應的過程,就是 神經系統作用的範疇。

而構成神經系統的基本單元為神經元(neuron),又稱神經細胞。

每一個神經元都包含了三個主要的部分:細胞本體(cell body)、樹 突(dendrite)和軸突(axon),如圖 3-1-2 所示。神經元中間為細胞 本體,內含有細胞核(nucleus)和細胞質(cytoplasm)等等構造,

主要目的在於維持神經細胞的基本所需,如蛋白質的合成和能量的製 造。樹突和軸突則是神經細胞特化的突起結構,此兩者的差別在於對 訊號傳遞的方向與外形。就傳遞方向來說,樹突的作用是蒐集從其他 神經元傳來的訊息並將其由樹突突起的末端傳入細胞本體中;軸突則 是將細胞本體送出來的訊息傳送至其他神經元中。就外形來說,樹突 由於為了要增加從外界接受各種刺激的能力,導致在細胞本體的表面 上產生了許許多多的樹突;相反的,在大部分的神經元中,只會有一 支長長的軸突,但軸突在末端會分成許多分支,目的在於將訊號能夠 有效的傳遞給下一個神經元。

(46)

而 在 軸 突 末 端 特 化 的 許 多 分 支 , 稱 之 為 突 觸 末 梢 ( synaptic terminal),突觸末梢會藉由釋放神經傳導物質(neurotransmitter)的 方式來將神經訊號傳給另一個神經元。將神經訊號傳出的軸突末梢稱 為前突觸部位(presynaptic site),在下一個神經元接收神經訊號的部 位稱為後突觸部位(postsynaptic site),此兩者合起來統稱為突觸

(synapse),此結構如圖 3-1-3 所示。在人體內有約有 109~1010個神 經元,神經元間之突起相互連接形成非常複雜的網路,而這樣複雜的 神經網路即是人體內所有訊息傳遞和處理的系統。

神經元傳遞訊息的方式主要是藉由化學物質的傳遞來達成,其中 傳遞的內容是一種電的信號。當生物體沒有傳遞訊號時,會說神經元 是處於休止狀態(resting state),此時細胞膜內電荷總和為負電,細 胞 膜 外 電 荷 總 和 為 正 電 , 細 胞 膜 內 膜 外 的 電 壓 差 稱 為 膜 電 位

(memberane potential),如圖 3-1-4 所示,而細胞在休止狀態下時膜 電位為-70mV。

而當神經元接受外界刺激,或者是從其他神經元傳來的訊號,都 會使得神經元表面的離子產生流動。若在某個時刻,當一神經元所受 到的刺激使膜電位值超過了此神經元的門檻值(threshold,膜電位的 門檻值為-55mV),則該神經元就會產生動作電位(action potential),

如圖 3-1-5 所示,進入一種特定形式的改變。

(47)

由圖 3-1-5 可看出,所謂的動作電位指的就是膜電位急速上升後 又下降至略低於休止狀態膜電位的一種過程,在該神經元膜電位急速 上升的期間,可以引發附近其他神經元的膜電位超過門檻值,因此訊 號就會達到傳遞出去的效果。其生成原因是主要是因為 Na+離子和 K+離子的流通。細胞膜上有許多種通道,其中讓離子通過的就稱為離 子通道(ion channel)。人體細胞中所需的 K+離子量大於 Na+離子量,

因此 K+離子濃度是細胞內大於細胞外,Na+離子則是細胞內小於細胞 外。

當受到刺激時,會有一部分的 Na+離子通道開啟,讓 Na+離子通 過 Na+離子通道進入細胞內,提升細胞內電壓值,使得膜電位值會上 升。而有另外一部分的 Na+離子通道是要在膜電位值上升時才會被打 開的,因此在有一部分的 Na+離子進入細胞內時,膜電位值會上升,

之後就會被啟動這一部分的 Na+離子通道,進而又會再去開啟更多因 膜電位值上升才會打開的 Na+離子通道,於是就變成一種正向的回饋 作用。是故當外界刺激讓膜電位上升到門檻值時,就會引發後續一連 串正向回饋現象,反之,則不會。

若外界刺激能讓膜電位上升到門檻值,此時 Na+離子通道的正向 回饋會使得 Na+離子通道大量打開,引發細胞外的 Na+離子順著濃度 差大量進入細胞內,當細胞內外 Na+離子濃度幾乎一致時,則 Na+

(48)

子通道就會關閉,此時膜電位會上升到約為+50mV。在膜電位上升至 約為+30mV 時,K+離子通道會被開啟,由於在細胞內 K+離子濃度是 大於細胞外的,所以 K+離子通道開啟主要目的是將 K+離子由細胞內 流出到細胞外,藉由讓細胞內的正離子離開到細胞外的方式,來將膜 電位回復到休止狀態的-70mV。然而,由於 K+離子通道開啟所需的 反應時間比 Na+離子通道多得多,因此開啟與關閉的速度皆比 Na+離 子慢的多。故從 K+離子通道在膜電位為+30mV 時接到訊號到真正完 全開啟時,膜電位已經上升到約為+50mV;而當膜電位回復至原本休 止狀態(膜電位為-70mV),K+離子通道從接收到訊號至真正完全關 閉時,膜電位已經降至-75mV。因為 Na+離子通道與 K+離子通道皆已 關閉,故最後細胞需要利用細胞膜上的鈉鉀幫浦(sodium/potassium pump),藉由消耗能量的方式傳遞細胞內外的 Na+與 K+離子,將膜電 位調回至休止狀態。

整個動作電位之產生符合了全有全無律(all or none event),只 要膜電位到達門檻值,不論是剛好到達或是超出許多,所產生的動作 電位都是一樣的,若沒有到達門檻值,則完全沒有動作電位之產生。

而生物對新事物的學習方式,基本上是藉由神經元間連結強弱的 改變或者是讓原本沒有連結的神經元間產生新的連結,以此來達到學 習新事物的能力。例如說:在原本平坦的房間地板中凹陷了一個洞,

(49)

由於每天行走時往往都會不小心踏到此凹洞,自然就會將腳接受到的 訊息轉成訊號傳進大腦中,不斷學習,大腦神經元就會產生新的連 結,於是將使得人從原本的不習慣踏到凹洞到慢慢習慣於腳下的這種 觸感。因此,要是之後凹洞被填平了,又變回了最初的平地,本該是 習慣平地的自己與雙腳,反而會變得不習慣平地給雙腳的一切觸感,

那是因為平地的刺激太久沒有存在,會使得記憶消退了,也就是大腦 神經元彼此間的連結變弱了,而凹洞的連結卻被建立了起來。

生物對於環境的改變有非常良好的適應性,且不需要用到任何的 數學程式計算,只需要給予數次上的訓練,當神經元間的連結產生之 後,則目標就完成了。

3-2 類神經網路

類神經網路是一模仿人體神經系統傳導方式的電腦網路系統。由 於神經元是神經系統中最小的傳遞以及處理訊息單位,故在類神經網 路中,也採用了神經元的概念,人工神經元就如同神經系統中的神經 元一般,為運算訊息的基本單元體。圖 3-2-1 為一個人工神經元之模 型。人工神經元主要分成三個部分:

1. 一組權重(對應至生物神經元的突觸部分):

權重wjn主要是模擬不同神經元間的連結程度。由於各輸入訊號 xx 、…、x ,進入到神經元中時,會因為彼此的重要程度不

(50)

同,則各自就會對應到不同的權重值,當權重wjn為正值且越大,

就代表這兩個神經元間的連結與增益效果都越強;當權重為負值 且越大,則代表這兩個神經元間的連結與抑制效果都越強;當權 重wjn值越接近 0,則代表這兩個神經元間的連結越弱。

2. 輸入訊號疊加器(對應至生物神經元的細胞本體部分): 在於模擬當生物神經元接受到自外界傳來的刺激時,膜電位的總 變化量,也就是指當輸入訊號經過不同的權重(連結)加權之後,

以疊加器將所有訊號做線性加總之結果。

3. 活化函數(對應至生物神經元的門檻值部分):

原本是用來模擬神經元的門檻值,但現今不只是用來模擬門檻 值,也被用來限定人工神經元輸出值的大小範圍,因此活化函數 又可以稱為壓制函數。通常一個神經元的輸出活化函數是將輸出 值做正規化的動作,輸出範圍為[0,1]或者是[-1,1]這兩種區間。

此外,人工神經元除了以上的三個部份之外,通常會再額外給定 一個偏權值,寫成bj的形式。偏權值主要的目的在於控制活化函數的 網絡輸入,當偏權值為正的,則就代表增益輸入值,若偏權值為負的,

就代表抑制輸入值。就數學上而言,一個神經元 j 對於訊息的處理可 以用以下公式表示之:

n

j ji i j

net w x b

(3-2-1)

(51)

( )

j j

yf net

(3-2-2) 其中

y

j 為第 j 個神經元輸出訊號,

x

i 為輸入訊號,

wji為神經元 j 對 於第 i 個輸入值的突觸加權值,netj為輸入訊號後訊號線性疊加器的 輸出,bj 為偏權值, f( ) 為活化函數, f net( j)為經過活化函數作用 之後的輸出值,也等於

y

j

常見的活化函數有下列四種形式,如圖 3-2-2 所示:

1. 門檻值函數 ( ) 1

j 0 f net

 

0 0

j

j

if net if net

(3-2-3)

2. 片段線性函數

1 ( ) 1

2 0

j j

f net net



  



1 2

1 1

2 2

1 2

j

j

j

if net

if net

if net

 

   

 

(3-2-4)

3. S 形函數

(3-2-5)

 

j netj

net e

f

  1

1

4. 雙曲線函數

( j) tanh( j)

f net

net

(3-2-6) 活化函數一般都不為線性函數,目的是為了保留非線性特性,因

(52)

為若是輸入資料有非線性特性而活化函數為線性函數時,則會嚴重影 響到後續類神經網路模擬與輸出時的結果。

利用人工神經元所組成的類神經網路,其運算能力和網路架構以 及訓練的學習演算法都有非常大的關係。網路架構的型態會影響到系 統的學習能力,而學習演算法則是藉由類似經驗法則的方式來調整各 個神經元間彼此的連結(權重)強弱關係。因此,一個好的類神經網 路的建立,必須從網路架構與學習演算法這兩方面下手。

3-2-1 類神經網路系統架構

類神經網路的架構型態是描述整個類神經對於外來訊息如何處 理的過程,當一類神經網路中的神經元數目太少,則會無法解決較複 雜的問題,若神經元太多,除了需花費較多時間之外,還有可能會產 生過度敘述(over-fitting)的現象。因此,神經元數目的多寡,一般 是根據問題的複雜程度來決定,而若要知道確切的神經元數目,除了 參考過去學者們的經驗累積之相關研究結果之外,至目前為止所能採 取的方式是不斷的利用試誤法(try and error)才能得知。

建構一類神經網路除了神經元數目需要掌握之外,再來是需要決 定網路間的連結形式為何。現今類神經網路的連結型態主要可分為前 饋式類神經網路(feedforward network)與回饋式類神經網路(feedback network)這兩大類。

(53)

前饋式類神經網路之架構如圖 3-2-3 所示,是一種只往前傳的單 一連結方向之型態,因此所有的神經元都不會將資訊往後傳。而前饋 式類神經網路有可以細分為兩個類別:一是單層前饋式類神經網路

(single-layer feedforward networks),另一種是多層前饋式類神經網 路(multilayer feedforward networks)。

1. 單層前饋式類神經網路

這是形式最簡單的類神經網路,架構如圖 3-2-4 所示。所有的神 經元都平行的排成一列,訊息會先經過一個權重的處理再傳入神經元 內,接著訊息會在神經元內做加總,最後再搭配著活化函數後將訊息 輸出。所謂的「單層」表示訊息只經過一層的神經元處理,由於輸入 層並沒有對訊息做任何處理,所以單層指的是輸出層。

2. 多層前饋式類神經網路

多層前饋式類神積網路和單層前饋式類神經網路的最大不同即 是在於,多層前饋式類神經網路中含有不只一層的神經元,也就是除 了最後一層的「輸出層」之外,中間還多了至少一層的「隱藏層」,

架構如圖 3-2-5 所示。

隱藏層的功能主要為調節的作用,目的在於解決單層神經元所無 法解決的問題,例如高維度的非線性問題或是邏輯電路中的 XOR 與 NXOR 計算等,因為多了隱藏層的處理,將神經元做了更多額外的連

(54)

結,從圖 3-2-5 可以看出:前一層的神經元會和所有下一層中每一個 神經元都有連結,我們稱之為完全連結(fully connected),這樣的連 結會使得類神經網路具有較全面性的觀點。

然而,不管是單層前饋式類神經網路或是多層前饋式類神經網 路,同一層的神經元是不會彼此有所連結的,也就是連結方向是層層 遞進且只會往下一層的方向傳遞。

回饋式類神經網路和上述前饋式類神經網路的不同處在於傳遞 的方向,如圖 3-2-6 所示,回饋式類神經網路的傳遞方向除了可以將 訊息往下一層傳之外,也可以同一層間的神經元彼此互傳,更甚至可 以是下一層的神經元將訊息傳到上一層神經元。回饋式類神經網路很 常被用來處理動態平衡或者是具有時間性質的訊息,例如降雨量的累 積,因為在神經元彼此間傳遞訊息時會產生一時間延宕,如圖 3-2-7 所示,不同時間所產生的訊息既是這一刻的輸出又是下一時刻的輸入 值,因此回饋式類神經網路往往又被稱為遞迴式網路。回饋式類神經 網路因為具有不斷回饋的能力,會加強網路的學習能力與表現效果,

尤其是非線性動態系統,回饋式類神經網路的詮釋能力幾乎是最好 的。

3-2-2 類神經網路學習演算法

由於類神經網路就是以模擬人的大腦目的,而人要學習一項新事

(55)

物憑藉的就是從經驗法則中去延伸,學習演算法就是要模擬這樣的過 程。在上述章節 3-1 部分提過:生物對新事物的學習能力,是根據神 經元間連結強弱的改變或者是讓原本沒有連結的神經元產生新的連 結。因此學習演算法可以說是藉由調整權重的方式來模擬各神經元間 彼此連結強度改變的現象。因此從改變權重值的角度來看,學習演算 法主要可以分成兩大類: 非監督式學習(unsupervised learning)與 監督式學習(supervised learning),兩者差異如圖 3-2-8 所示。

非監督式學習是從觀察和發現中學習的一種過程。因為一開始並 不知道標準答案為何,所以是藉由觀查到很多現象之後才發現其中的 連結。例如牛頓是因為觀察到蘋果成熟會往下掉,之後才進而發現地 心引力,然而在牛頓之前並沒有人知道這個定理的存在。因此非監督 式網路學習演算法中也是一樣,一開始並沒有給予何謂「對」的答案,

也就是沒有目標輸出值,因此就無法從誤差的角度去改善輸出值,只 根據現有的資料中去找出內部的規律,故非監督式網路常被應用在尋 找輸入資料的分類上。

常見的非監督式學習演算法有:赫賓學習法(Hebbian learning rule)、贏者全拿學習法(Winner-Take-All learning rule)等等。

1. 赫賓學習法(Hebbian learning rule):

是最早發現且最有名的學習方式,此方法之學習示意圖如圖

(56)

3-2-9 所示。赫賓學習法是由心理學者赫賓(Hebbian,1949)提出的 概念所發展出來的:假設神經元 A 的軸突足以刺激鄰近神經元 B 時,

若不斷的給予刺激會激發神經元 B 的新陳代謝,會使神經元 A 對於 神經元 B 的效果增加。

此概念後來被 Stent(1973)推導成兩個神經元傳送法則:

1. 若兩個連結的神經元同時被激發,則彼此間的連結強度會增 加。

2. 若兩個連結的神經元不是同時被激發,則連結強度會變弱或 者是消失。

因此我們根據上述法則可以知道:兩個神經元的連結強度與這兩 個神經元的輸入與輸出值有所關係。假設輸入的值總共有 n 個,設wji

表示第 j 個神經元與第 i 個輸入之連結權重,此時輸入的值為xi ,而 第 j 個神經元輸出值為

y

j,權重對於第 k 次的迭代修正值為:

( ) ( ) ( )

ji j i

w ky k x k

(3-2-7) 其中為一常數,稱為網路學習速率,目的用來調整每一次迭代修正 值的大小,根據圖 3-2-9 中我們可以看出第 j 個神經元的輸出值是權 重向量和輸入向量做線性相乘積加總的函數,即

n

i

i ji

j w x

net

1

X WjT

(3-2-8)

( )

j j

yf net (3-2-9)

數據

圖 1-3-1  人體坐姿判斷系統流程圖
圖 2-1-2  光度校正圖
圖 2-2-1  幕罩運算範圍示意圖
圖 2-3-2  高斯濾波後圖形之灰階分佈
+7

參考文獻

相關文件

The research proposes a data oriented approach for choosing the type of clustering algorithms and a new cluster validity index for choosing their input parameters.. The

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

7 we define the critical exponents characterizing the singular behaviour of the parti- tion function and the susceptibilities of the order parameters as

Define instead the imaginary.. potential, magnetic field, lattice…) Dirac-BdG Hamiltonian:. with small, and matrix

Finally, we use the jump parameters calibrated to the iTraxx market quotes on April 2, 2008 to compare the results of model spreads generated by the analytical method with

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in

倒傳遞神經網路的演算法使 SPOT 假色影像轉換到 SPOT 自然色影 像。影像的結果。(3)以不同天的 SPOT 假色影像進行網路回想,產 生

In this thesis, we develop a multiple-level fault injection tool and verification flow in SystemC design platform.. The user can set the parameters of the fault injection