• 沒有找到結果。

基於MPEG-7技術與使用群眾註記方法建置個人圖像檢索資料庫 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "基於MPEG-7技術與使用群眾註記方法建置個人圖像檢索資料庫 - 政大學術集成"

Copied!
89
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學數位內容碩士學位學程 Master's Program in Digital Content and Technologies National Chengchi University. 碩士論文 Master's Thesis. 立. 政 治 大. ‧ 國. 學. 基於 MPEG-7 技術與使用群眾註記方法建置個人圖像 檢索資料庫. ‧. Building Personal Image Retrieval Database with a MPEG-7. y. Nat. n. al. er. io. sit. Based Crowdsourcing Annotation Methodology. Ch. engchi. i n U. 研究生:鄭博育 指導教授:郭正佩 陳聖智. 中華民國一○一年十二月 December, 2012. v.

(2) Master's Program in Digital Content and Technologies National Chengchi University. Master's Thesis. 治Database with a MPEG-7 Building Personal Image政 Retrieval 大. 立 Based Crowdsourcing Annotation Methodology ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Graduate Student:Po-Yu Cheng Advisor:Pei-Jeng Kuo Sheng-Chih Chen. December, 2012.

(3)

(4)

(5) 謝誌 能夠完成這篇論文的寫作,要感謝的人真的很多,我想以最簡短的內容表達 我對你們的謝意。. 首先,最感謝的還是郭正佩與陳聖智二位指導教授的細心指導,以及校外口 委郝宗瑜教授對於論文寫作的提點。感謝正佩老師對於我的論文研究方向與內容 採取自由開放的方式,但又能在偏離的主軸的時候及時導回,帶領我投稿國外研 討會,讓我見識到這個世界有多寬廣,但後遺症就是從此中了想出國的毒;感謝. 治 政 大 生們打成一片,除了教導在論文研究的方法之外,也教導我待人處事的道理,而 立 且還要能夠忍受常常心思慌亂的我三不五時有疑問就簡訊、E-Mail 即時請教老師. 聖智老師對於論文指點的鉅細靡遺,盡心傳授論文研究與撰寫的方法且與我們學. ‧ 國. 學. 問題,現在想想真的是非常的對不起,也真的非常的虧欠老師;非常感謝郝宗瑜 老師在論文的審視方面,總是能夠點出我的盲點,讓整篇文章的論述更為完整。. ‧ sit. y. Nat. 接下來我要感謝的是 X-Mind 研究計畫、所有教導過我的老師、學程助教以 及學程的同學。感謝 X-Mind 研究計畫的研究資料及該期成員幫我填寫的問卷,. io. n. al. er. 讓我的研究更為完整;感謝在政大所有教導過我的老師,有你們的細心教導,帶. Ch. i n U. v. 領我進入研究論文相關的知識累積;感謝學程的靜媚助教,提點我相關的畢業程. engchi. 序,常常在千鈞一髮之際協助相關的流程處理;感謝學程的同學,在課堂的分工 合作的時光,都是在研究所就讀時最珍貴的學習與歡樂的時刻。. 最後我想要感謝的是一直以來持續地支持我的家人與陪我渡過低潮的蔣 蔣。有你們的支持與陪伴,讓我在研究所時期打工有時經濟不濟的時候有後援, 在最低潮的時候有人可以傾訴。由衷感謝!. 鄭博育 謹誌於 東京 中華民國一○一年十二月三十一日 i.

(6) 摘要 隨著個人數位影音紀錄裝置的日益普及,每個人所拍攝的照片與影片都是逐 年快速地增加。然而在存放照片與影音檔案的經驗裡,當檔案的數量越來越多的 時候,檔案管理以及如何快速地找出自己想要的照片便成了一大難題。除此之外, 存放照片檔案的硬碟空間遭受自然災害與人為因素所造成的毀損,則是導致檔案 遺失的情形發生。. 政 治 大 分享與儲放,然而目前許多的網路個人相簿系統發現有以下幾項缺點:(1)情境 立. 圖像可以藉由註記標籤的方式加以檢索,而照片也能夠上傳到網路相簿加以. ‧ 國. 學. 感知(Context-Awareness)標籤不足,(2)缺少群眾註記標籤功能,(3)無法搜尋相簿 裡的相片。於是本研究提出以 MPEG-7 為基礎的架構,擴增其 XML 文字標籤的. ‧. 方法加以描述每張照片的資訊,提供更豐富的標籤資訊以便於相片檢索的方法。. sit. y. Nat. al. er. io. 本研究的圖像資料庫檔案以智慧型手機做為主要的獲取來源,藉由智慧型手. v. n. 機的感知器(Sensor)提供自動註記標籤、協助註記標籤以及自行輸入內容的標籤。. Ch. engchi. i n U. 此外,系統也藉由 Facebook 社群平台,達到群眾註記標籤的功能。於是透過圖 像註記標籤的方式,達到圖像檢索的目的。. 關鍵字:社會化標籤、圖像檢索、MPEG-7、群體外包、情境感知. ii.

(7) Abstract. With the growing popularity of personal digital photography and video recording devices, the number of photographs and videos each person takes increases tremendously every year. However, storing such large quantity of digital files can cause major problems in archive management and retrieval. The occurrences of natural disasters and man-made accidents also contribute to the increasing trend of archive loss in data and photograph storage devices.. 立. 政 治 大. Although images uploaded on web albums for storing and sharing can be retrieved. ‧ 國. 學. using annotation tags, many network personal albums systems were found to have the following disadvantages: (1) lack of context-awareness tags; (2) lack of. ‧. crowd-annotate tags functions, and (3) lack of annotated tags-search functions. Thus,. y. Nat. sit. this paper proposes a search architecture based on MPEG-7 and an expanded XML. n. al. er. io. schema of the MPEG-7 architecture to describe photographic information and to. i n U. v. provide richer information annotations for photograph retrieval.. Ch. engchi. This study uses images files obtained from smart phones to examine image retrieval through image-annotated tags. Four forms of annotation tags were examined: automatic annotations, semi-automatic annotations and user-generated annotations by smart phone sensors, as well as crowd-generated annotations on Facebook.com.. Keyword: Social Tagging, Image Retrieval, MPEG-7, Crowdsourcing, Context-Awareness. iii.

(8) 目錄 謝誌................................................................................................................................. i 摘要................................................................................................................................ ii Abstract ......................................................................................................................... iii 圖目錄........................................................................................................................... vi 表目錄........................................................................................................................... ix. 第一章 緒論.................................................................................................................. 1. 政 治 大. 第一節 研究背景...................................................................................................... 1 第二節 研究動機...................................................................................................... 3. 立. 第三節 研究問題...................................................................................................... 5. ‧ 國. 學. 第四節 研究目的...................................................................................................... 6 第二章 文獻探討........................................................................................................ 10. ‧. 第一節 群體外包(Crowdsourcing) ........................................................................ 10. y. Nat. 第二節 生命紀錄(Life Logging) ............................................................................ 11. io. al. er. MPEG-7 ..................................................................................................... 15 緣起............................................................................................................ 15 MPEG-7 規格 ............................................................................................ 16 MPEG-7 相關的研究 ................................................................................ 17 小結............................................................................................................ 19 標籤的需求................................................................................................ 19 群體外包的運用........................................................................................ 20. n. 第四節 2.4.1 2.4.2 2.4.3 第五節 2.5.1 2.5.2. sit. 第三節 圖像檢索(Image Retrieval) ....................................................................... 14. Ch. engchi. i n U. v. 第三章 研究方法........................................................................................................ 22 第一節 系統架構.................................................................................................... 22 3.1.1 照相程式.................................................................................................... 22 3.1.2 照片檔案伺服器........................................................................................ 24 3.1.3 Facebook 社群網絡的應用 ....................................................................... 25 第二節 軟體開發與設計........................................................................................ 26 3.2.1 使用者介面架構........................................................................................ 27 iv.

(9) 3.2.2 使用者介面設計........................................................................................ 27 第三節 研究設計.................................................................................................... 30 3.3.1 前期測試.................................................................................................... 30 a.實驗設備與軟體 ........................................................................................... 31 b.實驗對象與實驗時間................................................................................... 31 c.發現與討論 ................................................................................................... 32 d.問卷調查使用者標籤註記行為................................................................... 32 3.3.2 建立圖像資料庫........................................................................................ 35 a.實驗設備與平台 ........................................................................................... 35 1)手機端應用程式 ........................................................................................ 36. 政 治 大. 2)檔案伺服器 ................................................................................................ 41 3)本研究之 MPEG-7 架構定義 .................................................................... 43. 立. b.實驗程序....................................................................................................... 45. ‧ 國. 學. 第四章 系統分析與探討............................................................................................ 46 第一節 使用 MPEG-7 取代 EXIF 資訊 ................................................................ 46. ‧. 第二節 定位功能的改善........................................................................................ 47. y. Nat. 第三節 使用者介面與相片質感的改善................................................................ 48. sit. 第四節 使用者操作流程........................................................................................ 50. n. al. er. io. 第五節 使用者案例................................................................................................ 54. i n U. v. 第六節 小結............................................................................................................ 60. Ch. engchi. 第五章 結論與建議.................................................................................................... 61 第一節 結論與貢獻................................................................................................ 61 第二節 後續研究與研究限制................................................................................ 62 5.2.1 研究限制.................................................................................................... 62 5.2.2 後續研究.................................................................................................... 63 參考文獻...................................................................................................................... 64 附錄、智慧型手機照相行為問卷.............................................................................. 69. v.

(10) 圖目錄 圖 1-1 Flickr 社群內最熱門的相機 ............................................................................. 4 圖 1-2 研究架構圖........................................................................................................ 9 圖 2-1 以時間流的方式呈現照片資料庫.................................................................. 12 圖 2-2 以發生的事件為分割的圖像分類.................................................................. 13 圖 2-3 MPEG-7 標準的範圍 ...................................................................................... 16 圖 2-4 MPEG-7 元素架構圖 ...................................................................................... 18 圖 2-5 MDS 描述工具 ................................................................................................ 18. 治 政 圖 2-6 標籤需求概念架構圖...................................................................................... 20 大 立 圖 2-7 結合群體外包與標籤的圖像檢索資料庫...................................................... 21 ‧ 國. 學. 圖 3-1 照相程式運作流程圖...................................................................................... 24. ‧. 圖 3-2 伺服器資料存放類型...................................................................................... 24 圖 3-3 Social Tagging 示意圖..................................................................................... 25. y. Nat. io. sit. 圖 3-4 系統架構圖...................................................................................................... 26. n. al. er. 圖 3-5 UI 架構圖 ........................................................................................................ 27. Ch. i n U. v. 圖 3-6 讀取動畫頁面.................................................................................................. 28. engchi. 圖 3-7 照片顯示列表.................................................................................................. 28 圖 3-8 照相頁面.......................................................................................................... 28 圖 3-9 拍完照的預覽畫面.......................................................................................... 28 圖 3-10 照片觀看頁面................................................................................................ 29 圖 3-11 照片上傳頁面................................................................................................ 29 圖 3-12 照片搜尋輸入頁面........................................................................................ 29 圖 3-13 照片搜尋結果................................................................................................ 29 圖 3-14 照相軟體開啟次數之時間分布圖................................................................ 32 圖 3-15 利用社群網站分享照片的頻率.................................................................... 34 vi.

(11) 圖 3-16 上傳照片時,喜歡為照片加上標籤的使用者分布圖................................ 34 圖 3-17 如果系統有建議的標籤項目可以選擇,會為照片選擇加上適當的標籤 的使用者分布圖............................................................................................ 34 圖 3-18 相機拍攝預覽................................................................................................ 38 圖 3-19 預覽照片產生中............................................................................................ 38 圖 3-20 儲存照片(照片標題) ..................................................................................... 39 圖 3-21 儲存照片(拍照心情) ..................................................................................... 39 圖 3-22 照片列表........................................................................................................ 39. 政 治 大 圖 3-24 照片功能選項................................................................................................ 40 立 圖 3-23 照片展示........................................................................................................ 39. 圖 3-25 照片資訊........................................................................................................ 40. ‧ 國. 學. 圖 3-26 上傳到 Server ................................................................................................ 40. ‧. 圖 3-27 上傳到 Facebook ........................................................................................... 40. y. Nat. 圖 3-28 檔案伺服器存放照片與 MPEG-7 檔案 ....................................................... 42. er. io. sit. 圖 3-29 透過網頁查詢檔案伺服器所存放的照片.................................................... 42 圖 3-30 本研究之 MPEG-7 檔案 ............................................................................... 44. al. n. v i n 圖 4-1 使用者操作流程圖.......................................................................................... 51 Ch engchi U 圖 4-2 拍攝照片.......................................................................................................... 51 圖 4-3 協助註記心情標籤.......................................................................................... 52 圖 4-4 上傳照片至 Facebook ..................................................................................... 52 圖 4-5 查看 Facebook 照片上的留言 ........................................................................ 52 圖 4-6 上傳照片與 MPEG-7 檔案至 Server .............................................................. 53 圖 4-7 擷取已上傳至 Facebook 上的照片留言成為標籤 ........................................ 53 圖 4-8 寫入群眾註記標籤至 MPEG-7 檔案 ............................................................. 53. 圖 4-9 Server 以關鍵字搜尋照片 .............................................................................. 54 vii.

(12) 圖 4-10 藉由 Facebook 的好友留言產生群眾註記標 .............................................. 55 圖 4-11 Facebook Graph API 查詢 ............................................................................. 56 圖 4-12 使用者在美國旅遊拍攝的照片.................................................................... 57 圖 4-13 本研究的搜尋介面........................................................................................ 58 圖 4-14 Google Images 搜尋飛機照片 ...................................................................... 59 圖 4-15 搜尋平拍照片結果........................................................................................ 59 圖 4-16 搜尋仰拍照片結果........................................................................................ 59. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. viii. i n U. v.

(13) 表目錄 表 1-1 圖片搜尋網站比較表........................................................................................ 7 表 2-1 使用智慧型手機自動加註標籤之演算法比較.............................................. 13 表 2-2 TBIR 與 CBIR 比較 ........................................................................................ 15 表 2-3 MPEG-7 結構註記型態 .................................................................................. 19 表 3-1 系統開發工具.................................................................................................. 36 表 3-2 本研究 MPEG-7 標籤定義 ............................................................................. 44 表 4-1 EXIF 資訊 ........................................................................................................ 47. 治 政 表 4-2 GPS 與網路定位比較表 ................................................................................. 48 大 立 表 4-3 輸入各式關鍵字搜尋結果.............................................................................. 58 ‧ 國. 學. 表 4-4 本研究標籤與用途.......................................................................................... 60. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. ix. i n U. v.

(14) 第一章 緒論 第一節 研究背景 1998 年,微軟公司研究員 Gordon Bell 和 Jim Gemmell 共同進行了一項「我 的生命位元(MyLifeBits)」的研究計畫,研究人們如何把自己的一生中所有的資 料記錄數位化並存放在網路空間,同時 MyLifeBits 也是用來存放個人資料數位 化的資料庫名稱,可以存放個人的文章、書藉、信件、備忘字條、照片、音樂、 家庭影片…等等。Gordon Bell 一直致力於紀錄所見所聞,於是在胸前戴了一台 名為 SenseCam 的機器藉此方便隨時紀錄,再把資訊移入電腦內儲放,他稱之為. 政 治 大. 「電子記憶」 ;並認為如此可以讓自己的記憶安全地保存下來。Bell(2010)更預測,. 立. 大約到了 2020 年,人的一生都將傳到網路上,可供使用者搜尋。如同智慧型手. ‧ 國. 學. 機能夠利用 GPS 晶片接收地理位置的資訊,結合雲端資料庫傳遞地圖資訊,以 達到顯示使用者所處的地理位置。而網際網路提供的「雲端」資料庫服務,造就. ‧. 了廉價的數位記憶儲存空間,也讓這種記憶方式成為了可能。. sit. y. Nat. n. al. er. io. 網站的發展從過去僅由單向提供與接收網頁資訊的 Web 1.0 型態演進為多人. i n U. v. 創作的 Web 2.0 型態,讓網路的使用者成為資訊內容的創造者與傳遞者(Marlow,. Ch. engchi. Naaman, Boyd, & Davis, 2006)。Web 2.0 最主要的概念在於互動與個人化,使用 者從原本被限制為只能瀏覽網站所發佈的內容,進而成為創造內容、共同創作發 表以及寫下回應看法,與其它的使用者進行更多的互動。於是基於 Web 2.0 的基 礎出現了部落格、維基百科、檔案分享服務和社群網站等新的網路型態。. 社群的概念也因為 Web 2.0 的網站型態模式下迅速竄紅,而社群工具包含了 部落格(Blog)、微網誌(Microblogging)、社交網路服務 (Social Network Service, SNS)平台。 2009 年 Facebook 以掛載在 Facebook 平台上的 Flash 遊戲及心理測 驗,在台灣造成一股旋風,而 Facebook 的成功主要是來自於透過網路提供了與 -1-.

(15) 親 朋 好友聯絡感情更 好的應用 。 創市際 (2009)調查結果發現 , 每個月使用 Facebook 的平均時間高達 439.5 分鐘,也就是平均每天使用 Facebook 14.65 分鐘, 佔據使用社群網站時間的 56.6%。而創市際(2010)調查顯示,2010 年 3 月到 10 月,每月約有 90%的台灣網友曾造訪社群網站,且每月平均使用 400 分鐘以上(約 6 小時)。Facebook 創辦人 Zuckerberg 表示, Facebook 目前的月活躍用戶總數 已經超過了十億(許凱玲,2012),由此顯示出以社交功能為主的社群網站在網友 的網路行為當中,已佔有十分重要的地位。. 政 治 大 換心得與生活經驗分享,包含寫下文字、分享日常生活中的照片與影片…等,於 立. 隨著社交網站的服務功能越來越趨於多元化,人際之間也常透過社交網站交. 是社群網站漸漸地成為記錄數位記憶的平台。根據台灣網路資訊中心(Taiwan. ‧ 國. 學. Network Information Center, TWNIC)在 2010 年 2 月的網路使用調查,台灣地區. ‧. 上網人口約為 1,622 萬人,12 歲以上之上網人口上網比例為 72.56%,與 2009 相. y. Nat. 比增加了 1.61%,其中寬頻網路使用比例為 67.21%。而網路寬頻的提升也帶動. er. io. sit. 了人們願意透過網路傳播的方式加以傳送照片與影音至網路上分享與存放。. al. n. v i n 全球知名網路研究機構 C comScore(2007)針對美國網路使用者進行調查結果 hengchi U. 顯示,超過 75%的網路使用者曾經在線上觀看多媒體,平均每位線上影音瀏覽者 當月花費 3.25 個小時,相較於 2006 年 1 月調查結果 2.52 小時成長 29%。知名 美國網路市調機構 Hitwise 於 2008 年 6 月的報告中指出,75.43%的美國線上使 用者曾造訪 YouTube.com,相較於 2007 年 3 月市佔率成長 26%。並且根據創市 際(2009)針對線上影音的調查研究,在近半年內有四成二(42.1%)的消費者曾經使 用過影音分享平台,或付費使用影音收視服務平台;其中一星期至少使用一次者 佔七成五(74.7%),也就是有三成(29.9%)的網友一星期至少使用一次影音分享平 台。 -2-.

(16) 然而行動載具的興起,也成為了人們可以隨時隨地分享數位影音的工具。本 研究主要希望能針對此一趨勢,利用行動載具特有功能,提供自動與協助使用者 註記所拍攝影像時的情境標籤。由 MPEG-7 的架構轉入個人註記系統因應行動 載具與拍照行為,觀察行動載具使用者分享數位照片的行為模式,並以實驗性社 群標記,嘗試新型態的影像註記以及檢索的可能性。. 第二節 研究動機 圖片往往是比文字更有效的記憶方法,而個人化多媒體紀錄方式也已在我們. 政 治 大 全球每年的數位相機的出貨量均在一億台以上,而拓墣產業研究所(2012)分析預 立. 的生活中隨時隨地在進行著。根據 DIGITIMES(2011)的研究指出,自 2006 年起,. ‧ 國. 學. 測 2012 年全球數位相機的出貨量將到達 1.4 億台;隨著硬體設計的改良促使攝 錄模組微小化,不僅發展出輕薄的消費型數位相機,也帶動了行動電話內建照相. ‧. 功能的趨勢。. sit. y. Nat. al. er. io. 近年來由於智慧型手機蓬勃發展,智慧型手機的使用族群越來越多,市場研. v. n. 究公司 IHS iSuppli(2012)表示,全球智慧型手機預計在 2013 年將會超越整體手. Ch. engchi. i n U. 機半數達到 54%的市占率,並且預期在 2016 年之前將會占總體手機市場的 67.4%。面對智慧型手機逐年增加的市占率,加上大多數的智慧型手機均內建了 照相功能,於是出現了越來越多人使用智慧型手機拍照的行為。根據伊普索斯瑞 德民調公司(Ipsos Reid)在 2011 年透過網路以 834 位智慧型手機使用者行為調 查顯示, 70%的受試者有使用智慧型手機拍照的行為(法新社,2011)。而市調研 究機構 NPD 在 2011 年的研究報告也指出,使用智慧型手機拍照的比例在 2010 年僅為 17%,到了 2011 年已經成長為 27%,而使用消費型數位相機拍照的比例 與 2010 年相比較,則是從 52%下滑至 44%(楊琇羽,2011)。. -3-.

(17) 於是許多人擁有的手機幾乎都具有照相的功能,因此照相的門檻也變得越來 越低、越來越方便快速的時候,個人所存放的照片也就越來越多,其延伸出來的 問題便是過於大量的影音檔案管理不易,以及儲存於個人硬碟的影音檔案也有可 能因磁碟毀壞致使檔案不復存在。以往只能使用實體空間存放的多媒體檔案,如 今都能夠將檔案數位化並且透過網路的方式傳遞,將大量且不同種類的多媒體檔 案快速的分享到網路空間。根據 Flickr 相簿網站透過照片中的 EXIF 數值之每日 統計圖表(如圖 1-1)指出,Flickr 社群內最熱門的前五名相機在 2012 年 12 月 22 日的統計排行由高至低依序為:「Apple iPhone 4S」、「Apple iPhone 4」、「Canon. 政 治 大 T2i」。由此可知,使用智慧型手機拍攝照片的數量已經超越單眼相機。 立. EOS 5D Mark II」,以及並列第四名的「Canon EOS 7D」與「Canon EOS REBEL. ‧ 國. 學. Apple iPhone 4S Apple iPhone 4. ‧. Canon EOS 5D Mark II Canon EOS REBEL T2i. io. y. sit. 圖 1-1 Flickr 社群內最熱門的相機. n. al. er. Nat. Canon EOS 7D. Ch. engchi. i n U. v. 然而,除了檔案存放可能會遭遇檔案毀損的問題之外,當檔案資料量日益龐 大時,便需要更有效率的資料檢索方法。傳統的檔案檢索方法,一般會給予檔案 或文件適當的關鍵字(Keywords)或標籤,透過內容的提供者,或是透過各領域專 家進行分類(Categorizing)及建立索引(Indexing)。但是,此種傳統分類法除了需要 大量的人力資源協助分類外,分類的結果也只屬於少部份專業人士所熟知的分類。 但在 Web2.0 的網站模式之下,網站的內容已不再僅僅是由管理者所提供的內容 資訊,取而代之的是網站建立者及瀏覽者都能產生大量且多樣化,包含圖文影音 等資料內容。. -4-.

(18) 由於圖像檢索的方式仍是以文字的方式,藉由使用者提供關鍵字搜尋比對資 料庫的資料為主。為了解決圖像影音檢索的問題,在 1998 年 10 月,MPEG(Moving Picture Expert Group,視訊影像專家組織)就已經提出 MPEG-7 的計畫草案,而在 2001 年 9 月正式通過成為國際標準。MPEG-7 是定義描述多媒體資料的方法, 利用外部檔案描述多媒體檔案的方式,就能達到以文字搜尋描述檔的內容,進而 達到多媒體檔案檢索的目的。. 倘若沒有系統化的方式建立索引、分類以及瀏覽的介面,將會使得與日劇增. 政 治 大 夠以有彈性、具延伸性、多層次及明確的資料結構和語法來定義影音資料的內容。 立 的數位媒體檔案變的難以被檢索。而 MPEG-7 對於影音內容的描述和定義,能. 經由 MPEG-7 的定義格式,使用者可以有效率地搜尋、過濾和定義想要的影音. ‧ 國. 學. 資料。基於 MPEG-7 上述的幾項優點,本研究以 MPEG-7 的後設資料描述架構. ‧. 來做為照片檢索的方法。. sit. y. Nat. io. al. er. 第三節 研究問題. v. n. 由於我們都回不了過去,所以有些人會藉由蒐集實體物品的方式做為紀念. Ch. engchi. i n U. 品、有些人會以文字紀錄的方式寫成日記、有些人則會以攝影的方式來紀錄當下 時空環境的樣貌,而這些各種不同的方法都是為了蒐集累積成為日後的片段回 憶。基於人們有緬懷過去的習慣,本研究之研究問題如下:. 1.使用照片寫日記、紀錄生活的行為是否有所不同? 在 2006 年智慧型手機並不普遍的年代,創市際市場研究顧問研究顯 示有 97.3%網友使用照片寫日記,但在 2006 年並沒有將智慧型手機列入評 測。而到了目前智慧型手機普及率較高的情況之下,使用照片寫日記、紀錄 生活的行為是否會有所不同? -5-.

(19) 2. 使用智慧型手機是否有更容易找到當時所拍攝的照片的方法? 目前圖像檢索利用關鍵字搜尋的方法,結合智慧型手機具有多種感知 器與可程式化特性,並且基於 MPEG-7 架構的檔案描述方法,是否能使得影 像的管理系統的照片搜尋更精確,也更符合使用者使用智慧型手機的使用行 為?. 3.使用智慧型手機是否具有協助使用者註記標籤的方法? 政大傳播學院與資科系合作的行動傳播研究(X-mind),蒐集使用智慧. 政 治 大 為照片加上標籤(Tag)的行為,於是使用問卷調查的方式訪察受試者得知: 「一 立 型手機拍照程式的日誌(Log)加以研究分析。但從日誌無法得知受試者是否有. 般人不喜歡自行為照片加上 Tag,但若系統有建議的標籤就會提高受試者建. ‧ 國. 學. 立標籤的意願」。若是使用智慧型手機拍攝照片是否能有協助使用者註記標. ‧. 籤的方法?. y. Nat. er. io. sit. 因此,本研究透過開發一套在拍攝照片時就能夠自動增加標籤的系統,藉此 解決人們拍照之後為每張照片增加標籤註記的不便。除了自動增加的標籤之外,. al. n. v i n 也具有建議的標籤內容可供使用者快速的輸入。透過本系統所拍攝的照片便會具 Ch engchi U 有更詳盡的標籤內容,藉此研究是否能夠讓使用智慧型手機拍攝照片的使用者, 有著更方便紀錄生活、更容易找到當時所拍攝的照片的方法。. 第四節 研究目的 隨著行動網路的普及,智慧型手機的照相成相品質越來越好,拍攝後的照片 能夠透過安裝在手機裡的影像處理 app 讓照片呈現更有質感的風味,即時上傳到 社群網站與朋友分享,也因此帶動了使用智慧型手機拍照的風潮(拓墣產業研究 所,2012)。本研究之研究目的有三: -6-.

(20) 1.更精確的標籤需求 拍攝的照片越多,如果沒有一個有效的管理方法,便會產生檢索不易 的問題。以目前四個常見的圖片網站:Getty Images、Flickr、Picasa 與 Google Images 搜尋「飛機(airplane)」為例,會發現仍有檢索出與「飛機(airplane)」 型體不同的圖片,原因來自於圖片具有與「飛機(airplane)」相關的文字內容, 其檢索條件茲列於表 1-1。. ‧ 國. 政 治 大. 搜尋條件 標籤(分類由該公司定義,該公司員工標註) 標籤(分類由使用者自定義標註)、分類資料夾 標籤(分類由使用者自定義標註)、圖片檔名、圖片說明文字 圖片在網頁裡出現的文字. 立. 學. 表 1-1 圖片搜尋網站比較表 網站 Getty Images Flickr Picasa Google Images. ‧. 2.個人相簿網站檢索功能的不足. sit. y. Nat. 舉凡目前的無名小站、痞客邦、PChome、Facebook…等個人相簿系統,. io. er. 均發現有下列幾項缺點:(1)情境感知(Context-Awareness)標籤不足,(2)缺少 群眾註記標籤功能,(3)無法搜尋相簿裡的相片;而蘊含全球最多圖片資源的. al. n. v i n Ch Facebook (Jonathan Good,2011),則是沒有搜尋圖片的功能,於是本研究提 engchi U 出使用以 MPEG-7 為基礎的架構,利用 MPEG-7 其 XML 文字標籤的方法加. 以描述每張照片的資訊,以便於相片的檢索。. 3.減少使用者自行加註標籤 在上一節曾提到人們不喜歡自行為每一張照片加註標籤。為了解決這 個問題,本研究開發的照相軟體可以為照片自動加註地理資訊、照相角度、 照相方向、天氣…等標籤資訊。除此之外,也加入了建議註記的功能,以選 項點選的方式協助使用者更方便的加入標籤註記的功能,並且也擴充了社會 -7-.

(21) 化標籤(Social-Tagging)的功能,藉由 Facebook 社群網站平台,讓社群網站上 的群眾對於照片加以註記標籤。. 於是本研究實作的系統藉由系統「自動註記」、系統「建議註記」、「群眾註 記」以及使用者「自行填入」等標籤,用以增加照片後設資料(Metadata)的資訊, 以提高資料庫裡照片的後設資料豐富度與正確度,讓使用者透過本系統與智慧型 手機的結合,具有更方便隨時紀錄生活、更容易檢索照片的方法。其研究架構圖 如圖 1-2 所示,簡述如下:. 政 治 大. 1. 緒論:從研究動機做為本研究的開端,了解目前相關的研究背景進而提出研 究問題與研究目的。. 立. 2. 文獻探討:回顧相關的研究文獻,包含:群體外包(Crowdsourcing)、生命紀. ‧ 國. 學. 錄(Life Logging)、圖像檢索(Image Retrieval),以及 MPEG-7。. ‧. 3. 先期研究發現與探討:在建置系統平台之前,輔以問卷調查的方式了解使用. y. Nat. 者使用智慧型手機拍攝照片的行為。. er. io. sit. 4. 建置系統平台:規劃並撰寫智慧型手機照相程式與建置上傳照片的伺服器, 做為本研究之實驗平台,藉此提供照片正確的標籤內容。. al. n. v i n 系統分析與探討:從系統開發與運作的歷程,探討系統的改良與修正,以及 Ch engchi U. 5.. 使用案例說明。. 6. 研究發現與討論:藉由本研究的系統所獲取的資料,得出研究發現與相關的 討論。 7. 研究結論與建議:最後提出研究的結論與未來建議。. -8-.

(22) 緒論. 研究背景. 研究動機. 研究問題. 研究目的. 文獻探討. 群體外包. 生命紀錄. 圖像檢索. MPEG-7. 政 治 大 建置系統平台. n. Ch. engchi. 系統分析與探討. 研究發現與討論. 研究結論與建議. 圖 1-2 研究架構圖. -9-. sit. 提供照片正 確的標籤. er. io. al.  系統自動建立標籤  系統協助建立標籤  社群協助建立標籤  使用者自行建立標籤. y. ‧. Nat. 使用者拍照 上傳. 學. ‧ 國. 立 先期研究發現與探討. i n U. v.

(23) 第二章 文獻探討 第一節 群體外包(Crowdsourcing) Eric s. Raymond(2007)曾經說過: 「夠多的人來共同查看,就可以讓所有問題 浮現(Given enough eyeballs, all bugs are shallow)」。這句話也就是當時群體外包 (Crowdsourcing)的起源-軟體的開放原始碼(Open Source)運動的精神。Linux 作業 系統的誕生雖然是由芬蘭學生 Liuns Torvalds 所撰寫核心(Kernel)程式,但是整個 作業系統的架構則是由整個網路社群上的人們所合力撰寫而成。. 政 治 大 而群體外包的定義是到了 立 2006 年 Wired 雜誌的 Jeff Howe and Mark Robinson. ‧ 國. 學. 首先發表了群體外包的概念才被正式提出,其主要的意思是指藉由網路上的群眾 幫忙解決問題而付與酬勞,而且通常是無支薪或只給予微薄的薪資卻能達到比專. ‧. 家產生更好的產品(Howe & Robinson, 2006)。群體外包實際的應用範圍包括零售. sit. y. Nat. 業、金融業、新聞界…等各個領域。亞馬遜的 Mechanical Turk 是一個透過網路. al. er. io. 平台協助公司尋找人力來處理一些電腦不擅長的事務:例如辨識照片中的物品、. v. n. 速讀房地產文件並找到重要資訊、寫產品描述短文、把聲音檔重新打成為文字. Ch. engchi. i n U. 稿…等。亞馬遜把這些工作稱為人類智慧任務(Human Intelligence Tasks,HITs); 這些工作都被設計成只需要短時間就能完成,也因此完成每項工作所能賺得的報 酬都很低,大約都只有幾美分到幾塊美金之間不等。. 於是公司企業漸漸重視群體外包所帶來的效益,而 Sami Viitamaki(2007)提 出建構 Crowdsourcing 的 FLIRT 的模型,指出群眾外包可以從五個構面來評估: 「焦點(Focus)、語言(Language)、誘因(Innocentive)、規則(Rules)、工具(Tools)。 且由四種角色: 「創造者(Creator)」 、 「批評者(Critics)」 、 「連結者(Connector)」 、 「群 眾(Crowd)」 ,透過彼此之間的互動來完成各種工作,藉此可以評估 Crowdsourcing - 10 -.

(24) 的效度。並且所有成功的 Crowdsourcing 公司都有共同通,就是讓群眾認為產出 的東西是屬於自己的,而公司的只是屬於這個社群中的成員之一而已(Howe, 2009)。. 最有名的例子就是早期是來自於攝影同好的社群網站:iStockphoto。這個網 站提供線上的交易平台,圖片來源來自於社群上的成員,於是能夠得到非常低價 的圖片,也讓許多專業的攝影師的照片都無法再以高價出售照片。於是當 iStockphoto 的會員越來越多,並且為了能夠讓自己的作品被看見而賣出的會員就. 政 治 大 的使用者都加上了正確的標籤,於是資料庫裡面的標籤就越來越完整(Howe, 立. 會開始在 iStockphoto 的網站上開始為自己的照片加上正確的標籤,而越來越多. 2009)。. ‧ 國. 學 ‧. 第二節 生命紀錄(Life Logging). sit. y. Nat. 微軟研究員 Gemmell, Bell, Lueder, Drucker & Wong (2002)曾進行一項「我的. al. er. io. 生命位元(MyLifeBits)」的研究計畫,將所有的書藉與紙張文件都掃描成為電子. v. n. 檔案予以存放,認為如此可以節省下辦公室許多的實體空間。Bell(2010)認為人. Ch. engchi. i n U. 類的生物記憶是不可靠的,對於發生過的事情,人類是使用曾經發生的相關的事 實藉由說故事的方式加以述說,而並非如同錄影檔案重新放映的方式來陳述事件 的經過。於是他把所有看過的網頁也存成 PDF 檔案,使用了 SenseCam 把每天生 活的都加以照相存檔。並且提倡把人的一生在日常生活上所有發生的事件都予以 數位化收藏,稱之成為電子記憶。他希望的方式是所有的數位資料都不要刪除, 而是透過建立一個有效率的資料庫存放,能夠隨時將自己想要找出來的資料快速 的檢索。. 雖然把全部的數位化檔案都丟在硬碟裡對於使用者而言是件很簡單又方便 - 11 -.

(25) 的方式,但是對於資料的檢索並沒有幫助。照片檢索的目的在於能夠在自己回想 起某個事件的時候,就能夠快速的找出自己想要的檔案。於是在 MyLifeBits 研 究計畫的資料庫,其使用者前端介面是以時間河流的概念呈現 (如圖 2-1),讓使 用者可以依照日期的事件分類達到快速檢索的目的。. 並且為了要達到快速檢索的目的,Bell 建議除了在檔案命名使用時,就要使 用長檔名來記載的越詳細越好,而且還要能夠為檔案加入適合的 Metadata,如此 都成能為日後建立良好的搜尋條件。而 Bell(2010)更預測,大約到了 2020 年,人. 政 治 大. 的一生都將傳到網路上,可供使用者搜尋。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2-1 以時間流的方式呈現照片資料庫,圖片來源:Gemmell et al. (2002). Byrne(2007)也曾使用感應拍(SenseCam)隨時拍攝人們在日常生活上的各種 影像。透過 SenseCam 的拍攝,每天大約會產生三千多張照片,一個禮拜就會有 兩萬張,於是推算出人的一生如果配戴 SenseCam 將會有五千萬張的照片。由此 可知,如此龐大的照片資料量如果不經過處理將會造成日後照片檢索的困難。為 了方便日後加快搜尋照片的速度,他使用全球衛星定位與藍芽訊號分析出情境資 - 12 -.

(26) 訊來分割每個事件中的一連串活動。如圖 2-2 所示,從一連串的照片中,經由情 境資訊分割之後可以讓照片的整理更有條理。. 圖 2-2 以發生的事件為分割的圖像分類,圖片來源:Byrne(2007). 政 治 大 近年來由於智慧型手機的普及,開始出現了以智慧型手機做為個人 Life 立. ‧ 國. 學. Logging 實驗工具的研究。Hamm, Stone, Belkin & Dennis(2012)收集了智慧型手機 的照片、錄音、GPS 地理資訊、加速度計等資訊做低階擷取,並定義了 19 種記. ‧. 錄生活的標籤,然後比較以六種不同的演算法自動加註標籤的精確度。結果發現. sit. y. Nat. 以 SVM-HMM 演算法的自動註記精確度最好(如表 2-1 所示),但是在他們研究中. n. al. er. io. 存在著 GPS 在室內無法接收到資訊的問題。. People. Place. Activity. 表 2-1 使用智慧型手機自動加註標籤之演算法比較 Tag other activity walk drive/inside a vehicle eat/drink talk/chat/discuss chores (cook/clean/laundry/etc) tend to baby use a computer read/write on paper/board other place my home my office classroom/meeting room other’s office restaurant/café outdoor other people my family colleague(s) Average. Ch. engchi. Non-temporal LogReg. SVM. 0.774±0.177 0.941±0.058 0.904±0.091 0.837±0.100 0.726±0.106 0.846±0.150 0.798±0.200 0.798±0.113 0.782±0.168. 0.804±0.168 0.968±0.037 0.966±0.055 0.896±0.081 0.797±0.112 0.981±0.039 0.946±0.091 0.873±0.099 0.934±0.121. 0.838±0.138 0.866±0.105 0.837±0.097 0.850±0.103 0.834±0.143 0.929±0.062 0.945±0.053 0.685±0.136 0.778±0.173 0.767±0.114 0.828±0.070. 0.940±0.092 0.898±0.117 0.891±0.088 0.930±0.081 0.937±0.104 0.954±0.053 0.971±0.033 0.728±0.131 0.827±0.199 0.812±0.102 0.898±0.072. MNB. 資料來源:Hamm, Stone, Belkin & Dennis (2012) - 13 -. i n U. v. HMM. Temporal CRF. SVM-HMM. 0.806±0.173 0.969±0.040 0.973±0.049 0.895±0.082 0.798±0.113 0.984±0.039 0.954±0.089 0.875±0.100 0.937±0.127. 0.784±0.204 0.943±0.060 0.883±0.151 0.845±0.150 0.771±0.139 0.772±0.222 0.747±0.275 0.826±0.144 0.703±0.272. 0.769±0.230 0.950±0.061 0.972±0.045 0.857±0.137 0.824±0.155 0.947±0.097 0.893±0.150 0.837±0.164 0.885±0.147. 0.801±0.225 0.973±0.042 0.977±0.047 0.921±0.094 0.870±0.120 0.985±0.039 0.955±0.089 0.905±0.108 0.940±0.129. 0.941±0.093 0.898±0.123 0.894±0.089 0.930±0.083 0.939±0.099 0.958±0.049 0.972±0.034 0.729±0.133 0.825±0.206 0.812±0.100 0.899±0.073. 0.815±0.177 0.891±0.115 0.883±0.127 0.837±0.150 0.777±0.229 0.976±0.032 0.946±0.061 0.732±0.187 0.768±0.180 0.816±0.137 0.827±0.077. 0.913±0.134 0.890±0.161 0.908±0.123 0.903±0.163 0.902±0.137 0.948±0.093 0.951±0.064 0.731±0.178 0.840±0.193 0.867±0.130 0.884±0.063. 0.942±0.099 0.935±0.139 0.941±0.079 0.928±0.104 0.947±0.089 0.985±0.025 0.978±0.028 0.763±0.175 0.835±0.227 0.894±0.100 0.920±0.063.

(27) 第三節 圖像檢索(Image Retrieval) 由於目前資料庫的搜尋技術仍是以文字比對的方式,對於文字的檢索只須對 於輸入的關鍵字與資料庫中的關鍵字比對便能夠得到文字檢索的結果,但是圖像 不是文字,於是圖片檢索就必須透過在圖片加上文字內容的方法。目前最主要的 圖像檢索技術包含了「基於文字之圖像檢索(Text-Based Image Retrieval,TBIR)」 與「基於內容之圖像檢索(Content-Based Image Retrieval,CBIR)」兩種方式。. 2.3.1 基於文字之圖像檢索(Text-Based Image Retrieval,TBIR). 政 治 大 籤。於是在建立圖像資料庫時,除了圖片的建立之外,還須建立該圖片的文字標 立 基於文字之圖像檢索(TBIR) 的方法是對於圖像的內容加上文字描述的標. ‧ 國. 學. 籤,之後搜尋標籤內的文字內容便能夠對應到相關的圖片而達到檢索的目的。然 而這個方法雖然可以對於圖片內容加註高階的語意(Semantic)描述,卻存在著需. ‧. 要人工自行對於每一張圖像加註標籤的問題,以及人們對於看到每張圖像的內容. sit. y. Nat. 存在著不同的認知,會造成同一張圖片卻有不同的標籤內容的問題。雖然後來有. al. er. io. 提出分類法的方式來對於圖像不同的標籤加以分類,但也存在著不同的專業領域. n. 有其不同的分類名稱的問題。. Ch. engchi. i n U. v. 2.3.2 基於內容之圖像檢索(Content-Based Image Retrieval,CBIR). 基 於 內 容 之 圖 像 檢 索 (CBIR) 的 方 法 是 對 於 圖 像 中 的 顏 色 (Color) 、 紋 理 (Texture)、形狀(Sharp)等特徵(Feature)加以截取。而擷取的方法是透過電腦視覺 的程式對於圖像的低階分析而得到的特徵值之後,加以註記到文字標籤之中。雖 然透過程式的擷取特徵的方式可以省去人工標記的麻煩,但具有相同的顏色、形 狀或紋理的圖像,以人類的觀點有時候卻是完全不同意義的圖片。. 2.3.3 相關的影像檢索系統 - 14 -.

(28) 目前基於內容之圖像檢索的研究有:(1)由 IBM 提供的顏色與形狀兩種查詢 方式的 QBIC(Query By Image Content) (Niblack et al.,1993),(2)由哥倫比亞大學 開發,結合影像特徵與影像的空間關係的 VisualSEEK(Smith & Chang,1996),(3) 由密西根大學、加州大學以及麻省理工學院共同開發,具有查詢色彩、紋理、形 狀的 VIR(Visual Information Retrieval) Image Engine (Gupta,1995);在商用網站 方面,基於文字之圖像檢索的網站有 Getty Image、Flikr、Picasa,而 Google Images 則是同時具有 TBIR 與 CBIR 兩種圖像檢索方法的系統。關於 TBIR 與 CBIR 的 比較如表 2-2 所示。. 表 2-2 TBIR 與 CBIR 比較 優點 TBIR 具有語意高階描述 自動加入標籤. 系統 Getty Image、Flikr、 Picasa、Google Image QBIC、VisualSEEK、 VIR、Google Image. ‧. MPEG-7. sit. y. Nat. 第四節. 學. CBIR. 缺點 人工加入標籤 圖像內容認知不同 有時相同的低階特徵圖像具 有完全不同的意義. ‧ 國. 立. 政 治 大. n. al. er. io. Web 2.0 概念的興起,網站的內容已從過去僅由管理者提供靜態資訊的方式. i n U. v. 轉變成由使用者所提供大量、快速變動、且多樣化的動態資訊。由於出現了大量. Ch. engchi. 的網路資料,更加重對於網路搜尋引擎的依賴。近年來網路技術的發展與頻寬的 擴張,已促使數位影音資料逐漸成為網路資訊分享的主流。. 2.4.1 緣起. 網路上的搜尋引擎大多是使用關鍵字搜尋的檢索方式,所以能找的資料大多 都是以文字為基礎的網頁資料,所以使用文字所建立索引的搜尋引擎對於圖片、 音樂及影片檢索的能力是非常有限的。於是在 1998 年 10 月,MPEG 組織首先提 出了 MPEG7 標準,並於 2001 年公佈。MPEG7 可針對各種不同類型的多媒體資 訊進行標準化的描述,定義了更多描述與搜尋多媒體資料的方法。其主要的原理 - 15 -.

(29) 是在於將影音檔案再賦予另一個描述檔,建立一套以影音低階特徵的量化標準描 述器與結構,並將此描述檔加以建立索引,以及將該描述檔與所描述的檔案內容 建立關連,達到使用文字描述搜尋多媒體檔案的功能。. 2.4.2 MPEG-7 規格. MPEG-7 規格稱為多媒體內容描述介面,提供多樣化的檔案特徵表示方式。 如圖 2-3 所示,在多媒體檔案的檢索過程中,MPEG-7 規格的範圍僅只於描述多 媒體檔案的內容,而與多媒體檔案內容的低階特徵擷取,或是系統的搜尋過濾功. 政 治 大 Descriptors (D):稱之為描述器,用來描述多媒體檔案的顏色、形狀及紋理等 立. 能皆不屬於 MPEG-7 的範圍。其最主要的基本元素包含了三項:. 低階特徵,也可以用來描述語法(Syntax)與語意(Semantics)的特徵表達。. ‧ 國. 學. Description Schemes(DS):稱之為描述架構,描述 D 和 D、D 和 DS 之間,. ‧. 以及 DS 與 DS 的結構與關連性。. y. Nat. Description Definition Language (DDL):用來定義產生 D 與 DS 的方法與工. n. er. io. al. sit. 具,以 XML 語言為主要工具。. Feature Extraction. Ch. engchi. i n U. Standard Content Description. 圖 2-3 MPEG-7 標準的範圍. v. Search Engine. MPEG-7 標準範圍. Descriptors 對於檔案的低階特徵或語意加以描述, Description Schemes 則是 將 Descriptors(也可以是 Description Schemes 之間)加以組織與結構化,而定義 Descriptors 與 Description Schemes 的工具(Description Definition Language)是使用 XML 加以定義之。於是定義成為一整份完整的 Description Schemes 即為 MPEG-7 - 16 -.

(30) 檔案。除此之外,Description Definition Language 也可以定義不是由 MPEG-7 官 方規格的 Schemes,成為擴充的 Description Schemes,而標籤(Tag)也是使用 Description Definition Language 加註到 MPEG-7 檔案之中。其整體架構圖如圖 2-4 所示。. 而 MPEG-7 的 Metadata 描述除了可以表示像是顏色、形狀及紋理等低階的 影音特徵描寫,也可以描寫語意、事件…等等的高階描述,其架構如圖 2-5 所示; 對於事件的描述可對於 Who(對象)、WhatObject(物體的描述)、WhatAction(發生. 政 治 大. 什麼行為)、Where(地點)、When(時間)、Why(目的或是原因)以及 How(方法)… 等多項高階描述(如表 2-3)。. 學. ‧ 國. 立. 2.4.3 MPEG-7 相關的研究. ‧. 由於 MPEG-7 對於影像的描述包含了低階影像特徵( Feature )及高階語意. y. Nat. (Semantic)的描寫,並且使用 XML 的方式描述系統的架構。於是結合了影像描. er. io. sit. 述與 XML 可交換性的優點,以 MPEG-7 為基礎的影像檢索研究包含:透過社交 網絡演算法的多張影像搜尋、貝殼檢索、數位博物館,以及蝴蝶影像形狀檢索…. al. n. v i n 等(張瑋鈴,2011;李嘉紘、蘇裕盛、許家富、田政鉉,2008;張宇翔,2001; Ch engchi U 黃子癸,2001)。. Kuo, Aoki and Yasuda(2004) 曾 使 用 MPEG-7 的 技 術 建 置 了 一 套 PARIS(Personal Archiving and Retrieving Image System)的個人圖片典藏與搜尋系 統。PARIS 系統是以 MPEG-7 對於多媒體檔案的後設資料(Metadata)的特性為基 礎,加以擴充了時間與空間的屬性,在 MPEG-7 的多媒體描述結構(Multimedia Description Schemes,MDS)加入的十二個維度包含:誰(Who)、什麼(What)、何 時 (When) 、 何 處 (Where) 、 為 何 (Why) 、 如 何 (How) 、 方 向 (Direction) 、 距 離 (Distance)、持續時間(Duration),包含了圖像(Image)、影片(Video)與音樂(Music) - 17 -.

(31) 等合稱為十二維度的數位文件(Dozen Dimensional Digital Content,DDDC)。. 立. 政 治 大. ‧ 國. 學. 圖 2-4 MPEG-7 元素架構圖,來源:MediaLab(2003). ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2-5 MDS 描述工具,圖片來源:Manjunath, Salembier, & Sikora (2002). - 18 -.

(32) 表 2-3 MPEG-7 結構註記型態 Name Definition StructuredAnnotationType Describes a structured textual annotation in terms of who (people and animals), what object, what action, where(places), when(time), why(purpose), and how. Who Describes animate objects or beings (people and animals) or legal persons(organizations and person groups) using either free text or a term from a classification scheme. WhatObject Describes inanimate objects using either free text or a term from a classification scheme. WhatAction Describes actions using either free text or a term from a classification scheme. Where Describes a place using either free text or a term from a classification scheme. When Describes a time using either free text or a term from a classification scheme. Why Describes a purpose or reason using either free text or a term from a classification scheme. How Describes a maner using either free text or a term from a classification scheme.. 立. 政 治 大. 來源:Kuo, Aoki and Yasuda(2004). ‧ 國. 學 ‧. 第五節 小結. sit. y. Nat. 數位相機的普及,促使每個人都能夠隨時隨地使用拍攝照片的方式紀錄自己. io. al. n. 片存放的空間與管理檔案的資料庫就有其必要性。. Ch. engchi. er. 的生命紀錄(LifeLogging),然而因為紀錄方便,照片的數量也因此越來越多,照. i n U. v. 2.5.1 標籤的需求 Flickr 是提供存放與管理照片的網路相簿空間,透過使用者自訂標籤(Tag) 的方式達到更有效的照片檢索,由此可知標籤的正確性對於圖片檢索的重要性; 而 MPEG-7 是描述多媒體檔案的一種後設資料描述架構,所以藉由新增標籤在 MPEG-7 檔案中,並對於 MPEG-7 後設資料檔案進行搜尋,就能夠達到檢索照片 檔案的目的。. 有鑑於照片資料數量日益龐大的趨勢,圖像檢索資料庫也有賴於精確的圖像 - 19 -.

(33) 標籤以提高檢索結果,本研究提出以 MPEG-7 為基礎的檔案描述架構,並以撰 寫本研究之實驗程式,做為提供更精確的標籤的實驗工具,其標籤需求概念如圖 2-6 所示。. LifeLogging Trend. Increased No. of Images. Development of MPEG-7. 立. Need for Database. Need for Precise Tagging System. 政 治 大. 圖 2-6 標籤需求概念流程圖,圖片來源:本研究整理. ‧ 國. 學 ‧. 2.5.2 群體外包的運用. y. Nat. 隨著目前智慧型手機的崛起,結合照相功能、行動與網路科技(Mobile &. er. io. sit. Network Technology) 的 普 及 以 及 目 前 熱 門 的 社 群 網 路 服 務 (Social Network Services,SNS),造就社群網站成為一個即時相片分享的平台。透過即時分享相. al. n. v i n 片的平台所發佈的資訊,本研究將其使用者所上傳的照片加以分析,建立一個圖 Ch engchi U 像檢索資料庫,並且透過使用者之間相互建立的標籤,能夠加強資料庫搜尋的效 度。. 雖然在 Kuo et al. 建置之 PARIS 系統所提出的實驗系統架構,設計了一種特 別方法解決人們不斷的拍照與儲放檔案的生活經驗,但尚未能利用新興崛起的社 群網路型態,透過社群網路上群體的使用者協助註記(Tagging)的方式。而 Hamm et al. 則是以智慧型手機收集了智慧型手機的照片、錄音、GPS 地理資訊、加速 度計等資訊做低階擷取,以六種不同的演算法自動加註標籤,但是在他們研究中 - 20 -.

(34) 仍存在著 GPS 在室內無法接收到資訊的問題。. 於是本研究利用智慧型手機內建多種感知器的優點以及社群網站的群眾,提 出一套能夠在拍照的同時,藉由智慧型手機偵測到拍攝者的拍攝地點、拍攝方向、 拍攝角度,以及天氣等資訊,並提供半自動協助標記的提示,以及能夠讓社群使 用者協助加入標籤的功能,藉此讓使用者建立更精確的影像標籤註記的可能性。. Availability of camera functions on mobile phones. 立. 治 政 Increased 大 sharing of. Development of mobile technology and access to internet. Create information retrieval system. images. ‧. ‧ 國. 學. Increasing popularity of social networking sites. Use of MPEG-7. Crowdsourcing. sit. y. Nat. io. n. al. er. 圖 2-7 結合群體外包與標籤的圖像檢索資料庫,圖片來源:本研究整理. Ch. engchi. - 21 -. i n U. v.

(35) 第三章 研究方法 本章探討本研究之系統實作方法,分為「系統規劃」 、 「前期測試」與「系統 實作」三部分。系統規劃的內容分述於本章之第一節-系統架構與第二節-軟體開 發與設計;而前期測試與系統實作的內容則說明於本章第三節-研究設計。. 第一節 系統架構 本研究的目的在於提供一個能夠「自動、協助半自動與群眾」的註記方式所. 政 治 大. 建置的圖像資料庫。為了達到可以在拍照的時候記錄時間與空間的資訊,所以在. 立. 實驗設備的硬體的選擇方面,以智慧型手機來做為資料庫圖像檔案的主要輸入來. ‧ 國. 學. 源。而本系統的架構可分為「照相程式」、「照片檔案伺服器」以及「Facebook 社群網絡的應用」三個部分討論:. ‧ er. io. sit. y. Nat. 3.1.1 照相程式. 本研究的照片來源,來自於使用者透過智慧型手機所拍攝的照片,並且為了. al. n. v i n 能夠在拍攝照片的時候就同時註記標籤,於是必須開發本研究的專用應用程式, Ch engchi U 而在程式開發的過程當中歷經了以下幾項要點:. a. MPEG-7 檔案產生:本研究是以 MPEG-7 檔案為基礎的圖像資料庫,為了 能夠在讓每一張照片都能夠具有其 MPEG-7 檔案,在拍下照片的同時就會 同時產生了一個與照片檔名相同的 MPEG-7 檔案。 b. 取得感應器(Sensor)資訊:程式為了能夠記錄照片的「拍攝時間」、「拍攝 地點」 、 「拍攝方向」以及「拍攝的角度」…等資訊,所以在照片拍攝的時 候,會開啟手機內的 GPS 定位晶片、數位指南針以及三軸加速度計 - 22 -.

(36) (G-Sensor),藉此偵測按下快門時手機在空間中的所量測到的資訊。 c. 自動註記標籤:當拍攝完照片的同時,照相軟體會取得使用者拍攝的時間、 地理位置、拍攝方向、拍攝角度、當時的天氣狀況…等資訊,並且將所有 的數值都自動寫入到與該照片對應的 MPEG-7 檔案裡的標籤內容。 d. 程式建議標籤:使用者拍攝完照片之後,除了透過智慧型手機所取得的資 訊會自動寫入到 MPEG-7 檔案的標籤內容,亦會詢問拍攝者的當時的心情 為何,藉此給予照片標籤的建議註記。而使用者自行選擇由軟體提供的提 示選項之後,便會寫入到 MPEG-7 檔案裡的標籤內容。. 政 治 大 之外,使用者在拍攝照片後也可以自行輸入關於這張照片的「照片標題」 立. e. 手動加入標籤:在本實驗中除了提供「自動」與「建議」的兩項標籤功能. 以及上傳到 Facebook 時也可以為這張照片述說一段關於這張照片的一些. ‧ 國. 學. 文字。而這些手動加入的文字訊息也會成為標籤而寫入到 MPEG-7 的檔案. ‧. 裡面。. y. Nat. f. Facebook API:為了能夠透過 Facebook 的朋友協助建立標籤(Tag),所以. er. io. sit. 本程式在上傳照片到 Facebook 之前需有 Facebook 的帳號登入使用。而透 過 Facebook 所提供的 Facebook API 能夠讓本研究的程式取得 Facebook 使. al. n. v i n 用者的使用者名稱、發佈到塗鴨牆(publish stream)、打卡(publish checkins)、 Ch engchi U 照片上傳(photo upload)…等權限。. 照相程式的運作過程如圖 3-1 所示,使用者透過本實驗的照相程式並使用 Facebook 帳號登入。進行拍照時,會記錄拍下的時間、GPS、拍照角度以及拍照 時所面對的方向。而在標籤註記的方式則有「自動建立的標籤」 、 「建議輸入的標 籤」與「自行輸入的標籤」三種。所以拍照時所產生照片檔案以及相關的標籤都 會以 MPEG-7 的檔案方式一併存放在伺服器之中。. - 23 -.

(37) Tags. facebook帳號登入. 拍攝照片. 自動建立標籤 建議輸入標籤 自行輸入標籤. 相片檔案 MPEG-7. 立. •時間 •GPS •方向 •角度 •心情 •天氣. 上傳Server或 Facebook. 政 治 大. 圖 3-1 照相程式運作流程圖. ‧ 國. 學 ‧. 3.1.2 照片檔案伺服器. y. Nat. 當使用者透過本研究的實驗軟體拍照時,會將相片檔案上傳到伺服器;以及. n. al. er. io. sit. 照片的 Metadata 也會一併存放在以 MPEG-7 建構的 XML 檔案裡面(如圖 3-2)。. Ch. engchi. i n U. v. Photo. Annotation. Tag <時間> <GPS> <角度> <方向> <心情> <天氣>. <系統自動標註> <系統建議標註> <自訂標註標籤> <群眾標註標籤>. Server <相片> <MPEG-7> 圖 3-2 伺服器資料存放類型 - 24 -.

(38) 3.1.3 Facebook 社群網絡的應用 在過去的使用經驗發現,Facebook 對於上傳的照片,會將照片中的 Metadata 都予以清除。於是如果要透過 Facebook 的會員達到群體註記標籤的方式,就一 定要能夠記錄上傳到 Facebook 之前照片的 Metadata,而在本研究是藉由 MPEG-7 檔案來儲存照片的 Metadata 資訊。. 如圖 3-3 所示,若是使用者希望把拍攝的照片上傳到 Facebook 分享,則在 上傳之前就會先上傳這張照片與 MPEG-7 檔案到本研究的伺服器存放。而使用. 政 治 大 (Tag)或是留言(Comment),則標籤與留言的資訊會回傳到伺服器,寫回在同一張 立 者在 Facebook 社群網站的朋友看到了這張分享的照片時,若是協助註記了標籤. Facebook. n. al. er. io. sit. y. Nat. Photo upload. Photo upload. Server. ‧. ‧ 國. 學. 照片裡的 MPEG-7 檔案之中。. Ch. engchi. iv Tagging & n U. Comment. <Tag><Tag> <Comment> <Comment>. 圖 3-3 Social Tagging 示意圖. 整合起來的系統架構圖,如圖 3-4 所示。透過智慧型手機所拍攝的照片,以 MPEG-7 的檔案型態記錄照片的 Metadata 並加以存放在本實驗的伺服器之中;透 - 25 -.

(39) 過上傳到 Facebook 的功能,便能夠結合社群的群眾力量,加以協助建立標籤。 而圖片的標籤資訊越多,便能夠有效的提升照片搜尋的精確率。. USER. User Interface. 政 治 大 File Upload. Image Retrieval. 立. Query Interface. Photo. ‧ 國. 學. MPEG-7. Facebook. Query Processing. ‧. Social Tagging. y. Nat. sit. n. al. Ch. Tagged Name Comment. er. io. MPEG-7 based Database 圖 3-4 系統架構圖. engchi. i n U. v. 第二節軟體開發與設計 本研究的軟體使用 Java 程式語言所撰寫的 Android 手機應用程式。由於智 慧型手機程式的操作方式是由一個頁面切換至另一個頁面,所以在開發軟體之前, 須先將所有的使用者介面架構與使用者介面流程規劃妥當,才不會造成日後設計 上的困難與頁面之間切換的邏輯錯誤。以下說明在本研究的程式開發前所設計的 使用者介面(User Interface,UI)架構圖與使用者介面設計圖。. - 26 -.

(40) 3.2.1 使用者介面架構 軟體的架構設計,是以「拍照」 、 「照片顯示」以及「照片搜尋」做為主要的 功能項目,然後再依這三個主要功能項目發展出相關的輔助與次要功能,例如「上 傳到 Facebook」 、 「上傳到 Server」 、 「照片儲存」與「照片刪除」等功能。整體的 使用者介面架構規劃如圖 3-5 所示。. 相片瀏覽清單. 立. 照片搜尋. 學 照片刪除. 搜尋結果. sit. y. 照片資訊. ‧. 上傳到. n. al. er. io. 上傳到 Server. 相片儲存. 照片顯示. 照片分享. Nat. 相片預覽 編輯. ‧ 國. 拍照. 寫入 MPEG-7. 政 治 大. Facebook. Ch. engchi. i n U. v. 圖 3-5 UI 架構圖. 3.2.2 使用者介面設計 在完成了使用者介面的架構規劃之後,便要針對每一頁所顯示頁面內容進行 使用者介面的設計。在使用者操作介面的設計上,採用頁面上方建立導覽列 (Navigation Bar)的方式,並且將最主要的功能項目:「顯示已拍攝的照片列表」、 「拍攝照片」以及「搜尋照片」放在導覽列裡面方便使用者快速切換至該功能。 而在導覽列下方的區域,則是設計為可以捲動顯示的版面設計,讓下方的區域可 - 27 -.

(41) 以透過捲動的顯示方式放置更多的資訊。整體的使用者介面設計圖,茲列於圖 3-6 至圖 3-13 所示。. 立. 政 治 大. ‧. ‧ 國. 學. 圖 3-6 讀取動畫頁面. 圖 3-7 照片顯示列表. n. er. io. sit. y. Nat. al. Ch. engchi. 圖 3-8 照相頁面. i n U. v. 圖 3-9 拍完照的預覽畫面 - 28 -.

(42) 政 治 大. 立. 圖 3-10 照片觀看頁面. 圖 3-11 照片上傳頁面. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 圖 3-12 照片搜尋輸入頁面. i n U. v. 圖 3-13 照片搜尋結果. - 29 -.

(43) 第三節 研究設計 本研究設計分為兩個階段,以「問卷調查法」與「實驗法」進行。第一階段 的前期測試先藉由分析行動傳播研究(X-Mind)計畫中使用者在照相行為方面的 數據,了解使用者利用智慧型手機拍照的行為。透過受試者行動裝置內的紀錄軟 體,累積資料分析出使用者拍照的時間、地點;然而尚有部分資訊無法直接分析 得到,於是以「問卷調查法」的方式了解使用者在使用智慧型手機時的照相頻率、 數量,以及拍照前後的行為。. 政 治 大 研究所開發的照相應用程式 立,可以讓使用者在拍照後自行選擇是否將照片分享於 第二階段的「實驗法」將會透過自行開發的手機照相軟體進行實驗。藉由本. ‧ 國. 學. Facebook 社群網站或只是存放於手機的記憶卡之中,但使用者每天都必須將照 片與 MPEG-7 檔案上傳到本研究的伺服器當中以供分析研究之用。. ‧. Nat. sit. y. 3.3.1 前期測試. n. al. er. io. 行動傳播研究計畫為國立政治大學資訊科學系與傳播學院共同合作的研究. i n U. v. 計畫,其研究團隊為「資訊科技的異想世界(英文名為 X-Mind)」。透過跨領域結. Ch. engchi. 合資訊科技與傳播領域的專業知識,跨越研究成員原本之專業知識與思維,整合 不同專業領域之實務型應用研究。研究團隊之成員包含資訊科學系、傳播學院, 以及教育學院等領域的教授,其研究方向則包括行動傳播實驗平台、新媒體實驗 環境、媒體產製與營運平台、數位內容與科技,並以智慧型手機為基礎,藉由實 驗軟體的開發加以收集使用者經驗,分析使用者行為。. 行動傳播研究(X-Mind)計畫屬於長期性的研究計畫,每一期以兩個月做為實 驗時間,並且每一期皆公開徵求志願參加的受試者。本論文之研究首先以此計畫 做為前測實驗,而在本研究時期參與行動傳播研究(X-Mind)計畫的志願者總數為 - 30 -.

(44) 二十八人,藉由該計畫的受試者及其使用智慧型手機做為人際傳播的工具,透過 實驗設備中的智慧型手機的照相鏡頭與軟體日誌紀錄,研究與分析使用者在使用 智慧型手機時的拍照行為。. 於是本研究的前測實驗時間為期二個月,在此期間促使二十八位的參與實驗 的受試者能夠使用智慧型手機的攝影鏡頭紀錄生活、拍攝照片。並且在不限制使 用者使用任何的照相軟體的情形之下,讓使用者的使用紀錄檔(Log)持續傳送到 行動傳播研究(X-Mind)計畫的伺服器,並透過接收到的記錄,加以分析使用者的 行為。. 立. a. 實驗設備與軟體. 政 治 大. ‧ 國. 學. 在 X-Mind 研究計畫裡,提供了每位受試者使用不同型號的 Android 手機做. er. io. sit. y. Nat. Huawei IDEOS、HTC HD2、Samsung i908。. ‧. 為使用者行動裝置實驗器材。手機型號包括了:HTC Desire 、Motorola XT701、. 在軟體的部分,行動傳播研究(X-Mind)團隊開發了兩套做為整個研究的系統. al. n. v i n 實驗程式,一個是伺服器端的程式,另一個則是手機端的應用程式。在手機端的 Ch engchi U 應用程式方面,行動傳播研究(X-Mind)團隊所開發的是一套能夠記錄使用者在手 機上程式開啟行為的軟體,記錄使用者開啟的軟體名稱,以及軟體開啟的時間、 地點,均詳實的記錄在使用者日誌(Log)裡;在伺服器主機的部分,搭配受試者 手機中的記錄軟體,持續不斷地接收來自受試者行動裝置的使用者日誌,藉由接 收到的日誌檔數據加以分析。. b.實驗對象與實驗時間 在研究人們拍照習慣的實驗裡,行動傳播研究(X-Mind)的實驗者來自國立政 - 31 -.

(45) 治大學廣電所、資科所、數位內容碩士學位學程,共二十八位受試者,為期兩個 月的實驗時間。在此期間不限定使用者使用什麼照相軟體。而受試者使用相機軟 體拍照時,要求使用者能夠開啟 GPS 的定位服務。如此透過紀錄器回傳到 Server 時,便能夠了解使用者的拍照時間及地點。. c. 發現與討論 首先從行動傳播研究(X-Mind)計畫兩個月的實驗期間,使用者操作手機時所 開啟的軟體 Log 數據分析。從圖 3-14 可以看到,以開啟照相軟體的次數來看,. 政 治 大 14:00~16:00 。 而 拍 照 時 間 最 多 的 前 五 名 落 在. 可以推測出是使用照相軟體拍照的行為,進而了解每位受試者照相的時間區間與 拍照次數最多的時間是在. 立. 12:00~22:00,於此期間拍照的行為是比其他時段來得密集與頻繁。. 100 0. 169. al. 54. 47. 196. Ch. 66. 670. sit. 491. n. 200. io. 400. 689. 618 407. er. 500. 790. y. ‧ 國. 600. Nat. 照相軟體開啟次數. 700. 721. ‧. 800. 300. 學. 900. engchi. i n U. v. 照相軟體的開啟時間 圖 3-14 照相軟體開啟次數之時間分布圖(本研究整理,2011). d.問卷調查使用者標籤註記行為 接下來的使用者行為是本由研究者自行設計的問卷調查,藉此了解受試者使 用手機照相的前後行為,發現使用手機照相之前最常有的行為所佔的比例為:逛 - 32 -.

(46) 街 71%、吃飯 50%、上網 36%、玩遊戲 14%、閱讀 14%、上課中 14%、聽音樂 7%、做作業 0%、看電視 0%、其他行為 14%;而使用手機照相之後的行為所佔 的比例為:上傳到 Facebook 71%、自己預覽拍的如何 57%、拍好的照片拿給周 圍的朋友看 43%、為照片加上特效 29%、僅儲存 21%、其他行為 29%。. 在行動傳播研究(X-Mind)計畫的數據中得知,拍照的高峰期落在 14:00 之後, 而且一直延續到 22:00 會趨於下降;而從問卷調查的結果得知,手機的照相行為 通常會在吃飯、逛街的休閒活動中發生;而在手機拍完照之後最常發生的行為就. 政 治 大 街與吃飯的時刻拍下照片,並且願意大方的透過社群網站分享心中的愉悅感。 立. 是上傳到社群網站分享。也就是說大多數的人們喜歡在中午過後的時段,外出逛. ‧ 國. 學. 接著從問卷中也發現到如圖 3-15 所示的結果,使用者利用社群網站分享照. ‧. 片的頻率最高的是「一週一次」 。而從圖 3-16 可以得知,上傳照片時,我喜歡為. sit. y. Nat. 照片加上標籤的使用者,「非常同意」加上「同意」的使用者已經達到 50%;圖. io. al. er. 3-17 顯示,如果系統有建議的標籤項目可以選擇,會為照片加上適當標籤的使用. n. 者,表示「強烈同意」的使用者從原本的 7%上升至 14%,而「不同意」的使用. Ch. 者也從原本的 22%下降至 7%。. engchi. i n U. v. 在此階段的實驗裡,發現受試者在使用智慧型手機拍完照片之後,佔有很大 比例的使用者會直接上傳到 Facebook,但是在社群網路上傳照片的調查中卻發 現最多的使用者是「一週上傳一次」照片。如此可以推斷出智慧型手機由於具有 上網功能並且安裝了 Facebook 軟體,所以會讓使用者想要在第一時間就分享自 己所拍攝的照片。並且從問卷調查中也發現受試者希望系統能夠提供建議的標籤 可供使用者使用(本研究整理,2011)。. - 33 -.

(47) once every 3 months 0%. once a day 14%. other 14%. once every 3 days 14%. once a month 22% once a week 36%. 圖 3-15 利用社群網站分享照片的頻率(本研究整理,2011). 立. 政 治 大. strongly agree 7%. strongly disagree 14%. ‧ 國. 學. disagree 22%. agree 43%. ‧. neutral 14%. er. io. sit. y. Nat. al. n. 圖 3-16 上傳照片時,喜歡為照片加上標籤的使用者分布圖(本研究整理, 2011). Ch. strongly agree 14%. engchi. agree 29%. i n U. v. strongly disagree 14% disagree 7%. neutral 36%. 圖 3-17 如果系統有建議的標籤項目可以選擇,會為照片選擇加上適當的 標籤的使用者分布圖(本研究整理,2011). - 34 -.

數據

圖 2-3 MPEG-7 標準的範圍
圖 2-4 MPEG-7 元素架構圖,來源:MediaLab(2003)
表 3-2  本研究 MPEG-7 標籤定義
圖 4-11 Facebook Graph API 查詢

參考文獻

相關文件

JPEG (Joint Photographic Experts Group) encoding is used to compress pictures and graphics, MPEG (Moving Picture Experts Group) encoding is used to compress video, and MP3 (MPEG

(A) 重複次數編碼(RLE, run length encoding)使用記録符號出現的次數方式進行壓縮 (B) JPEG、MP3 或 MPEG 相關壓縮法採用無失真壓縮(lossless compression)方式

八、 應檢人參加技術士技能檢定學科或術科採筆試非測驗題職類,測試使用計算器,除

含一台雙口機及一台備 用機(備用之機器可為單 導流嘴或雙導流嘴);調 整出水量為 30ml、60ml

MP4:屬於 MPEG 的其中一類,具有版權保護功能,是現今主流的音訊、視訊格式,例如 YouTube 便是採用 MP4

Mehrotra, “Content-based image retrieval with relevance feedback in MARS,” In Proceedings of IEEE International Conference on Image Processing ’97. Chakrabarti, “Query

Keywords: Computer game applications; CCNA Certification Training; digital content design; game-based Learning;

解決方案:取出圖表說明並開啟原始的 PDF 檔供使用者瀏覽 利用資料庫語法來可得知圖表所在的位置,因此可使用 adobe acrobat 函式庫中的