• 沒有找到結果。

多語系個人飲食攝影註記典藏系統輔以群眾外包 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "多語系個人飲食攝影註記典藏系統輔以群眾外包 - 政大學術集成"

Copied!
70
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 . 立. 政 治Thesis Master’s 大. ‧ 國. 學. 多語系個人飲食攝影註記典藏系統輔以群眾外包 . ‧. sit. y. Nat. Multilingual Personal Dietary Photograph Annotation. n. er. io. System with The Assistance of Crowdsourcing al v i n Ch engchi U 研 究 生:林睦叡 指導教授:郭正佩 . 中華民國一百零三年六月 June 2014 I. .

(2) 多語系個人飲食攝影註記典藏系統輔以群眾外包 Multilingual Personal Dietary Photograph Annotation System with The Assistance of Crowdsourcing . 研 究 生:林睦叡 Student:Mu-Rui Lin 指導教授:郭正佩 Advisor:Pei-Jeng Kuo . 立. 政 治 大 . ‧ 國. 學. 國立政治大學 資訊科學系 . ‧. 碩士論文 . Nat. y. . er. io. A Thesis . sit. . n. al Submitted to Department of Computer Science iv n U engchi National Chengchi University . Ch. For the degree of Master In Computer Science . 中華民國一百零三年六月 June 2014 II.

(3) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. III. i n U. v.

(4) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. IV. i n U. v.

(5) 誌謝 . 在政治大學的這三年,一路走來雖然艱辛,但也收穫良多。首先要先 感謝指導我的郭正佩教授,在研究的道路上為我指點迷津,也培養我的思 考邏輯能力,讓我可以順利的完成碩士論文。研究之外,更改變了我對於 人生的思維,也給我許多磨練應用程式開發能力的機會。同時也感謝我的. 政 治 大. 碩士論文口試委員李蔡彥教授與蔡昌隆教授,對於我的論文給予肯定,並. 立. 提供我在論文上的寶貴建議,讓我從中學習到許多。 . ‧ 國. 學. 感謝政大資科系的所有老師,因為你們的認真,讓我能在這個地方不. ‧. 斷的充實自我。我也感謝實驗室的朋友們,圃鳴學姊、柏諺學長、瑋誠學. sit. y. Nat. 長、信廷學長、旭峰學長、竣翔學長、俊輝、梳雲、浩偉、怡婷、志明、. er. io. 劉澤、哲立、禔多、奕安、文全、蕙盈、偉強,在研究所的一路相伴,為. n. a. l C 碩士生涯留下許多美好的回憶。 . hengchi. i n U. v. 感謝我的母親,您的一路支持與陪伴,讓我順利的完成學業。感謝我 的父親,雖然您無法親眼看到我完成碩士學位,但我仍然想跟您說,我畢 業了。感謝我的女友,你在我碩士生涯最忙碌的時期出現,陪伴我走過那 最令人崩潰的時刻,讓我順利完成論文。最後,由衷感謝在這個人生階段 當中所遇到的人們,祝你們事事順心、心想事成。 林睦叡 中華民國一〇三年六月 . i.

(6) 多語系個人飲食攝影註記典藏系統輔以群眾外包 . 摘要 . 本研究於個人數位註釋應用程式 iPARIS 上,建立影像標籤註釋之功能,稱. 政 治 大. 為 iPARIS-PLUS。它提供不同於以往文字註釋的新方法,讓使用者可以有另. 立. 一種選擇,也同時解決在面臨多國語系時的註釋問題,並有效的降低記錄. ‧ 國. 學. 所花費之時間。iPARIS-Plus 能讓使用者保有在行動裝置上紀實之便利性的. ‧. 同時,也能兼顧記錄的完整性,讓人們不再將記錄視為一種麻煩。除此之. sit. y. Nat. 外,我們透過群眾外包的力量將用於註釋的影像標籤轉換為文字後儲存於 資料庫中,解決原先因多國語系註釋問題讓使用者無法輸入文字,導致資. er. io. n. a 料庫缺少該筆資料而造成資料空缺。在評估方面,受測者認為影像標籤註 iv l C n U h engchi 釋之方法可以有效的解決多國語系註釋之問題,以及有效節省在行動裝置 上打字之時間,更加強了記錄的便利性與完整性,同時也帶來不同以往的 新鮮感。而我們藉由群眾外包得到良好的解析率,並且從歷程記錄中發現 群眾外包於運作上,越多專業之群眾並不一定帶來越好的成果,只仰賴少 部分專業之群眾提供貢獻,反而能減少問題產生,進而得到較好之結果。 關鍵字:群眾外包、飲食記錄、影像標籤、多國語系問題 . ii. .

(7) Multilingual Personal Dietary Photograph Annotation System with The Assistance of Crowdsourcing Abstract In this study, we created the function of image tags annotating in the application, iPARIS-Plus.. It provided a new method of annotation which is different from. the text annotations, therefore,. users could have another choice.. This. 政 治 大 effectively when users take 立 for the record. iPARIS-Plus allows users to retain. function could solve the problem of multilingual annotation and reduce the time. ‧ 國. 學. the convenience of recording on their mobile device, at the same time, it also. considers the integrity of the records, so let people will no longer feel recording is a trouble.. In addition, we converted the image tags that used to annotate into. ‧. text through the crowdsourcing system to solve the problem which users. y. In the evaluation, users argued that the image tags annotation. sit. databases.. Nat. couldn’t enter text because of the multilingual annotation, it resulted in a lack of. er. io. method could solve the problem of multilingual annotation effectively, as well. n. a l on their moblie devices, as saving the time they typing i v even more it can enhance n. C. U got a good resolution rate of the integrity and conveniencehofe records. n g c h i We. converting the image tags into text by crowdsourcing system and found that more professional crowds do not bring better results.. On the contrary, we. could rely on a few of professional crowds to reduce the problems, then got a better results. Keywords: crowdsourcing, foodlog, image label, multilingual problem. iii.

(8) 目錄 第一章 緒論 ........................................................................................................................................................ 1 1.1 研究背景 .............................................................................................................................................. 1 1.2 研究動機 .............................................................................................................................................. 2 1.2.1 紀錄行為轉變 ............................................................................................................................. 2 1.2.2 輔助飲食記錄程式 ................................................................................................................... 4 . 政 治 大. 1.3 研究問題 .............................................................................................................................................. 5 . 立. 1.4 研究目的 .............................................................................................................................................. 6 . ‧ 國. 學. 1.5 研究架構 .............................................................................................................................................. 7 第二章 文獻探討 .............................................................................................................................................. 8 . ‧. 2.1 飲食結合科技之研究 ...................................................................................................................... 8 2.1.1 烹飪與飲食科技相關研究 ..................................................................................................... 8 . y. Nat. sit. 2.1.2 飲食記錄概述 ........................................................................................................................... 12 . er. io. 2.1.3 飲食記錄系統 ........................................................................................................................... 12 . al. 2.1.4 小結 .............................................................................................................................................. 15 . n. v i n Ch 2.2 影像內容描述與檢索 .................................................................................................................... 16 U i e h n gc 2.2.1 MPEG-7 概述 .............................................................................................................................. 16 2.2.2 MPEG-7 標準 .............................................................................................................................. 16 2.2.3 以 MPEG-7 為基礎的影像註記系統 ................................................................................ 18 2.2.4 小結 .............................................................................................................................................. 22 2.3 群眾外包系統基礎 ......................................................................................................................... 23 2.3.1 群眾外包概述 ........................................................................................................................... 23 2.3.2 群眾外包相關研究 ................................................................................................................. 23 2.3.3 小結 .............................................................................................................................................. 29 2.4 文獻總結 ............................................................................................................................................ 29 第三章 研究方法 ............................................................................................................................................ 30 . iv.

(9) 3.1 系統架構 ............................................................................................................................................ 30 3.2 影像標籤解析系統 ......................................................................................................................... 31 3.3 iPARIS-PluS ........................................................................................................................................ 33 3.4 結論 ...................................................................................................................................................... 37 第四章 評估 ...................................................................................................................................................... 38 4.1 實驗說明與流程 .............................................................................................................................. 38 4.2 實驗限制 ............................................................................................................................................ 39 4.3 評估方法 ............................................................................................................................................ 39 4.4 評估結果 ............................................................................................................................................ 40 . 政 治 大. 4.3.1 iPARIS-Plus 受測者問卷 ....................................................................................................... 40 . 立. 4.3.2 影像標籤之解析率與解析歷程 ......................................................................................... 44 . ‧ 國. 學. 第五章 討論 ...................................................................................................................................................... 47 5.1 iPARIS-PluS 受測者問卷探討 ...................................................................................................... 47 . ‧. 5.2 影像標籤解析率與歷程探討 ...................................................................................................... 48 . sit. y. Nat. 第六章 結論與未來展望 .............................................................................................................................. 50 . io. er. 參考文獻 ............................................................................................................................................................. 52 附錄 ...................................................................................................................................................................... 57  . n. al. Ch. engchi. v. i n U. v.

(10) 圖目錄   圖 1 MEMEX 的概念圖。 ........................................................................................................................... 2 圖 2 2012 KPCB 智慧型手機拍照數量超過輕便相機。 ................................................................. 3 圖 3 2014 上傳相片至 FLICKR 的載具統計。 .................................................................................... 4 . 政 治 大 圖 5 拍攝教學影片時加入感應裝置與鏡頭。 ................................................................................. 10 立. 圖 4 食材辨識與食譜導讀之結合。 ....................................................................................................... 9 . 圖 6 以食材搜尋可烹飪之食譜。 ......................................................................................................... 11 . ‧ 國. 學. 圖 7 自動標籤功能畫面。 ........................................................................................................................ 11 . ‧. 圖 8 使用者校正系統對於飲食照片偵測之結果。 ........................................................................ 14 . sit. y. Nat. 圖 9 每人每天應攝取的營養成份份量與飲食五大分類。 ......................................................... 14 . io. er. 圖 10 FOOD LOG SYSTEM 顯示個人飲食種類比例圖。 .......................................................... 15 圖 11 多媒體描述架構(MDS)。 .............................................................................................................. 18 . al. n. v i n Ch 圖 12 GEOTAG RELATED ONTOLOGY(GRO)。 21 U e n g c h i .......................................................................... . 圖 13 iPARIS 介面。 ................................................................................................................................... 22 圖 14 FLIRT 模型的五種面向。 ............................................................................................................ 25 圖 15 四種類型的群眾外包系統。 ....................................................................................................... 28 圖 16 系統架構圖。 .................................................................................................................................... 31 圖 17 影像標籤解析系統顯示任務圖。 ............................................................................................. 32 圖 18 手機應用程式操作流程圖。 ....................................................................................................... 34 圖 19 註釋模式畫面。 ............................................................................................................................... 34 圖 20 開啟製作標籤功能與選擇標籤顯示之位置。 ..................................................................... 35 . vi.

(11) 圖 21 進入製作影像標籤功能之流程。 ............................................................................................. 35 圖 22 製作影像標籤。 ............................................................................................................................... 36 圖 23 影像標籤完成圖。 .......................................................................................................................... 37  . 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. vii. i n U. v.

(12) 表目錄 . 表 1 問卷第一部分整理統計。 .............................................................................................................. 41 表 2 中文、外文的操作時間差異整理統計。 ................................................................................. 42 表 3 操作感想整理統計。 ........................................................................................................................ 42 表 4 影像標籤註釋功能之接受程度。 ................................................................................................ 43 . 治 政 表 5 解析錯誤的餐點名稱照片與解析之答案。 ............................................................................ 45 大 立 表 6 歷程記錄統計平均值。 ................................................................................................................... 46 ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. viii. i n U. v.

(13) 第一章 緒論 1.1. 研究背景 . 政 治 大 從人類懂得紀錄以來,我們以泥土、牆壁或繩結等開始,慢慢演變到紙張。隨著 立. ‧ 國. 學. 時代改變,電腦的出現影響了人們紀錄的方式,而後出現的手機與平板電腦,除了影響 紀錄方式之外,更大大改變了人們的生活,甚至撼動了紙張與電腦在人們心中的地位。. ‧. 我們從有形且容易遺失的紀錄方式,轉為數位化的紀錄,得以保留更多生命中的瞬間,. y. Nat. er. io. sit. 除了是自己美好的回憶,這些紀錄也許能為他人帶來一些影響。然而現在人們可以快速 增加資料,但卻很難找到想要的資料。 . al. n. v i n Ch 最早的生命記錄相關研究約在六十年前,Vannevar e n g c h i U Bush 所提出的未來願景「記憶 擴大機 Memex」[2],如圖 1。它是一種儲存個人所有資料與通訊的設備,可以快速並靈 活地存取資料。它是人類記憶的擴大裝置,因此基於人類的思維模式,資料的索引是透 過聯想,而非由系統給定的固定索引。而微軟的首席研究員 Gordon Bell 也在 1998 年開 始了完全記憶之旅,他主張將人的一生所經歷的事物,如書籍、照片、音樂、郵件、帳 單等等,皆以數位化的方式保留,並且應該自動達成以減少人們的負擔[8]。他認為,整 個社會已經朝著完全記憶的道路前進,此後也如他所言,有著越來越多的研究與應用開 始蓬勃發展,讓人們能輕鬆開始個人的完全記憶之旅。 . 1.

(14) 立. 政 治 大. ‧ 國. Memex 的概念圖。 資料來源:[2] . ‧ sit. y. Nat. 1.2. 學. 圖1. 研究動機 . er. io. 紀錄行為轉變 a. n. iv l C n hengchi U 過去的年代裡,我們需要隨時攜帶相機,才能將有趣的人事物、美麗的風景,拍成. 1.2.1. 一張張的相片來記錄生活點滴。儘管寫下的記錄並不一定完整,我們仍會在照片的背後 以文字描述當時的情形,亦或寫在紙張上,與相片好好的保存在相本中,不讓美好的回 憶隨著時間的轉變而淡忘。而現在的生活中,隨著科技的進步與網路的普及,具有相機 功能的智慧型手機,其拍照品質已經能媲美一般的數位相機。在 2012 KPCB Internet Trends Update 中顯示使用智慧型手機拍照之數量已在 2008 年超過輕便相機[26],如圖 2。 以及 FLICKR 在上傳相片的載具統計中也顯示智慧型手機的上傳數量已超過相機的上. 2.

(15) 傳數量,期間從 2013 年 6 月至 2014 年 5 月[4],如圖 3。由此可知,有越來越多的使用 者選擇用智慧型手機來進行拍照,也能直接使用智慧型手機來進行記錄,相較於過去的 事後記錄,顯得更加接近當下的瞬間。 . 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n C h智慧型手機拍照數量超過輕便相機。 2012 KPCB engchi U. 圖2. 資料來源:[26]. 3.

(16) 圖3. 立. 資料來源:[4]. ‧. ‧ 國. 學. 1.2.2. 政 治 大. 2014 上傳相片至 FLICKR 的載具統計。. 輔助飲食記錄程式 . y. Nat. er. io. sit. 現代社會由於智慧型手機的普及使得手機應用程式如雨後春筍般的出現,其中也不 乏有輔助使用者記錄飲食的應用程式,如:Foodspotting、Evernote Food 等。Evernote Food . al. n. v i n Ch 是一款相當不錯的美食拍照記錄專用筆記,透過自動定位用餐地點與時間,只要拿起手 engchi U. 機拍下美食就能快速寫出一篇飲食日記或是一道食譜,甚至也能當作日記軟體來使用。 它不只記錄你吃過什麼,更要把一個人生活中和美食有關的真實流程串連起來。 Foodspotting 是一個上線已經一段時間的美食社群,它讓使用者上傳自己拍下的食物照 片,註明餐廳地點、餐點名稱,發佈到社群中與他人分享。當建立一定數量的資料後, 使用者就能隨時透過該社群的力量,查詢所在地點附近有沒有一些備受推薦的美食,來 解決人們常常思考要吃什麼的問題,受歡迎的程度甚至大於 Evernote Food。除了手機上 簡便的紀錄應用之外,也有許多提供飲食紀錄服務的網站,如:Lose It!、FoodLog 等。. 4.

(17) 這些網站的服務與手機上的應用較為不同,其主要提供的功能在於個人的體重管理,透 過使用者的飲食紀錄來計算飲食是否過量或者評估飲食是否均衡,並藉由不同的呈現方 式,讓使用者快速了解自己的飲食情況。若有不當飲食的情況出現,也能讓使用者在看 到個人飲食紀錄資訊的當下產生自我警訊,並自發性的改變飲食行為。 . 1.3. 研究問題 . 政 治 大. 現今有許多的飲食紀錄的應用程式,它們讓使用者能記錄下自己的飲食歷程,對於. 立. 大多數的使用者而言,在手機上輸入文字去記錄生活事物,其實是一種麻煩且費時的工. ‧ 國. 學. 作,所以若能讓使用者透過點選的方式來取代輸入去記錄,也較能讓大眾所接受,而且. ‧. 有效節省時間。以 Foodspotting 為例,我們可以透過點選的方式去標記地點以及餐點名. sit. y. Nat. 稱,如果沒有符合之選項,才需要使用者自行輸入。Foodspotting 之作法的確提高了使. n. al. er. io. 用者的使用意願,同時藉由廣大的使用者所貢獻之資料來加強資料庫之完整性。但隨著. i n U. v. 國際飲食文化交流的日益頻繁,這類型之軟體在多國語系的問題上並未有良好的解決方. Ch. engchi. 法,當使用者遇到這類問題時,往往會難以自行輸入文字進行記錄,倘若資料庫中沒有 提供其所需要之選項,將容易導致使用者放棄記錄之行為產生,也等於減少了使用者可 貢獻之資料。 . 5.

(18) 1.4. 研究目的 . 飲食記錄應該是一種長期且重要的生命記錄,這些記錄除了能了解個人的飲食習慣, 它也可以是個人的生命歷程的紀錄,不同的民族、文化背景、社會環境的人,雖可能具 有其獨特的飲食方式,但人終究無法脫離食物繼續生存,由此可知飲食在人類生命中的 重要性,而每一道餐點都可能有著我們許多的回憶。 隨著時代的變化,人們在世界各地遊走之頻率也遠勝從前,這也意味著我們面臨多. 政 治 大. 國語系的問題也越趨頻繁,而在多國語系的問題一直沒有被解決之情況下,將導致人們. 立. 的生命記錄難以完整。因此本研究提出以影像標籤註釋照片之方法,用以完整每一位使. ‧ 國. 學. 用者的個人飲食歷程,除了解決使用者在記錄時面臨多國語系問題之困境,也提供使用. ‧. 者在記錄時以文字註釋之外的另一種方法。而我們同時結合群眾外包系統之力量,將註. sit. y. Nat. 釋用之影像標籤轉換為文字存入資料庫中,以解決使用者原先因多國語系而無法輸入文. n. al. er. io. 字進而影響資料庫完整性之問題。我們希望能藉由參考文獻的理論以及本研究所提出的. i n U. v. 架構,達到以下功能,給予使用者更好的輔助紀錄服務: 1.. Ch. engchi. 建立影像標籤註釋之功能,解決使用者面對多語系問題時無法自行輸入文字作 為標籤的問題,同時也提供使用者除了文字註釋外的另一種選擇。 . 2.. 建立群眾外包系統,藉由群眾外包之力量將影像標籤轉換為文字後儲存,以解 決資料庫完整性之問題。 . . 6.

(19) 1.5. 研究架構 第一章我們介紹了本研究背景,以及研究的動機、問題和目的。第二章我們將會先. 對於科技結合飲食之研究、影像內容描述與檢索以及群眾外包系統基礎進行探討。第三 章則描述本研究所製作之手機應用程式以及群眾外包的運作,介紹兩者如何以影像標籤 讓使用者能夠解決多國語系之問題,並且將標籤資料轉換為文字,以避免資料庫不完整, 也提供給其他使用者再利用。而第四章我們將說明本研究之實驗流程與評估方法,並統. 政 治 大. 整評估結果之數據。第五章我們則針對評估結果之數據進行討論,包含解釋數據代表之. 立. 含意以及從數據中觀察到之現象。第六章將整合本研究之貢獻與結論,並對未來提出可. ‧ 國. 學. 發展或改善之方向。 . ‧. . io. sit. y. Nat. n. al. er. . Ch. engchi. 7. i n U. v.

(20) . 第二章 文獻探討 本章的第一節將探討飲食結合科技之相關研究在近年的方向轉變,以及概述飲食記錄,. 政 治 大. 同時探討關於飲食記錄系統之研究,第二節將介紹 MPEG-7 與 MPEG-7 的標準,以及基. 立. 於 MPEG-7 的 PARIS 與 iPARIS 架構。第三節將介紹群眾外包,並探討群眾外包的相關. ‧ 國. y. sit. 烹飪與飲食科技相關研究 . io. al. er. 2.1.1. 飲食結合科技之研究 . Nat. 2.1. ‧. . 學. 研究。 . v. n. 隨著現在科技的進步,許多家電產品與行動載具都裝配有感應裝置或微處理器,而. Ch. engchi. i n U. 這樣的轉變也讓烹飪與飲食活動之相關輔助研究,在世界各地開始萌芽。近年來也開始 有關於烹飪與飲食活動的研究討論會議,這樣的場合提供了專家學者們一個討論空間, 以及彼此學習的機會,此後對於科技在烹飪與飲食方面之研究便快速的展開。 在 2009 年的相關研究上,主要在於對烹飪行為的輔助,包含透過辨識食材以加強 導讀食譜的功能,讓使用者能在烹飪過程中不需分心閱讀食譜而造成危險[42],如圖 4。 以及對人們在烹飪過程中的提示與建議,甚至特別針對患有因大腦損傷而導致官能障礙 之人士設計一套烹飪輔助系統,藉由影像與提示讓他們能逐步完成烹飪[32]。2010 年仍. 8.

(21) 以輔助烹飪為主,而特別的是不只是透過專業烹飪影片教學來協助使用者,更在錄製教 學影片時加入一些感測裝置與細部動作之攝影鏡頭,讓使用者在觀看的過程中,能注意 到專家在烹飪時的微小細節,使個人技巧增進[37],如圖 5。除此之外,Haoran Xie 等學 者特別對於食譜之檢索加以改良,將食譜的資訊分為烹飪過程、品嚐感受、營養成分以 及影像,整合為 HSI (Hybrid Semantic Item) ,以語意為基礎來加強食譜搜尋之效果[41]。 2011 年,Buykx 等學者想去了解烹飪的人真正需要的協助,其實驗由 16 位受測者透過 3. 政 治 大. 種食譜來烹飪 3 道菜餚,從中發現他們想要的協助為在烹飪步驟中描述所需之食材的數. 立. 量、烹飪中每一階段的圖片、對於不常見的食材準備之教學影片以及各個工具的使用示. ‧ 國. 學. 範影片[3]。而有另一方面,Kayo Iizuka 等學者注意到飲食的推薦,他們讓使用者利用手. ‧. 機透過 Wi-Fi 來找出自己所在的位置,並藉此找出周遭符合其需求之飲食資訊[22]。 . y. sit. io. n. al. er. . Nat. . 圖4. Ch. engchi. i n U. v. 食材辨識與食譜導讀之結合。 資料來源:[42] . . 9.

(22) . 立. 資料來源:[37] . n. al. er. io. sit. y. Nat. . 拍攝教學影片時加入感應裝置與鏡頭。. ‧. ‧ 國. 學. 圖5. . 政 治 大. i n U. v. 2012 年,Kuo Fang-Fei 等學者反其道而行,將過去透過食譜以準備食材的模式改變,. Ch. engchi. 轉為由人們手邊現有之食材來搜尋可烹飪之食譜,使食材的運用更有效率[27],如圖 6。 此外,也有研究開始透過智慧型手機之使用者來精進影像分割的成功率,Morikawa 等 學者藉由使用者在智慧型手機介面上點擊食物在螢幕上之位置來加強食物從影像中切 割出之準確率[33]。而在 2013 年,Bolaños 等學者們透過 SenseCam 來自動取得大量的生 命記錄資料,並藉由階層性分群的方法快速建構出 NP(Not Plate)、P(Plate)與 SP (SemiPlate)的資料集來建立自動標籤之方法,以找出擁有食物相關物件之照片,並在 89709 張照片中驗證此方法帶來之成效[1],如圖 7。 . 10.

(23) 政 治 大. 立. ‧ 國. 資料來源:[27] . ‧. n. al. er. io. sit. y. Nat. . 以食材搜尋可烹飪之食譜。. 學. . 圖6. Ch. 圖7. engchi. i n U. v. 自動標籤功能畫面。 資料來源:[1] . 11.

(24) 儘管在這段期間之內,有眾多烹飪與飲食活動的相關研究,但對於飲食記錄之研究 卻是少有著墨,而我們的研究問題是一個在飲食活動上令人們困擾的大問題,至今仍然 沒有一個解決的方法,更肯定了我們這項研究的動機以及目的。 . 2.1.2. 飲食記錄概述 . 飲食記錄(Food Log)也可以稱為飲食日誌,是一種用來記錄個人飲食習慣的方法,. 政 治 大. 可以文字或圖片的方式來記錄,藉由記錄內容來尋找減重的機會或是改善體質的關鍵,. 立. 通常為營養師推薦難以改變自身飲食習慣的病人去進行記錄,因為個人飲食記錄所帶來. ‧ 國. 學. 的警惕性與影響力,會比飲食的營養成份分析圖來的有效[44]。隨著社群平台的蓬勃發. ‧. 展,飲食記錄的目的也開始慢慢轉變,人們使用智慧型手機或是數位相機記錄自己的飲. sit. y. Nat. 食,透過社群平台來分享給自己身邊的親朋好友,然而這樣的行為並不是一種持續性的. io. al. er. 記錄,主要原因在於記錄上的麻煩與費時,即使是使用了輔助應用程式亦然。儘管如此,. v. n. 人們上傳分享照片的行為,依然帶給學者們研究的動機,從這些行為當中來了解需求, 進而解決不便的問題。 . Ch. engchi. i n U. 2.1.3. 飲食記錄系統 . 飲食記錄系統(Food Log System, http://www.foodlog.jp)是日本東京大學的 Kiyoharu Aizawa 等學者所研究之成果[23-25],其系統允許使用者一次上傳多張照片,不需要自行 剔除與飲食不相關的部分,改由系統進行偵測判斷,並且移除非飲食照片之項目,藉以 減少使用者的負擔,而判斷之結果也會呈現給使用者檢查,使用者可直接將被系統判斷. 12.

(25) 錯誤之照片拖曳至食物照片區之中,這樣的方式能避免系統之錯誤造成使用者的困惑, 同時也有助於偵測準確率的提升,如圖 8 所示。系統也不斷在增加可利用之影像特徵值 並且透過輔助向量機(Support Vector Machine, SVM)來提高精準度,但由於上傳的照 片背景各具差異,以及每位使用者的拍攝手法與當下的環境狀況並不同,導致去除背景 的程序困難度大幅提高,使得在辨識上容易產生問題,因此精準度也會較為偏低。除此 之外,飲食記錄系統也對於使用者上傳的照片進行飲食均衡的分析,均衡的準則如圖 9. 政 治 大. 所示,透過多種的特徵值來進行影像處理,更各個使用者的飲食習慣,進行個人化之分. 立. 析方法,以提高結果的精準度,而分析出之結果將呈現於網頁上,使用者可以藉由網頁. ‧ 國. 學. 上的操作來對分析之結果進行手動調整,這些調整都將作為使用者個人分析上的參考數. ‧. 據。最後系統也提供了資料的視覺化,將資料以日曆的方式做編排,讓使用者可以很清. sit. y. Nat. 楚了解自己在某一段時間的飲食習慣以及飲食是否均衡[31],如圖 10 所示。 . n. al. er. io. 在其他對於食物的影像辨識之研究部分,Hajime Hoashi 等學者針對 85 種不同種類. i n U. v. 的飲食進行影像辨識分類工作[9],他們先對每個分類手動挑選出 100 張照片放入. Ch. engchi. MKL-SVM 中訓練作為基底,再開始進行辨識工作,從中尋找對各個種類特別有效之特 徵值,並改變特徵值權重來提高辨識的精準度,獲得不錯的效果。不同於前者擁有多樣 背景之困擾的食物影像分析研究,如 Pishva 等學者提出之麵包辨識系統[6],其可辨識 73 種不同的「手工麵包」 ,且準確率達 95%,而他們使用特別拍攝的資料集,讓所有照 片擁有統一的背景,因此要將麵包與背景區分出來便容易許多,而 S. Yang 等學者所提 出之美國速食辨識系統,也同樣是擁有統一的背景[32],可以透過一致的拍攝方式與周 圍環境,簡單的去除掉背景再進行辨識工作。 . 13.

(26) 立 圖8. 政 治 大. ‧ 國. 學. 使用者校正系統對於飲食照片偵測之結果。 資料來源:[23] . n. al. er. io. sit. y. . Nat 圖9. ‧. . Ch. engchi. i n U. v. 每人每天應攝取的營養成份份量與飲食五大分類。 資料來源:[25] . 14.

(27) 立. ‧ 國. 學. 圖 10. ‧. 資料來源:[24] . y. . n. al. sit. . er. io. 小結. Food Log System 顯示個人飲食種類比例圖。. Nat. 2.1.4. 政 治 大. i n U. v. 雖然近年來在飲食結合科技的相關研究中多半專注於烹飪行為的輔助,讓使用者在. Ch. engchi. 烹飪上更加得心應手,以及食譜的分析與檢索,讓使用者能輕鬆找到符合自己需求的食 譜資訊。而其中也不乏有對於飲食記錄之研究,這些研究希望將飲食記錄的複雜度降低, 讓使用者能持之以恆的記錄,包含飲食與非飲食照片的偵測,可以減少使用者自行分類 照片的時間,並且將個人的飲食記錄藉由日曆的方法視覺化,提供使用者一種較直覺的 瀏覽方式。除此之外,基於食物辨識方面之研究,利用影像處理技術分析飲食照片中的 各種營養成分之份量,並結合個人化的分析以及機器學習的技術來提高分析的準確率, 儘管不是百分之百的準確,但也確實為使用者帶來便利。 . 15.

(28) 2.2. 影像內容描述與檢索 . 2.2.1. MPEG-7 概述 . MPEG-7 標準,同時也稱為"多媒體內容描述介面"(multimedia content description interface)[34-36],是建立對多媒體內容的描述標準,其滿足包括靜止圖像、圖形、3D 模型、音頻、話音、視頻,以及以上各個元素組合在一起的合成多媒體信息的應用領域 的要求,並兼顧標準的通用性和擴展性的要求。它提供了通用、可擴展的多媒體內容描. 政 治 大. 述框架,以及對描述進行編碼的一種或者多種方法和工具。 作為 MPEG-7 核心的描述. 立. 定義語言是以 XML 語言為基礎,在兼顧其他多媒體描述語言外,也提高了 MPEG-7 標. ‧ 國. 學. 準在各個應用領域之適用性。 . ‧. MPEG-7 標準. sit. y. Nat. 2.2.2. n. al. er. io. MPEG-7 的標準中包含了十二個部分,而每個部分涵蓋了整個規範的某些面向,十二個 部分如下: . Ch. engchi. i n U. v. 1. 系統:MPEG-7 系統包括對描述符進行高效傳輸和存取的工具、對內容和描 述進行同步的工具,以及管理和保護知識產權的工具。目前,MPEG-7 系統 定義了終端的結構和標準的介面 [10]。 2. 描述定義語言:描述定義語言是 MPEG-7 的一個核心部分,它提供了基本的 多媒體描述的方法,使用戶能夠創建自己的描述架構和描述子[11]。 3. 視頻:MPEG-7 視頻描述工具包括用來描述視頻對象的各種描述子和描述架 . 16.

(29) 構。組成部分包括其基本的結構和基本的視覺特徵描述符,如顏色、紋理、 形狀、運動、定位等[12]。 4. 音頻:音頻描述定義音頻描述子的框架,對描述子劃分等級,以方便描述[13]。 5. 多媒體描述架構:MPEG-7 描述架構的結構化和擴展性表明了其複雜的結構並定 義了彼此之間的關係,以便於多媒體內容的描述和管理。描述架構被分為兩大類, 一類是音頻、視頻和文本的媒體數據特性的描述架構;另一類是屬於多媒體的描. 政 治 大. 述架構,如產生、用途和管理等[14],如圖 11。 . 立. 6. 參考軟體:提供實作部分 MPEG-7 標準且具規範性的軟體,予以參考[15]。 . ‧ 國. 學. 7. 一致性測試:MPEG-7 的一致性測試提供了一種檢驗數據流或終端用戶的運作是. ‧. 否符合標準的規定,以確保資源互用性與數據資源全球化的要求[16]。 . y. sit. n. al. er. io. 工具[17]。 . Nat. 8. MPEG-7 描述的提取與使用:提供與 MPEG-7 描述的提取與使用有關的描述 . i n U. v. 9. 檔案與層級:提供指導方針以及標準的檔案格式[18]。 . Ch. engchi. 10. 架構定義:規範使用的描述定義語言的模式[19]。 11. MPEG-7 的檔案架構:包含 XSD(XML Schema Definition)架構形式,即簡易後設資 料檔案(Simple Metadata Profile, SMP) ,使用者描述檔案(User Description Profile, UDP),以及核心描述檔案(Core Description Profile, CDP)[20]。 12. 查詢格式:查詢格式描述工具除了獨立使用外,也能結合上述其他部分一同使用 [21]。 . 17.

(30) 多媒體描述架構(MDS)。 資料來源:[14] . ‧. . 以 MPEG-7 為基礎的影像註記系統 . sit. y. Nat. 2.2.3. 學. ‧ 國. 立圖 11. 政 治 大. n. al. er. io. 2004 年,Kuo, Pei-Jeng 等幾位學者提出了基於 MPEG-7 技術的多媒體描述架構系統,. i n U. v. 稱為 Personal Archiving and Retrieving Image System (PARIS) [28-30] 。它能將空間與時. Ch. engchi. 間的多媒體資訊內容,整合入以 MPEG-7 為基礎的語意描述,來描繪我們的真實世界, 如物件、事件、關係等的多媒體內容。而 PARIS 更延伸了多媒體描述架構的結構化註記 描述子,將多媒體資料註記為十二個語意的屬性,並結合個人的數位攝影集紀錄與搜尋 的功能,來達到數位攝影集的管理。在多媒體資料中所註記的十二個語意的屬性,分別 為 who、what、when、where、why、how 以及 direction、distance 和 duration 這些相關 的數位資訊,稱為 Dozen Dimensional Digital Content (DDDC)。除此之外,幾位學者更提 出了 DDDC 架構的半自動化後設資料生成方法,以減少使用者的麻煩,以及提出基於時. 18.

(31) 間與空間的知識本體(Spatial and Temporal Based Ontology, STO),統計個人攝影的主要 脈絡,並設計出不同的檢索模式,包含時間、空間、個人歷史的本體論、人與人之間關 係的本體論、嗜好、口味以及偏好的本體論。本體論可以理解為領域知識的格式化描述 表達方法,目的是為了提供資訊檢索或資訊溝通所做的準備。PARIS 作為一個設計良好 的註記架構,將能對個人的數位攝影集帶來不小的影響,除了在個人的管理上得到了加 強,更改善搜尋的準確度,以達到更好的搜尋效果。 . 政 治 大. 而在 2012 年 Po-Yan Chen 等提出了以 PARIS 基礎的系統,稱為 integrated Personal . 立. Archiving and Retrieving Image System (iPARIS) [38],該系統利用 Point Of Interest (POI) . ‧ 國. 學. 資料庫,推薦使用者註記的列表,以達到更有效率與簡單的相片註記。除此之外,也更. ‧. 改原先 DDDC 之架構,並稱為 Integrated Dozen Dimensional Digital Content (iDDDC),他. sit. y. Nat. 們對於 DDDC 架構中的 where 屬性提出改進,將原先 DDDC 架構的 where 屬性中的三個. n. al. er. io. 子屬性 Longitude、Latitude 以及 Altitude 合併為 GeoPosition,並且在 where 與 what 的 屬性中加入 Geotag 屬性,其描述如下: . Ch. . engchi. i n U. v. 1. Where:Geotag:描述攝影者拍攝相片時的所在地點。在原來的 DDDC 當中, Longitude 與 Latitude 兩個屬性所提供的資料,要達到位置搜尋的功能有其困難性 存在,原因在於該資料是由攝影者的機器自動給予,我們無法知道機器究竟給予 每一張相片何種位置。 . 19.

(32) 2. What:Geotag:透過 POI 資料庫來為在相片中出現的地點或風景加入地理標記, 作為相片的資訊。當使用者希望在個人攝影集中搜尋某一個地點或風景時,這些 註記資料將能滿足使用者的需求,給予良好的搜尋結果。 另外,他們提出地理標記之間關係的知識本體架構(Geotag Related Ontology , GRO) 並加入系統中,而地理標記的定義為一種將相片、影片、網站等數位的內容加上地理資. 政 治 大. 訊標記,透過這些地理資訊標記可了解數位資料的來源,如:國家、地區、地點、經緯. 立. 度等訊息。GRO 當中包含六個屬性,如圖 12 所示,分別為: . ‧. ‧ 國. 學. 1. Broader Term (BT):關聯空間範圍較大的地名,例如:Provence 可以關聯空間較. sit. y. Nat. 大的 France。 . io. 2. Narrower Term (NT):關聯空間範圍較小的地名,例如:Provence 可以關聯空間. n. al. er. . 較小的 Marseille。 . Ch. engchi. i n U. v. 3. Past Term (PT):關聯目前地名的過去地名,例如:Provence 過去的地名為 Provincia Romana。 4. Future Term (FT):關聯目前地名的未來地名。 5. Synonymous:分為 UseInstead(US)表示關聯目前地名的同義詞,比較偏好使用 同義詞來取代目前地名; UseFor(UF)表示關聯目前地名的同義詞,比較偏好使 用目前地名。 . 20.

(33) 6. Related Term (RT)與 Nearby Term (NB):NB 為關聯目前地名的附近地名,例如: Provence 附近的地名為 Rhône-Alpes。RT 為以上的關聯屬性皆難以表達其關聯時 可使用,例如兩地名之間的關聯為「事件」時,可用此表達。 iPARIS 加強了 PARIS 在 where 屬性上的不足,減少使用者在註記個人攝影集上的 困擾,透過 GRO 的理論來註記的結果,不僅可使系統在個人攝影集上的管理更為簡單,. 政 治 大. 也能達到更好的語意搜尋效果。在 2013 年 Po-Yan Chen 更對於 iPARIS 進行使用性工程. 立. 建構之方法[39],重新再設計行動個人數位化註釋系統之介面與操作流程,以給予使用. ‧ 國. 學. 者更便利的攝影註釋環境,其畫面如圖 13。. ‧. n. er. io. sit. y. Nat. al. 圖 12. Ch. engchi. i n U. v. Geotag Related Ontology(GRO)。 資料來源:[38] . 21.

(34) 立. 政 治 大. ‧. ‧ 國. 學. n. al. 2.2.4. Ch. engchi. y. sit. io. 資料來源:[39] . er. Nat. 圖 13 iPARIS 介面。 . i n U. v. 小結 . 從上面的幾段描述中,我們可以了解到從一開始基於 MEPG-7 的 PARIS 系統,以及 後來改良 PARIS 的 iPARIS 系統,都提供了良好的相片註釋環境,以及加入了知識本體 架構來對各個標籤建立彼此的關聯性,iPARIS 甚至對於介面與操作流程進行使用性工程 建構,以建立更良好的註釋系統。而從這些研究中,發現到他們並沒有對於多國語系問 題有良好的解決方式,因此我們希望能以這樣的註釋系統為基礎,建立以影像標籤註釋 之方法來解決多國語系問題,同時也對於註釋之方法增加另一種選擇。 . 22.

(35) 2.3. 群眾外包系統基礎 . 2.3.1. 群眾外包概述 . 群眾外包是網路帶來的新的生產組織形式,Wired 雜誌記者 Jeff Howe 於 2006 年所 提出的一個專業術語,它的概念是將一些需要仰賴人力完成的工作透過特定的平台,外 包給網路上一群不特定的意願者,處理的內容通常是較為瑣碎且需要大量人力且電腦程 式難以取代的工作。其運作方法是由委託工作者將性質單純、工作量龐大並且耗時的任. 政 治 大. 務,切割成細小瑣碎的工作,直接在網路上號召有意願的群眾參與。這些意願者利用業. 立. 餘時間工作,使用網路來消磨時間,同時也能成為增加額外收入的管道。 . ‧ 國. 群眾外包相關研究 . ‧. 2.3.2. 學. . sit. y. Nat. 2007 年,Viitamaki 提出 FLIRT 模型來評估一個群眾外包專案,模型主要能分成五. n. al. er. io. 種面向[40],包含焦點(Focus)、語言(Language)、誘因(Incentives)、規則(Rules)以及工具 (Tools),如圖 14 所示,其詳細說明如下: . Ch. . engchi. i n U. v. 1. 焦點:焦點是將群眾外包合作的成果與組織的策略聯合一同思考,在選擇焦點時, 需考慮商業的目標與需要、組織的策略與文化限制、以及顧客的價值觀與生活型 態,來衡量是否可行。 2. 語言:語言指的是與顧客的溝通,為了找出適當的「溝通方式」,組織必須要了 解顧客的喜好、使用情境以及他們真正在乎的事情,才能提供顧客願意參與討論. 23.

(36) 的社群目標。若是「溝通方式」不正確,組織將難以吸引到死忠的顧客,無法發 揮群眾外包的效力。 3. 誘因:經濟學十大原理中提到,人們會對誘因作出反應,由於人們在作決策時會 考慮效益與成本,當誘因改變時,效益或成本也會跟著改變,所以人們的行為也 會因而改變。當組織希望顧客能貢獻成果時,必須提供一些誘因,而誘因可分為 內在、外在兩種。內在誘因通常為非物質性的,例如:自我的挑戰、從實作中學. 政 治 大. 習、好奇心等。外在誘因可分為主觀與客觀,主觀的外在誘因,例如:參與感、. 立. 名聲、他人的認同或是資源等。客觀的外在誘因,例如:酬勞、免費的商品等具. ‧ 國. 學. 有價值的物品。能夠揣摩顧客的心理,進而設計出可以吸引顧客的誘因,將使得. ‧. 群眾外包的效力得到提升。 . sit. y. Nat. 4. 規則:將管理群眾外包的規範分為加入、創作、交易與互動這三類。加入時的規. n. al. er. io. 範必須表明哪些服務需要透過註冊、註冊所需資料以及資料的公開與否。創作的. i n U. v. 規範為必須標明格式、尺寸等限制,並應該詳細說明所採用的各項評估準則。交. Ch. engchi. 易與互動的規範則是為了防範惡意會員,先將禁止的行為預先條列清楚明白,避 免管理上的不便。 5. 工具:工具包含了讓群眾聚集的平台,例如:論壇、Youtube、Facebook 等等不 論免費或付費的工具;讓群眾彼此能夠對話,例如:即時通訊軟體;以及進行創 作的工具,若無法提供良好的創作工具給予群眾,即便群眾有強大的創作力量, 也無法產生良好的成果。. 24.

(37) 政 治 大. 圖 14. 學. ‧ 國. 立. FLIRT 模型的五種面向。. ‧. 資料來源:[40] . Nat. y. . sit. . n. al. er. io. 2011 年,Doan 等幾位學者將群眾外包系統定義為「徵求一大群人,以幫忙解決系. i n U. v. 統擁有者所定義之問題的系統。」[5],為了解決這個問題,系統需要訂定一些基礎的方. Ch. engchi. 針,例如:決定使用者所貢獻出成果的類型、招募與保留使用者、結合使用者的成果來 解決問題以及評估使用者與他們的貢獻。而這樣的系統將產生四個重要的基礎設計問 題: 1. What is being done? 指的是群眾所作出的貢獻。 2. Who is doing it? 指的是群眾的性質。 3. Why are they doing it? 指的是群眾的動機或給予群眾的誘因。 . 25.

(38) 4. How is it being done? 指的是群眾外包的過程中,貢獻的匯總與貢獻的評價。 同年,Geiger 等幾位學者從群眾外包案例的驗證分析當中發現,各個案例對於群眾 外包的系統並沒有理論基礎存在。因此,他們發表了 “Crowdsourcing Information Systems – A Systems Theory Perspective”[7],對於群眾外包的系統建立理論基礎分成 兩大類,除此之外,更結合了這兩種理論基礎的層面,得出四種不同類型的群眾外包系. 政 治 大. 統。他們將這四種群眾外包系統稱之為「群眾服務」 (crowd service),如同一般的軟體. 立. 或是數位化的服務,可以讓組織藉由使用群眾服務來解決特定問題。圖 15 闡明了四種. ‧ 國. 學. 類型的系統以及他們各自不同的服務,而四種類型的系統描述如下: . ‧ sit. y. Nat. 1. Crowd processing:群眾處理系統有效的利用大量同質化的外部元素,並將這些. io. 外部元素所產生的貢獻視為互相獨立的單位來進行各別評估。這種對於群眾外包. n. al. er. . i n U. v. 問題的解決方法較具有延展性,也能透過將問題分割並各個擊破的方法來達到快. Ch. engchi. 速且有效的完成任務,而系統的主要核心在於結合各個元素所帶來的貢獻,提供 一個正確的解決方法或結果。站在以群眾為服務提供者的角度而言,這種的系統 可能比其他的系統有著更好的效果,而以人類的智慧來處理電腦所無法解決之問 題的想法,也在人智運算 (human computation) 的領域越來越受到重視。 2. Crowd rating:群眾評價系統也是利用大量同質化的外部元素,不同於群眾處理 系統的各別評估,而是將元素所產生的貢獻集中到群眾外包任務提供的區域,成 為一系列的意見或是共同的評估與預測,再採用統計方法來進行集體評估。在此. 26.

(39) 系統中,每一個貢獻都視為重要的一份資訊,並沒有驗證其正確與否,而群眾外 包的範圍越大,得到的結果也會越精確。 3. Crowd solving:群眾解決系統將外部元素視為異質,並且對於其貢獻,在已定義 好的規則下來評估,因此在某些群眾外包的任務當中,評估的處理可以轉為自動 化的方式進行。系統的核心目的在於透過這些外部元素的貢獻,來取得最有可能 接近最佳解答的貢獻,而每一個貢獻都有可能提供更好的解答,系統也能在得到. 政 治 大. 最佳解答之後立刻中止。例如 Netflix Prize 就是一個很成功的案例,在 2006 年,. 立. Netflix 宣布要重賞美金一百萬元,而條件是要開發出比 Netflix 自行研發的 . ‧ 國. 學. Cinematch DVD 推薦軟體的精準度還要高 10% 以上。之後的三年間,各國專家. ‧. 日以繼夜的努力卻始終達不到這個門檻,於是這些團隊只好彼此再整合,讓演算. y. sit. n. al. er. io. 金領走。 . Nat. 法再進一步的優化,最後由 BellKor's Pragmatic Chaos 團隊以 10.06%的成果把獎. i n U. v. 4. Crowd creation:群眾創造系統也如同群眾解決系統一樣,將外部元素視為異質,. Ch. engchi. 但關鍵性的不同點在於,群眾創造系統並不對於外部元素產生的貢獻進行各別評 估,而是考慮這些貢獻彼此的關係。由於這樣的評估方式並沒有一個很好的理論 或是可以預測結果的方法,因此這個系統的核心目的即在於,對於群眾外包的任 務產生一個令大多數人滿意的結果。如同 Yin 等學者所做的有趣研究[43],使用 者可以透過他們所製作的 APP 來進行拍照,隨後伺服器將照片與群眾所拍攝的 照片進行比對,找出相同地點與時間所拍攝的照片,再透過影像分析,找出與使 用者所拍攝相似的照片。最後對於相片的觀看數與青睞數透過公式來計算分數,. 27.

(40) 並將最高得分的照片推薦給使用者,讓使用者從中學習如何拍攝出能讓群眾喜愛 的照片。 . 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n 圖 15C h 四種類型的群眾外包系統。 engchi U 資料來源:[7] . 這四種不同類型的群眾外包系統,除了良好的定義了系統的框架之外,更呼應了在 本節一開始提到的四個重要的基礎設計問題。未來,對於群眾外包的應用相信會越來越 廣泛,藉由基礎的理論與框架,將能減少系統在開發上的時程,而更專注在想要解決的 問題上。 28.

(41) 2.3.3. 小結 . 從 Netflix Prize 的例子當中,我們了解到若能善用群眾的力量,將可以輕易地完成 許多較為複雜或電腦難以完成的事情,甚至在準確率與效率上也有令人驚艷之成果。因 此我們期盼透過群眾的力量,能將本研究為解決多國語系註釋問題之影像標籤轉換為文 字,並且減少在轉換過程中錯誤的機率,讓資料能夠有效的再次被使用。 . 2.4. 文獻總結 . 立. 政 治 大. 從文獻探討中,我們了解到不論是飲食記錄的相關研究或者基於 MPEG-7 的註釋系. ‧ 國. 學. 統之研究,皆在針對記錄或註釋上對使用者造成的困擾與操作上的費時進行改良。而飲. ‧. 食記錄的研究上,因簡化了註釋的功能部分,造成在長期記錄後於檢索上的困難,僅做. sit. y. Nat. 到完全記錄並無法完整記錄。而在 MPEG-7 的註釋系統方面,iPARIS 加強了註釋的功能,. n. al. er. io. 也透過介面與操作流程的改良,給予使用者更好的註釋環境,但在多國語系之註釋問題. i n U. v. 上並沒有解決的方法,將使得記錄上出現缺漏。另外,在群眾外包的相關研究與幾個成. Ch. engchi. 功案例中,我們也見識到群眾的力量,以及了解該如何運作它來完成較為複雜之事,並 且獲得良好的成果。 . . 29.

(42) 第三章 研究方法 本研究將基於 iPARIS 良好的註釋環境上,加入影像標籤註釋之功能,稱為 iPARIS-Plus,. 政 治 大 期望能解決人們在進行飲食記錄時所面臨到多國語系的問題與提供使用者有別於文字 立. ‧ 國. 學. 註釋的新註釋方式,並且透過基於群眾解決系統之影像標籤解析系統,將影像標籤轉換 為文字,解決原先因多國語系因素導致無法輸入文字註釋,進而影響資料庫完整性之問. ‧. 題。本章將說明整體的系統架構、iPARIS-Plus 操作流程以及影像標籤解析系統的運作. sit. n. 3.1. al. er. io. . y. Nat. 流程。 . 系統架構 . Ch. engchi. i n U. v. 我們在系統架構上共分成伺服器、影像標籤解析系統以及 iPARIS-Plus 手機應用程 式。使用者藉由 iPARIS-Plus 的影像標籤註釋之功能,可直接拍攝的餐點名稱照片後, 用於註釋飲食照片,同時餐點名稱照片將會被傳送至伺服器儲存。而影像標籤解析系統 將從伺服器中取出餐點名稱照片,並開始進行群眾外包任務使該照片轉換為文字,而轉 換的文字部份將會儲存起來,以便提供給所有 iPARIS-Plus 之使用者,整體架構如圖 16。. 30.

(43) 圖 16. 系統架構圖。. io. sit. y. ‧. 資料來源:本研究自製 . Nat 影像標籤解析系統 . er. 3.2. 學. ‧ 國. 立. 政 治 大. al. n. v i n Ch 我們根據第二章的群眾外包系統基礎理論當中所闡述的四種類型,將選擇以群眾解 engchi U 決系統(Crowd Solving)為基礎,建立影像標籤解析系統,將目的設定在解析由 iPARIS-Plus 取得的影像標籤中之文字,並由群眾來提供資訊作為貢獻,透過這些群眾的貢獻,來得 到最有可能接近最佳解答的資訊,而每一個貢獻都有可能激發出更好的資訊,因此我們 不在未有結果之前去刪除任何一個貢獻,即便它有很明顯的錯誤。 對於影像標籤解析系統,主要任務為將照片中的餐點名稱轉換為文字,對於使用者 無法自行輸入餐點名稱而拍下的餐點名稱照片,群眾可以根據照片中的文字寫下心中所 解析的文字作為選項,也可以對其他群眾所解析的選項表示認同,期限結束將會統計哪. 31.

(44) 一個選項為最多群眾所認同,並將此選項作為此照片的答案新增至資料庫中,其實際畫 面如圖 17,在系統的介面設計上,我們以簡單的畫面與操作來達到我們的訴求,因此畫 面中我們只以一行文字來說明我們的主要目的,其餘的部份分別為欲解析的餐點名稱照 片以及選項,而在操作上也僅有新增選項、選擇選項與跳過此題,期盼透過這樣簡潔明 瞭的介面,讓學習門檻降低,甚至完全不需說明文件便可了解如何使用。每一項任務, 我們將給予一段期限,由群眾外包系統所得到的資訊,透過統計的方式來決定出一個群. 政 治 大. 眾認為較好的結果。假若出現統計結果相同的情形,我們將讓任務的期限延長,避免得. 立. 到不好的結果,導致失去群眾外包的意義。同時,對於群眾在網站上所做的每一個步驟,. ‧ 國. 學. 包含新增選項、選擇選項以及跳過選項,都會留下歷程記錄,作為後續評估與分析之用。 . io. sit. y. Nat. n. al. er. . ‧. . 圖 17. Ch. engchi. i n U. v. 影像標籤解析系統顯示任務圖。. 資料來源:本研究所製之影像標籤解析系統 . 32.

(45) 3.3. iPARIS-Plus . 我們基於 iPARIS 的手機應用程式所製作的 iPARIS-Plus,其操作流程如圖 18。當使 用者透過 iPARIS-Plus 來拍攝飲食照片後,將會進入照片註釋的模式,如圖 19,應用程 式將擷取使用者所在位置的經緯度,並根據該資訊提供相對應的地點名稱,待使用者點 選所處的地點名稱完畢,再點擊右下角的標籤按鈕,在出現「Tap photo to add tag」的 字樣時,觸碰想在照片上貼上標籤之位置並且顯示「Write something」的文字後,將會. 政 治 大. 自動轉跳至製作標籤之畫面,如圖 20。在製作標籤之畫面上,點選最右邊的刀叉圖案,. 立. 上方的輸入框會出現蘋果的小圖示,同時資料庫會將目前擁有此地點的所有餐點名稱列. ‧ 國. 學. 出給使用者,可以直接點選餐點名稱來進行註釋。若列出的清單中沒有符合飲食照片的. ‧. 餐點名稱,使用者可以在畫面上方的輸入框中,自行輸入餐點名稱來作為標籤,或者可. sit. y. Nat. 將畫面向下拉,在看到「Pull down to photo menu」的文字轉變為「Release to photo menu」. n. al. er. io. 後放開,即可對餐廳菜單上的餐點名稱進行拍攝或是直接從相簿中選擇已拍攝的菜單,. i n U. v. 如圖 21,此處的設計是基於原先 iPARIS 對於使用者自行輸入文字後,需下拉畫面才能. Ch. engchi. 將自行輸入的文字傳送至伺服器儲存,但我們發現大多數的使用者在輸入完畢之後便直 接按下打勾之按鈕,因此我們將此部份稍作改良,使用者在輸入後按下打勾之按鈕便會 傳送至伺服器儲存,而原先下拉畫面所帶出之功能則用來作為影像標籤註釋方法的啟用 方式,以減少使用者在操作上的麻煩與伺服器接收資料的缺漏。 . 33.

(46) 手機應用程式操作流程圖。 資料來源:本研究自製 . 學. ‧ 國. 立 圖 18. 政 治 大 . ‧. . n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 19. 註釋模式畫面。. 資料來源:iPARIS-Plus 手機應用程式 . 34.

(47) 立 圖 20. 政 治 大. ‧ 國. 學. 開啟製作標籤功能與選擇標籤顯示之位置。 資料來源:iPARIS-Plus 手機應用程式 . ‧. . n. al. y er. io. sit. Nat. . 圖 21. Ch. engchi. i n U. v. 進入製作影像標籤功能之流程。. 資料來源:iPARIS-Plus 手機應用程式 . 35.

(48) 使用者在選定菜單的照片後,可將畫面中的橘色方框透過放大縮小、旋轉以及位移 之動作,把照片中屬於餐點名稱之部分框起後按下右上角的完成按鈕,並回到製作標籤 之畫面,此時畫面上方的輸入框將會出現「Tag By Picture」之文字,如圖 22,我們希 望透過 iOS 使用者慣用的操作手勢來對畫面中的方框進行操作,以節省他們在製作影像 標籤時所花費的時間。使用者只需點擊右上方的打勾符號之按鈕,即可將餐點名稱之相 片作為標籤並註釋於相片上,完成畫面如圖 23。而餐點名稱照片中作為標籤的部分將會. 政 治 大. 被上傳至伺服器的資料庫,透過影像標籤解析系統上群眾的力量將其轉成文字,這些資. 立. 料將儲存於資料庫中,以便將來提供給其他的使用者。 . ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 圖 22. i n U. v. 製作影像標籤。. 資料來源:iPARIS-Plus 手機應用程式 . 36.

(49) . 立. 政 治 大. ‧ 國. 學. 圖 23. ‧. sit. . n. al. er. io 結論 . y. 資料來源:iPARIS-Plus 手機應用程式 . Nat. 3.4. 影像標籤完成圖。. Ch. engchi. i n U. v. 本研究提出有別於文字註釋的影像標籤註釋方法,以解決人們在面臨多國語系註釋 之問題時的困擾,並且基於 iPARIS 應用程式建立此功能,期盼能給使用者更好的註釋 環境,提高使用者記錄之意願。同時我們也透過群眾外包之運作,提高轉換成功率,將 註釋用的影像標籤轉換為文字後儲存於資料庫,以減少因多語系問題造成的資料空缺, 並提供給未來有相同需求的使用者。我們希望藉由影像標籤註釋的功能輔以群眾外包的 機制,能夠帶給人們不同以往的記錄感受,且減少在記錄時的阻礙與花費之時間,讓使 用者能夠同時擁有在手機上記錄的便利紀實而又不失其紀實之完整性。 . 37.

(50) 第四章 評估 本研究提出影像標籤註釋之方法輔以群眾外包之力量,解決多國語系註釋問題與資料庫. 政 治 大 之完整性問題,本章將說明研究之實驗流程與設備限制,以及對於 iPARIS-Plus 與影像 立 ‧. 4.1. ‧ 國. . 學. 標籤解析系統的評估項目與原因,最後將進行統計並整理評估結果之數據。 . 實驗說明與流程 . y. Nat. er. io. sit. 為了讓受測者同時進行以照片進行註釋的方法與以輸入文字進行註釋的方法,實驗 總共進行十五天,在此期間我們邀請五位受測者使用 iPARIS-Plus 的影像標籤註釋功能,. al. n. v i n Ch 並且同時使用以輸入文字註釋照片的功能。由於受測者皆為本國人,考慮到平時所吃之 engchi U 飲食應大部分都有中文的餐點名稱,因此在實驗的最後一天,將集合所有受測者到一間 沒有中文餐點名稱的餐廳來進行實驗,藉此觀察受測者如何解決以輸入文字註釋照片的 問題,並在結束後給予問卷。除此之外,在實驗期間我們也將於社群網站上持續發佈影 像標籤解析系統的消息,讓許多群眾來幫忙解析餐點名稱照片,同時我們也將紀錄群眾 進行解析的各種歷程。 實驗的設備上,APP 應用程式端使用 Objective-C 開發,因此受測者需備有 iPhone 系列之智慧型手機,並且為 iOS 7 以上之版本。影像標籤解析系統則以能使用瀏覽器程. 38.

(51) 式之設備即可。實驗開始前,會對於各個部分進行使用說明與教學,避免因不了解使用 方法而導致使用上的不正確。 . 4.2. 實驗限制 . 此實驗將牽涉到使用者們的隱私,且在實驗過程中需要持續的紀錄以提供影像解析 系統可發送出去解析的資料,因此在尋找受測者時遇到許多問題,再加上設備的限制,. 政 治 大. 使得最後只找到 5 位有興趣且願意提供資料的受測者參與實驗。而在影像標籤解析系統. 立. 之部分,由於我們無法提供誘因,例如金錢或有利群眾之事物,因此我們只能依靠親朋. ‧ 國. 學. 好友的這層關係來推廣這個系統以增加群眾,且為了避免他們感到麻煩,我們在系統當. ‧. 中沒有要求群眾提供個人資料,也導致難以分析這些群眾的來歷,做出進一步的評估。 . y. Nat. io. sit. 評估方法 . er. 4.3. 本研究之評估目標將以 iPARIS-Plus 與影像標籤解析系統為主,在 iPARIS-Plus 方面. al. n. v i n Ch 我們會透過問卷的方式來對整體進行評估,而影像標籤解析系統方面將由系統端所記錄 engchi U 的各種使用歷程來進行評估。兩項評估目標之細項說明如下: 1.. iPARIS-Plus 受測者問卷:問卷的主要指標分為三個部分,第一部份主要用於 了解受測者在日常生活中,是否曾經面臨多國語系的問題,以及對於用照片與 文字註釋照片之看法。第二部分主要了解受測者在使用輸入文字註釋照片之功 能以及使用影像標籤註釋照片之功能時的感受與應對,以及面對中文、外文時. 39.

(52) 的操作時間差異。第三部分主要了解受測者對於影像標籤註釋作為另一種註釋 方法的接受程度,完整問卷如附錄 1 所示。 2.. 影像標籤之解析率與解析歷程:根據由 iPARIS-Plus 所得到的餐點名稱照片之 數量與實際解析成功之數量以評估影像標籤的解析率,並從解析錯誤的照片中 找出其原因。另外,試圖從群眾在進行解析的過程中所記錄之各種歷程,包含 選擇選項、新增選項以及跳過此題,觀察群眾對於不同語言的餐點名稱照片時 之回應。. ‧ 國. 學. 4.4. 立. 政 治 大. 評估結果 . ‧. 在 iPARIS-Plus 與影像標籤解析系統完成後,我們請五位受測者進行為期十五天的. sit. y. Nat. 實驗,而五位受測者為兩位男性與三位女性,其年齡均介於二十一歲至三十歲之間,並. n. al. er. io. 且在此期間內,於社群網站上發佈影像標籤解析系統的消息,請群眾協助實驗。我們將. i n U. v. 對於 iPARIS-Plus 受測者問卷與群眾外包之解析率與解析歷程此兩項評估目標之資料進. Ch. engchi. 行整理統計後,再分別透過表格以及圖表方式顯示。 . 4.3.1. iPARIS-Plus 受測者問卷 . 受測者問卷主要分為三個部分,第一部份主要了解受測者是否曾經在生活中面臨多 國語系的問題,以及對於用影像標籤與文字註釋照片之看法,表 1 為問卷第一部分整理 統計之結果。從表 1 中我們可以看出有四位受測者去過語言不熟悉之國家,在語言不熟. 40.

(53) 悉之餐廳的部份則是所有受測者均有去過。而對於註釋照片方面,受測者皆認為語言不 熟悉會影響使用文字註釋但不影響使用影像標籤註釋。 表 1 問卷第一部分整理統計。 資料來源:本研究自製 . 立. 曾經去過語言不熟悉的國家 . 政 治 大. ‧ 國. 認為語言不熟悉導致難以輸入文字註釋照片 . 1 位 . 5 位 . 0 位 . 5 位 . 0 位 . ‧. 5 位 . er. io. sit. y. Nat. . 4 位 . 0 位 . 認為語言不熟悉導致難以照片註釋照片 . 否 . 學. 曾經去過菜單完全為外文的餐廳 . 是 . al. n. v i n Ch 第二部分主要了解受測者在使用輸入文字註釋照片之功能以及使用影像標籤註釋 engchi U 照片之功能時所面臨語言不同時的操作時間之差異以及功能操作上的感受,表 2、3 為 問卷第二部分整理之結果。從表 2 中可以得知在以輸入文字註釋的操作時間上,外文所 花費之時間較中文高出許多,而在以影像標籤註釋的操作時間上,外文與中文所花費之 時間較為相同,且花費時間較少。從表 3 上可以看到有四位受測者對於輸入文字的動作 感到麻煩且想放棄註釋。在影像標籤註釋之部分,有兩位受測者覺得 iPARIS-Plus 不容 易操作,且三位受測者在操作步驟上認為「從餐點名稱照片中框選出餐點名稱之部分」 具有改良之空間。 41.

(54) 表 2 中文、外文的操作時間差異整理統計。 資料來源:本研究自製 . 1~2 分鐘 . 2~3 分鐘 . 3~4 分鐘 . 4 分鐘以上 . 中文以輸入文字註釋之時間 . 2 位 . 3 位 . 0 位 . 0 位 . 外文以輸入文字註釋之時間 . 0 位 . 1 位 . 2 位 . 2 位 . 中文以照片註釋之時間 . 5 位 . 0 位 . 0 位 . 0 位 . 0 位 . 0 位 . 外文以照片註釋之時間 . ‧ 國. 表 3 操作感想整理統計。 . ‧. 資料來源:本研究自製 . y. Nat. 4 位 . 1 位 . 4 位 . 0 位 . iPARIS-Plus 操作不易 . 2 位 . 3 位 . 「拍攝照片」的步驟於操作上是否需要改善 . 0 位 . 5 位 . 3 位 . 2 位 . 0 位 . 5 位 . sit. 否 . io. 是 . er. . 學. . 立. 政 5 位治 0大 位 . 對於「輸入文字」感覺麻煩 . n. al. Ch. 因「輸入文字」麻煩而想放棄註釋 . engchi U. v ni. 「從餐點名稱照片中框選出餐點名稱之部分」的步驟於操作上是 否需要改善 「儲存註釋完成之照片」的步驟於操作上是否需要改善 . 42.

(55) 第三部分主要了解受測者對於以影像標籤註釋作為文字註釋之外的另一種選擇之 接受程度,表 4 為問卷第三部分之整理結果。從表 4 可以看出所有受測者均認為影像標 籤註釋之方法可減輕以輸入文字註釋的困擾,而且認同以影像作為註釋之標籤,可以是 以文字作為註釋之標籤外的另一種選擇。另外,受測者們對於中文註釋之文字超過三個 以上,便想改以影像標籤作為註釋方式。在外文註釋方面,有三位認為只要有一個外文 文字就會希望改以影像標籤作為註釋方式,而其餘兩位受測者則是三個外文字以上。 . 立. 學. 表 4 影像標籤註釋功能之接受程度。 . 是 . ‧. 資料來源:本研究自製 . 否 . io. 5 v位 0 位 . n. al. 照片是否能作為註釋之標籤的另一種選擇 . Ch. 5 位 0 位 . er. 以照片註釋是否減少以輸入文字註釋上之困擾 . sit. y. Nat. . ‧ 國. . 政 治 大. e n g c h i. i n U. . 1 個 . 多少中文字會想改以使用照片註釋 . 0 位 0 位 0 位 . 5 位 . 多少外文字會想改以使用照片註釋 . 3 位 0 位 0 位 . 2 位 . . 43. 2 個 . 3 個 . 3 個以上 .

(56) 4.3.2. 影像標籤之解析率與解析歷程 . 由 iPARIS-Plus 所得到的餐點名稱照片之數量,在中文的部份為 191 張,外文的部 份為 15 張,總共 206 張照片,其中解析成功之數量透過人工比對後,共為 201 張,因此 本研究之影像標籤解析率為,解析成功之數量除以所得到的餐點名稱照片之數量,得到 97.57%的解析率。表 5 為解析錯誤的餐點名稱照片與解析之答案。另外,影像標籤解析 系統從 206 張照片中,一共取得 3361 筆歷程記錄,我們將歷程記錄分為中文與外文兩. 政 治 大. 部分,選擇選項、新增選項以及跳過此題這三項項目分成三天統計後,取平均值再製作. 立. 成表格,藉以觀察不同語言在影像標籤上解析的歷程。統計結果如表 6。 . ‧. ‧ 國. 學. io. sit. y. Nat. n. al. er. . Ch. engchi. 44. i n U. v.

(57) 表 5 解析錯誤的餐點名稱照片與解析之答案。 資料來源:本研究自製 編號 . 餐點名稱照片 . 選項(標註*符號為解析答案) . 1 . *紅豆蓮子白木耳湯圓 408 *麻醬皮蛋豆腐$30 . 2 . 立. ‧ 國. *野菜燒 600 . ‧ y. . io. sit. 薄荷葉冰茶 . 5 . *簿荷葉冰茶 . . n. al. er. Nat. 4 . 學. 3 . 治 政 麻醬皮蛋豆腐$30 大 元(註:元只出現三分之一) . Ch. engchi U. v ni. 鮮柚百香綠 . *鮮袖百香綠 . . 45.

(58) 表 6 歷程記錄統計平均值。 資料來源:本研究自製 . Day 1 . Day 2 . Day 3 . 總和 . 新增選項(中文) . 1.283 . 0.597 . 0.147 . 2.027 . 新增選項(外文) . 1.133 . 0.267 . 0.067 . 1.467 . 選擇選項(中文) . 3.539 . 5.172 . 3.921 . 12.632 . 5.333 . 15.866 . 0.062 . 1.307 . 0.200 . 3.400 . 選擇選項(外文) . 立. 政 2.800 治 大 7.733 . 跳過此題(外文) . 0.335 . 2.267 . 0.933 . ‧. . io. sit. y. Nat. n. al. er. . 0.910 . 學. ‧ 國. 跳過此題(中文) . Ch. engchi. 46. i n U. v.

(59) 第五章 討論 我們透過 iPARIS-Plus 與影像標籤解析系統來解決多國語系標籤與照片轉換為文字的問. 政 治 大 題。因此,本章將分為 iPARIS-Plus 與影像標籤解析系統兩部分,各別針對上一章節所 立. iPARIS-Plus 受測者問卷探討 . Nat. y. ‧. 5.1. ‧ 國. . 學. 整理出之表格進行探討,以從中了解本研究之研究結果與未來可改善之處。 . er. io. sit. 從第四章的表格中可以看出,即使沒有到過語言不熟悉的國家,也同樣會遇到沒有 中文的菜單,導致出現多國語系的問題,而實驗流程的最後一天也正是如此的情形。對. al. n. v i n Ch 於受測者們而言,以輸入文字註釋之方法,在語言不同的情況下,操作難易會有明顯的 engchi U 差異,而影像標籤註釋之方法,由於照片不會受到地域和語言的限制,因此在語言不同 時,操作難易不會有太大的影響。 大多數的受測者認為,在智慧型手機上輸入文字是一種麻煩,甚至會導致他們想要 放棄進行記錄的工作,表示文字註釋的方法並不能滿足所有的人們,因此要有更多其他 的註釋方式,來符合人們的需求。除此之外,部分受測者反應,iPARIS-Plus 雖能因應 大部分的餐點名稱,但有些較為特殊之菜單會將餐點名稱分成兩個區塊,以致於無法以 單一方框涵蓋。除此之外,由實驗最後一天觀察受測者們在 iPARIS-Plus 上之操作,對. 47.

數據

圖 10    Food Log System 顯示個人飲食種類比例圖。  資料來源:[24]	
  	
  	
  2.1.4 小結 	
  	
  	
  	
  雖然近年來在飲食結合科技的相關研究中多半專注於烹飪行為的輔助,讓使用者在 烹飪上更加得心應手,以及食譜的分析與檢索,讓使用者能輕鬆找到符合自己需求的食 譜資訊。而其中也不乏有對於飲食記錄之研究,這些研究希望將飲食記錄的複雜度降低, 讓使用者能持之以恆的記錄,包含飲食與非飲食照片的偵測,可以減少使用者自行分類

參考文獻

相關文件

• Zero-knowledge proofs yield no knowledge in the sense that they can be constructed by the verifier who believes the statement, and yet these proofs do convince him....

張意欣 女 財政部 國庫署副組長 輔仁大學統計學系

國立政治大學應用數學系 林景隆 教授 國立成功大學數學系 許元春召集人.

J28 廣亞學校財團法人育達科技大學 幼兒保育系系學會 J29 美和學校財團法人美和科技大學 觀光系系學會 J30 環球學校財團法人環球科技大學 餐飲廚藝系學會 J31

Department of Physics and Institute of nanoscience, NCHU, Taiwan School of Physics and Engineering, Zhengzhou University, Henan.. International Laboratory for Quantum

Digital PCR works by partitioning a sample into many individual real-time PCR reactions, some portion of these reactions contain the target molecules(positive) while others do

Mehrotra, “Content-based image retrieval with relevance feedback in MARS,” In Proceedings of IEEE International Conference on Image Processing ’97. Chakrabarti, “Query

Keywords: Computer game applications; CCNA Certification Training; digital content design; game-based Learning;