研究架構 - 緒論 - 多語系個人飲食攝影註記典藏系統輔以群眾外包

第一章緒論

1.5 研究架構

國

立政治大學

‧

Na tiona

l Ch engchi University

1.5

研究架構

第一章我們介紹了本研究背景，以及研究的動機、問題和目的。第二章我們將會先對於科技結合飲食之研究、影像內容描述與檢索以及群眾外包系統基礎進行探討。第三章則描述本研究所製作之手機應用程式以及群眾外包的運作，介紹兩者如何以影像標籤讓使用者能夠解決多國語系之問題，並且將標籤資料轉換為文字，以避免資料庫不完整，

也提供給其他使用者再利用。而第四章我們將說明本研究之實驗流程與評估方法，並統整評估結果之數據。第五章我們則針對評估結果之數據進行討論，包含解釋數據代表之含意以及從數據中觀察到之現象。第六章將整合本研究之貢獻與結論，並對未來提出可發展或改善之方向。

‧

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

以輔助烹飪為主，而特別的是不只是透過專業烹飪影片教學來協助使用者，更在錄製教學影片時加入一些感測裝置與細部動作之攝影鏡頭，讓使用者在觀看的過程中，能注意到專家在烹飪時的微小細節，使個人技巧增進[37]，如圖 5。除此之外，Haoran Xie 等學者特別對於食譜之檢索加以改良，將食譜的資訊分為烹飪過程、品嚐感受、營養成分以及影像，整合為 HSI （Hybrid Semantic Item），以語意為基礎來加強食譜搜尋之效果[41]。

2011 年，Buykx 等學者想去了解烹飪的人真正需要的協助，其實驗由 16 位受測者透過 3 種食譜來烹飪 3 道菜餚，從中發現他們想要的協助為在烹飪步驟中描述所需之食材的數量、烹飪中每一階段的圖片、對於不常見的食材準備之教學影片以及各個工具的使用示範影片[3]。而有另一方面，Kayo Iizuka 等學者注意到飲食的推薦，他們讓使用者利用手機透過 Wi-Fi 來找出自己所在的位置，並藉此找出周遭符合其需求之飲食資訊[22]。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖5 拍攝教學影片時加入感應裝置與鏡頭。

資料來源：[37]

2012 年，Kuo Fang-Fei 等學者反其道而行，將過去透過食譜以準備食材的模式改變，

轉為由人們手邊現有之食材來搜尋可烹飪之食譜，使食材的運用更有效率[27]，如圖 6。

此外，也有研究開始透過智慧型手機之使用者來精進影像分割的成功率，Morikawa 等學者藉由使用者在智慧型手機介面上點擊食物在螢幕上之位置來加強食物從影像中切割出之準確率[33]。而在 2013 年，Bolaños 等學者們透過 SenseCam 來自動取得大量的生命記錄資料，並藉由階層性分群的方法快速建構出 NP（Not Plate）、P（Plate）與 SP

（SemiPlate）的資料集來建立自動標籤之方法，以找出擁有食物相關物件之照片，並在 89709 張照片中驗證此方法帶來之成效[1]，如圖 7。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖6 以食材搜尋可烹飪之食譜。

資料來源：[27]

‧

並且透過輔助向量機（Support Vector Machine, SVM）來提高精準度，但由於上傳的照片背景各具差異，以及每位使用者的拍攝手法與當下的環境狀況並不同，導致去除背景

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖8 使用者校正系統對於飲食照片偵測之結果。

資料來源：[23]

圖9 每人每天應攝取的營養成份份量與飲食五大分類。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖10 Food Log System 顯示個人飲食種類比例圖。

資料來源：[24]

2.1.4 小結

雖然近年來在飲食結合科技的相關研究中多半專注於烹飪行為的輔助，讓使用者在烹飪上更加得心應手，以及食譜的分析與檢索，讓使用者能輕鬆找到符合自己需求的食譜資訊。而其中也不乏有對於飲食記錄之研究，這些研究希望將飲食記錄的複雜度降低，

讓使用者能持之以恆的記錄，包含飲食與非飲食照片的偵測，可以減少使用者自行分類

‧

11. MPEG-7 的檔案架構：包含 XSD(XML Schema Definition)架構形式，即簡易後設資料檔案（Simple Metadata Profile, SMP），使用者描述檔案（User Description Profile,

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖11 多媒體描述架構(MDS)。

資料來源：[14]

2.2.3 以 MPEG-7 為基礎的影像註記系統

2004 年，Kuo, Pei-Jeng 等幾位學者提出了基於 MPEG-7 技術的多媒體描述架構系統，

稱為 Personal Archiving and Retrieving Image System (PARIS) [28-30] 。它能將空間與時間的多媒體資訊內容，整合入以 MPEG-7 為基礎的語意描述，來描繪我們的真實世界，

如物件、事件、關係等的多媒體內容。而 PARIS 更延伸了多媒體描述架構的結構化註記描述子，將多媒體資料註記為十二個語意的屬性，並結合個人的數位攝影集紀錄與搜尋的功能，來達到數位攝影集的管理。在多媒體資料中所註記的十二個語意的屬性，分別為 who、what、when、where、why、how 以及 direction、distance 和 duration 這些相關的數位資訊，稱為 Dozen Dimensional Digital Content (DDDC)。除此之外，幾位學者更提出了 DDDC 架構的半自動化後設資料生成方法，以減少使用者的麻煩，以及提出基於時

‧

間與空間的知識本體(Spatial and Temporal Based Ontology, STO)，統計個人攝影的主要脈絡，並設計出不同的檢索模式，包含時間、空間、個人歷史的本體論、人與人之間關 Archiving and Retrieving Image System (iPARIS) [38]，該系統利用 Point Of Interest (POI) 資料庫，推薦使用者註記的列表，以達到更有效率與簡單的相片註記。除此之外，也更改原先 DDDC 之架構，並稱為 Integrated Dozen Dimensional Digital Content (iDDDC)，他們對於 DDDC 架構中的 where 屬性提出改進，將原先 DDDC 架構的 where 屬性中的三個子屬性 Longitude、Latitude 以及 Altitude 合併為 GeoPosition，並且在 where 與 what 的屬性中加入 Geotag 屬性，其描述如下：

1. Where:Geotag：描述攝影者拍攝相片時的所在地點。在原來的 DDDC 當中，

Longitude 與 Latitude 兩個屬性所提供的資料，要達到位置搜尋的功能有其困難性

‧

1. Broader Term (BT)：關聯空間範圍較大的地名，例如：Provence 可以關聯空間較大的 France。

2. Narrower Term (NT)：關聯空間範圍較小的地名，例如：Provence 可以關聯空間較小的 Marseille。

3. Past Term (PT)：關聯目前地名的過去地名，例如：Provence 過去的地名為 Provincia Romana。

4. Future Term (FT)：關聯目前地名的未來地名。

5. Synonymous：分為 UseInstead（US）表示關聯目前地名的同義詞，比較偏好使用同義詞來取代目前地名; UseFor（UF）表示關聯目前地名的同義詞，比較偏好使用目前地名。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

6. Related Term (RT)與 Nearby Term (NB)：NB 為關聯目前地名的附近地名，例如：

Provence 附近的地名為 Rhône-Alpes。RT 為以上的關聯屬性皆難以表達其關聯時可使用，例如兩地名之間的關聯為「事件」時，可用此表達。

iPARIS 加強了 PARIS 在 where 屬性上的不足，減少使用者在註記個人攝影集上的困擾，透過 GRO 的理論來註記的結果，不僅可使系統在個人攝影集上的管理更為簡單，

也能達到更好的語意搜尋效果。在 2013 年 Po-Yan Chen 更對於 iPARIS 進行使用性工程建構之方法[39]，重新再設計行動個人數位化註釋系統之介面與操作流程，以給予使用者更便利的攝影註釋環境，其畫面如圖 13。

‧ 國

立政治大學

‧

Na tiona

l C圖 13 iPARIS 介面。 h engchi University

資料來源：[39]

2.2.4 小結

從上面的幾段描述中，我們可以了解到從一開始基於 MEPG-7 的 PARIS 系統，以及後來改良 PARIS 的 iPARIS 系統，都提供了良好的相片註釋環境，以及加入了知識本體架構來對各個標籤建立彼此的關聯性，iPARIS 甚至對於介面與操作流程進行使用性工程建構，以建立更良好的註釋系統。而從這些研究中，發現到他們並沒有對於多國語系問題有良好的解決方式，因此我們希望能以這樣的註釋系統為基礎，建立以影像標籤註釋

‧

5. 工具：工具包含了讓群眾聚集的平台，例如：論壇、Youtube、Facebook 等等不論免費或付費的工具；讓群眾彼此能夠對話，例如：即時通訊軟體；以及進行創作的工具，若無法提供良好的創作工具給予群眾，即便群眾有強大的創作力量，

也無法產生良好的成果。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖14 FLIRT 模型的五種面向。

資料來源：[40]

2011 年，Doan 等幾位學者將群眾外包系統定義為「徵求一大群人，以幫忙解決系統擁有者所定義之問題的系統。」[5]，為了解決這個問題，系統需要訂定一些基礎的方針，例如：決定使用者所貢獻出成果的類型、招募與保留使用者、結合使用者的成果來解決問題以及評估使用者與他們的貢獻。而這樣的系統將產生四個重要的基礎設計問題：

‧

外包的系統並沒有理論基礎存在。因此，他們發表了 “Crowdsourcing Information Systems – A Systems Theory Perspective”[7]，對於群眾外包的系統建立理論基礎分成兩大類，除此之外，更結合了這兩種理論基礎的層面，得出四種不同類型的群眾外包系統。他們將這四種群眾外包系統稱之為「群眾服務」 (crowd service)，如同一般的軟體或是數位化的服務，可以讓組織藉由使用群眾服務來解決特定問題。圖 15 闡明了四種類型的系統以及他們各自不同的服務，而四種類型的系統描述如下：

1. Crowd processing：群眾處理系統有效的利用大量同質化的外部元素，並將這些外部元素所產生的貢獻視為互相獨立的單位來進行各別評估。這種對於群眾外包

‧

法再進一步的優化，最後由 BellKor's Pragmatic Chaos 團隊以 10.06%的成果把獎金領走。

4. Crowd creation：群眾創造系統也如同群眾解決系統一樣，將外部元素視為異質，

但關鍵性的不同點在於，群眾創造系統並不對於外部元素產生的貢獻進行各別評估，而是考慮這些貢獻彼此的關係。由於這樣的評估方式並沒有一個很好的理論或是可以預測結果的方法，因此這個系統的核心目的即在於，對於群眾外包的任

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

並將最高得分的照片推薦給使用者，讓使用者從中學習如何拍攝出能讓群眾喜愛的照片。

圖15 四種類型的群眾外包系統。

資料來源：[7]

這四種不同類型的群眾外包系統，除了良好的定義了系統的框架之外，更呼應了在

本節一開始提到的四個重要的基礎設計問題。未來，對於群眾外包的應用相信會越來越

在文檔中多語系個人飲食攝影註記典藏系統輔以群眾外包 - 政大學術集成 (頁 19-0)

研究架構

第一章 緒論

1.5 研究架構

國

立 政 治 大 學

‧

1.5

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

‧

‧ 國

立 政 治 大 學

‧

‧

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

‧

‧ 國

立 政 治 大 學

‧

‧

‧

‧ 國

立 政 治 大 學

‧

第一章緒論

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學