• 沒有找到結果。

第二章 文獻探討

2.1 飲食結合科技之研究

2.1.3 飲食記錄系統

並且透過輔助向量機(Support Vector Machine, SVM)來提高精準度,但由於上傳的照 片背景各具差異,以及每位使用者的拍攝手法與當下的環境狀況並不同,導致去除背景

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖8 使用者校正系統對於飲食照片偵測之結果。

資料來源:[23]

圖9 每人每天應攝取的營養成份份量與飲食五大分類。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖10 Food Log System 顯示個人飲食種類比例圖。

資料來源:[24]

2.1.4 小結

雖然近年來在飲食結合科技的相關研究中多半專注於烹飪行為的輔助,讓使用者在 烹飪上更加得心應手,以及食譜的分析與檢索,讓使用者能輕鬆找到符合自己需求的食 譜資訊。而其中也不乏有對於飲食記錄之研究,這些研究希望將飲食記錄的複雜度降低,

讓使用者能持之以恆的記錄,包含飲食與非飲食照片的偵測,可以減少使用者自行分類

11. MPEG-7 的檔案架構:包含 XSD(XML Schema Definition)架構形式,即簡易後設資 料檔案(Simple Metadata Profile, SMP),使用者描述檔案(User Description Profile,

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖11 多媒體描述架構(MDS)。

資料來源:[14]

2.2.3 MPEG-7 為基礎的影像註記系統

2004 年,Kuo, Pei-Jeng 等幾位學者提出了基於 MPEG-7 技術的多媒體描述架構系統,

稱為 Personal Archiving and Retrieving Image System (PARIS) [28-30] 。它能將空間與時 間的多媒體資訊內容,整合入以 MPEG-7 為基礎的語意描述,來描繪我們的真實世界,

如物件、事件、關係等的多媒體內容。而 PARIS 更延伸了多媒體描述架構的結構化註記 描述子,將多媒體資料註記為十二個語意的屬性,並結合個人的數位攝影集紀錄與搜尋 的功能,來達到數位攝影集的管理。在多媒體資料中所註記的十二個語意的屬性,分別 為 who、what、when、where、why、how 以及 direction、distance 和 duration 這些相關 的數位資訊,稱為 Dozen Dimensional Digital Content (DDDC)。除此之外,幾位學者更提 出了 DDDC 架構的半自動化後設資料生成方法,以減少使用者的麻煩,以及提出基於時

間與空間的知識本體(Spatial and Temporal Based Ontology, STO),統計個人攝影的主要 脈絡,並設計出不同的檢索模式,包含時間、空間、個人歷史的本體論、人與人之間關 Archiving and Retrieving Image System (iPARIS) [38],該系統利用 Point Of Interest (POI) 資料庫,推薦使用者註記的列表,以達到更有效率與簡單的相片註記。除此之外,也更 改原先 DDDC 之架構,並稱為 Integrated Dozen Dimensional Digital Content (iDDDC),他 們對於 DDDC 架構中的 where 屬性提出改進,將原先 DDDC 架構的 where 屬性中的三個 子屬性 Longitude、Latitude 以及 Altitude 合併為 GeoPosition,並且在 where 與 what 的 屬性中加入 Geotag 屬性,其描述如下:

1. Where:Geotag:描述攝影者拍攝相片時的所在地點。在原來的 DDDC 當中,

Longitude 與 Latitude 兩個屬性所提供的資料,要達到位置搜尋的功能有其困難性

1. Broader Term (BT):關聯空間範圍較大的地名,例如:Provence 可以關聯空間較 大的 France。

2. Narrower Term (NT):關聯空間範圍較小的地名,例如:Provence 可以關聯空間 較小的 Marseille。

3. Past Term (PT):關聯目前地名的過去地名,例如:Provence 過去的地名為 Provincia Romana。

4. Future Term (FT):關聯目前地名的未來地名。

5. Synonymous:分為 UseInstead(US)表示關聯目前地名的同義詞,比較偏好使用 同義詞來取代目前地名; UseFor(UF)表示關聯目前地名的同義詞,比較偏好使 用目前地名。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

6. Related Term (RT)與 Nearby Term (NB):NB 為關聯目前地名的附近地名,例如:

Provence 附近的地名為 Rhône-Alpes。RT 為以上的關聯屬性皆難以表達其關聯時 可使用,例如兩地名之間的關聯為「事件」時,可用此表達。

iPARIS 加強了 PARIS 在 where 屬性上的不足,減少使用者在註記個人攝影集上的 困擾,透過 GRO 的理論來註記的結果,不僅可使系統在個人攝影集上的管理更為簡單,

也能達到更好的語意搜尋效果。在 2013 年 Po-Yan Chen 更對於 iPARIS 進行使用性工程 建構之方法[39],重新再設計行動個人數位化註釋系統之介面與操作流程,以給予使用 者更便利的攝影註釋環境,其畫面如圖 13。

‧ 國

立 政 治 大 學

Na tiona

l C圖 13 iPARIS 介面。 h engchi University

資料來源:[39]

2.2.4 小結

從上面的幾段描述中,我們可以了解到從一開始基於 MEPG-7 的 PARIS 系統,以及 後來改良 PARIS 的 iPARIS 系統,都提供了良好的相片註釋環境,以及加入了知識本體 架構來對各個標籤建立彼此的關聯性,iPARIS 甚至對於介面與操作流程進行使用性工程 建構,以建立更良好的註釋系統。而從這些研究中,發現到他們並沒有對於多國語系問 題有良好的解決方式,因此我們希望能以這樣的註釋系統為基礎,建立以影像標籤註釋

5. 工具:工具包含了讓群眾聚集的平台,例如:論壇、Youtube、Facebook 等等不 論免費或付費的工具;讓群眾彼此能夠對話,例如:即時通訊軟體;以及進行創 作的工具,若無法提供良好的創作工具給予群眾,即便群眾有強大的創作力量,

也無法產生良好的成果。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖14 FLIRT 模型的五種面向。

資料來源:[40]

2011 年,Doan 等幾位學者將群眾外包系統定義為「徵求一大群人,以幫忙解決系 統擁有者所定義之問題的系統。」[5],為了解決這個問題,系統需要訂定一些基礎的方 針,例如:決定使用者所貢獻出成果的類型、招募與保留使用者、結合使用者的成果來 解決問題以及評估使用者與他們的貢獻。而這樣的系統將產生四個重要的基礎設計問 題:

外包的系統並沒有理論基礎存在。因此,他們發表了 “Crowdsourcing Information Systems – A Systems Theory Perspective”[7],對於群眾外包的系統建立理論基礎分成 兩大類,除此之外,更結合了這兩種理論基礎的層面,得出四種不同類型的群眾外包系 統。他們將這四種群眾外包系統稱之為「群眾服務」 (crowd service),如同一般的軟體 或是數位化的服務,可以讓組織藉由使用群眾服務來解決特定問題。圖 15 闡明了四種 類型的系統以及他們各自不同的服務,而四種類型的系統描述如下:

1. Crowd processing:群眾處理系統有效的利用大量同質化的外部元素,並將這些 外部元素所產生的貢獻視為互相獨立的單位來進行各別評估。這種對於群眾外包

法再進一步的優化,最後由 BellKor's Pragmatic Chaos 團隊以 10.06%的成果把獎 金領走。

4. Crowd creation:群眾創造系統也如同群眾解決系統一樣,將外部元素視為異質,

但關鍵性的不同點在於,群眾創造系統並不對於外部元素產生的貢獻進行各別評 估,而是考慮這些貢獻彼此的關係。由於這樣的評估方式並沒有一個很好的理論 或是可以預測結果的方法,因此這個系統的核心目的即在於,對於群眾外包的任

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

並將最高得分的照片推薦給使用者,讓使用者從中學習如何拍攝出能讓群眾喜愛 的照片。

圖15 四種類型的群眾外包系統。

資料來源:[7]

這四種不同類型的群眾外包系統,除了良好的定義了系統的框架之外,更呼應了在

本節一開始提到的四個重要的基礎設計問題。未來,對於群眾外包的應用相信會越來越 廣泛,藉由基礎的理論與框架,將能減少系統在開發上的時程,而更專注在想要解決的 問題上。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

2.3.3 小結

從 Netflix Prize 的例子當中,我們了解到若能善用群眾的力量,將可以輕易地完成 許多較為複雜或電腦難以完成的事情,甚至在準確率與效率上也有令人驚艷之成果。因 此我們期盼透過群眾的力量,能將本研究為解決多國語系註釋問題之影像標籤轉換為文 字,並且減少在轉換過程中錯誤的機率,讓資料能夠有效的再次被使用。

2.4

文獻總結

從文獻探討中,我們了解到不論是飲食記錄的相關研究或者基於 MPEG-7 的註釋系 統之研究,皆在針對記錄或註釋上對使用者造成的困擾與操作上的費時進行改良。而飲 食記錄的研究上,因簡化了註釋的功能部分,造成在長期記錄後於檢索上的困難,僅做 到完全記錄並無法完整記錄。而在 MPEG-7 的註釋系統方面,iPARIS 加強了註釋的功能,

也透過介面與操作流程的改良,給予使用者更好的註釋環境,但在多國語系之註釋問題 上並沒有解決的方法,將使得記錄上出現缺漏。另外,在群眾外包的相關研究與幾個成 功案例中,我們也見識到群眾的力量,以及了解該如何運作它來完成較為複雜之事,並

且獲得良好的成果。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

第三章

研究方法

本研究將基於 iPARIS 良好的註釋環境上,加入影像標籤註釋之功能,稱為 iPARIS-Plus,

期望能解決人們在進行飲食記錄時所面臨到多國語系的問題與提供使用者有別於文字 註釋的新註釋方式,並且透過基於群眾解決系統之影像標籤解析系統,將影像標籤轉換 為文字,解決原先因多國語系因素導致無法輸入文字註釋,進而影響資料庫完整性之問 題。本章將說明整體的系統架構、iPARIS-Plus 操作流程以及影像標籤解析系統的運作 流程。

3.1

系統架構

我們在系統架構上共分成伺服器、影像標籤解析系統以及 iPARIS-Plus 手機應用程 式。使用者藉由 iPARIS-Plus 的影像標籤註釋之功能,可直接拍攝的餐點名稱照片後,

用於註釋飲食照片,同時餐點名稱照片將會被傳送至伺服器儲存。而影像標籤解析系統 將從伺服器中取出餐點名稱照片,並開始進行群眾外包任務使該照片轉換為文字,而轉 換的文字部份將會儲存起來,以便提供給所有 iPARIS-Plus 之使用者,整體架構如圖 16。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖16 系統架構圖。

資料來源:本研究自製

3.2

影像標籤解析系統

我們根據第二章的群眾外包系統基礎理論當中所闡述的四種類型,將選擇以群眾解 決系統(Crowd Solving)為基礎,建立影像標籤解析系統,將目的設定在解析由 iPARIS-Plus 取得的影像標籤中之文字,並由群眾來提供資訊作為貢獻,透過這些群眾的貢獻,來得

我們根據第二章的群眾外包系統基礎理論當中所闡述的四種類型,將選擇以群眾解 決系統(Crowd Solving)為基礎,建立影像標籤解析系統,將目的設定在解析由 iPARIS-Plus 取得的影像標籤中之文字,並由群眾來提供資訊作為貢獻,透過這些群眾的貢獻,來得

相關文件