國 立 交 通 大 學
資訊管理研究所
博 士 論 文
客製化影音檢索系統之研發—以可移式語
音機之設計為例
A Design of Customized Video & Audio Retrieval
System —The Case of a Movable Story Teller
研 究 生: 何 天 華
指導教授: 陳 安 斌 博士
客製化影音檢索系統之研發—以可移式語音機之設計為例
A Design of Customized Video & Audio Retrieval System —The
Case of a Movable Story Teller
研 究 生: 何 天 華 Student: Tien-Hwa Ho
指導教授: 陳 安 斌 博士 Advisor: Dr. An-Pin Chen
國立交通大學 資訊管理研究所
博士論文
A Dissertation
Submitted to Institute of Information Management College of Management
National Chiao Tung University in Partial Fulfillment of the Requirements
for the Degree of Doctor of Philosophy
in
Information Management July 2007
Hsinchu, Taiwan, Republic of China
客製化影音檢索系統之研發—以可移式語音機之設計為例
學生:何天華 指導教授:陳安斌 博士國立交通大學資訊管理研究所
摘 要
面對資訊爆炸的時代,傳統的關鍵字比對搜尋技術將無法更有效率地提供使 用者之所需,而通訊與資訊等相關產業,在各數位系統匯流成單一網路的狀況 下,如何主動提供用戶所需的數位內容,也就成為研究重要的課題。 本研究提出一個創新的平台架構,可以從網路上獲得免費的影音內容,且同 時解決頻寬、收視習慣、合法性、及自動下載等問題。主要特點在於此平台不是 直接傳送內容檔案給用戶端,而是只傳送一個標準協議的檔案推薦超鏈結位置及 相關註記資訊給用戶端即可,隨後它會自動去瀏覽並自動下載該目標影音檔,且 按照 Script 的描述編成各頻道節目及播放順序,如此,讓網路上各式各樣的節 目,瞬間成為各個產業可合法應用的內容。 本平台將藉由一個自動推薦系統,將合適的影音檔案推薦給用戶,其中使用 模糊的屬性權重資訊檢索技術,來改善傳統推薦系統使用明確比對的方式,用戶 對影音偏好的屬性,僅需利用語言變數來描述表達其重要性,便可輕鬆獲得理想 的影音檔案推薦。為了驗證提出之服務模式,本研究設計出一個互動式的數位可 移式語音機,使理論與實務相結合,讓使用者能藉此系統得到良好的有聲內容推 薦。 關鍵字:數位匯流、推薦系統、數位內容、循序權重平均A Design of Customized Video & Audio Retrieval
System —The Case of a Movable Story Teller
Student:Tien-Hwa
Ho
Advisor:Dr. An-Pin Chen
Institute of Information Management
National Chiao Tung University
Hsinchu, Taiwan, Republic of China
ABSTRACT
Face the times of information explosion, traditional keyword search technique will not provide an efficiently approach to the users’ need. Besides, the related industries such as communication and information technology etc., will under the situation which digital information remit to single network flow. How provide the digital content to match the customers’ needs, will also become the research important topic.
This research presents a creative platform structure, can acquire free information and legal of video content from the Internet. In advance, it also can resolve the bandwidth bottleneck, watching habit, and automatic download problem etc. Main distinguishing feature's lying in this platform isn't a direct transmission content the file carry for customer, but the file which only delivers a standard agreement recommends a super chain knot position and related note to record information to the customer carry. Moreover, it will browse automatically and download the target video file automatically later, and apply Script description to become each channel program and broadcast by proper order. Therefore, the various programs will be became legal content from the Internet and used by the industry fields.
This platform will construct an auto recommend system, and recommend the suitable video file to the customers. Besides, it uses the fuzzy attributes weight for the information as an index technique among them. The goal is to improve the traditional recommendation system to use an explicit approach. In our approach, the users only
describe the attribute of video hobby and expression of variable importance, can acquire an ideal video file recommendation easily. This research designs an interaction digital learning machine, making theories and actual situation combine together, let the users be able to get to have a content to recommend goodly by this system.
謝 誌
要感謝的人實在太多了,尤其是所有曾經幫助過我的師長、同學、家人及朋 友。首先最要感謝的是恩師 陳安斌教授,在我陷入研究困境、不知何去何從之 時,伸出了援手給我最適切的牽成,這個恩惠對我如此之大,已成為我這一生中 內心感念的最重要刻畫了,我將永銘於心。恩師豐富的學術涵養、待人的豁達胸 懷、以及無限的慈悲心所構織成的處世邏輯,也將成為我人生中最有價值的一盞 明燈,隨時指引我正確的做人做事方法,在此特向恩師獻上我最深的感激之情。 其次,要感謝 鄭景俗教授,在我學術領域中給予嚴謹的啟蒙與薰陶,讓我 開啟論文的研究之門,就像是一股活水泉源,在不斷的支持與灌溉之下,我的學 業才得以順利完成,心中亦充滿無限感激。 論文口試期間,承蒙口試委員 黎漢林教授與 劉敦仁教授以及 楊安渡教 授提供寶貴的意見與鼓勵,並針對內容的缺失給予指正,使得本論文更臻完整, 能夠邀請這三位老師成為口試委員,實在是我最大的榮幸,在此致上由衷感謝。 研究所修業期間,感謝陳牧言學弟一路相挺,讓我受益良多,從碩士班一起 到博士班畢業的共同經歷,也造就了一段難能可貴的情誼,還有景榮、蕙如、介 中、佳楨等人的幫忙與鼓勵,這都是我的貴人,在此一併誌謝。 感謝父母苦心的養育及栽培。妻子靜宜的辛苦與支持,她的賢慧始終是我生 命中的最愛。我兩個寶貝兒子海寧與奎廷,更是我努力的動力核心。 最後由衷感謝所有曾經幫助過我的師長、同學、朋友們,感謝你們曾經給我 支持與鼓勵,願將此時的榮耀與快樂與各位分享。 僅獻上此份小小成就 何天華 謹誌于新竹 民國九十六年七月目 錄
摘 要... I ABSTRACT... II 謝 誌...IV 目 錄...V 表目錄... VII 圖目錄...VIII 第一章 緒論...1 1.1 研究背景...1 1.2 研究動機...4 1.3 研究目的...7 1.4 研究範圍...10 1.5 論文研究過程的知識模組架構...10 第二章 文獻探討...11 2.1 數位匯流相關研究...11 2.2 數位學習...12 2.3 推薦系統...13 2.3.1 內容導向式推薦...14 2.3.2 協同過濾式推薦...14 2.3.3 資料採礦...15 2.4 模糊集合論...16 2.4.1 模糊數與基本模糊數運算...17 2.4.2 語意變數...19 2.4.3 解模糊化...20 2.5 循序權重平均運算子...21 第三章 客製化影音檢索系統...23 3.1 用戶推薦內容快遞服務平台...23 3.2 全球超鏈結位置伺服器...27 3.3 獲得用戶最新推薦表...29 3.4 訂閱式數位匯流播送系統...31 3.5 平台的各項優勢探討...33 3.5.1 非檔案直接需求者的需求...34 3.5.2 能自動按照用戶的興趣主動推薦內容...35 3.5.3 自動下載到硬碟的方便性...36 3.5.4 抓住超鏈結位置資訊的優勢...36 3.5.5 集合眾人推薦的力量...38第四章 自動推薦方法...39 4.1 影音內容屬性的產生...41 4.2 模糊循序權重平均演算法...42 4.2.1 建立用戶影音偏好屬性架構...43 4.2.2 定義用戶偏好語意變數...43 4.2.3 演算步驟...44 4.2.4 計算 OWA 情境權重 ...45 4.2.5 用戶進行偏好屬性評分...46 4.2.6 用戶偏好影音推薦...49 第五章 可移式語音機設計與驗證...53 5.1 系統設計...54 5.2 互動語法設計...57 5.3 兒童的發展需求...63 5.4 兒童免費內容爆發性增長...64 5.5 產品的功能與特色...65 第六章 結論...69 參考文獻...70
表目錄
表2-1 語意變數對應三角模糊數給分對照表 ...20 表3-1 影片名稱及標註 ...24 表3-2 知名商店常用影音標註關鍵詞 ...25 表3-3 描述影音屬性之語意關鍵詞 ...26 表3-4 超鏈結位置資料表範例 ...29 表4-1 用戶對影音檔案的偏好屬性架構 ...40 表4-2 前 20 項影片檔案之描述關鍵詞及其評分 ...42 表4-3 權重語意變數及其對應語意對照表 ...43 表4-4 權重語意變數對應正規化三角模糊數對照表(影音相關程度) ...44 表4-5 屬性 n=5 時,不同情境因素值(α)的權重值...46 表4-6 用戶 1 屬性偏好程度及權重 ...46 表4-7 用戶偏好在不同情境時的權重值 ...48 表4-8 單一影片在各情境下推薦分數計算範例 ...49 表4-9 各影音檔案之模糊綜合評分與符合比例 ...50 表4-10 門檻值 75%時不同情境參數的推薦結果...51 表5-1 系統函數及中間代碼指令說明 ...59圖目錄
圖1-1 全球可用檔案示意圖 ...3 圖1-2 兩種獲得網路資訊的方式 ...4 圖1-3 電腦、電視訂閱式影音節目服務 ...7 圖1-4 客製化影音檢索服務平台基本架構 ...8 圖1-5 論文研究過程的知識模組架構 ...10 圖2-1 三角模糊數A~的歸屬函數圖形...17 圖2-2 梯形模糊數的歸屬函數圖形 ...18 圖2-3 五種語意變數之三角模糊隸屬函數 ...20 圖3-1 平台的研究模型架構 ...24 圖3-2 平台服務系統運作流程圖 ...29 圖4-1 語意權重歸屬函數圖 ...44 圖5-1 無線互動可移式語音機產品圖 ...53 圖5-2 無線收發模組硬體架構圖 ...54 圖5-3 全球服務系統架構圖 ...55 圖5-4 可移式語音機軟體介面圖 ...56 圖5-5 可移式語音機軟體架構圖 ...57 圖5-6 自選故事情節基本互動流程 ...58第一章 緒論
1.1 研究背景
網路科技帶來許多新的商業契機,各種變化多端的新商業模式,正如雨後春 筍般的在網際網路上不斷出現;其中我們發現,這幾年來由於寬頻整合通訊系統 已逐漸成型,它將聲音、影像及其他資訊整合在一起,並正以檔案的型態,將全 球龐大的各式數位化資源,儲存在各個網路伺服器上,藉由網際網路的相互連結, 供用戶隨時選取(On-Demand)。在數位科技的普及化之後,人類活動所需要或產 生的相關資訊,都可以透過網際網路來傳遞、溝通與存放,因此可預期在不久的 將來,電話、電視、收音機、有線電視、無線及電腦等產業,都將匯流成一個整 合的寬頻系統,也就是所謂的數位匯流(Digital Convergence)的時代。(Baldwin, T., McVoy, S., and Steinfield, 1996)在這數位匯流的大環境裡,電話線可以上網看電視,例如WebTV 以及多媒體 隨選系統(Multimedia On Demand:MOD)等(鍾金燕,2007;楊明軒,2004), 有線電視也可以撥打電話,例如Cable 機上盒逐漸都內建有的 VoIP(Voice over IP) 網路電話等(Clegg, A., 1996)(Duyn, A.V., 2005),從單向廣播到雙向可以暢通無 阻的互動網路之後,許多數位化家庭的理想都可以實現(張登凱,2003),因此各 大公司陸續提出不同的產品及服務模式,想要將這些服務帶入家庭,尤其是客廳 中 電 視 機 的 播 放 服 務 (Lewis, B.; Kahng, A.B.; Cohn, J.; Jeong-Taek Kong; Malachowsky, C.; Tobias, R.; Traw, B., 2006)(Shiomi, M.; Ohsawa, M.; Ando, K.; Sakamoto, T.; Yuki, I.; Ozeki, K.; Matsumi, K., 1990),更如同是兵家必爭之地,也造 成這幾年來最受到注目的焦點產品之ㄧ,就是數位多媒體隨選系統,諸如IPTV、 機上盒(STB)等。
在這麼多的產品和服務當中,其實站在最源頭端的就是「數位內容」,因為對 任何產業領域而言,都必須要擁有好的內容,才能對用戶有持續不斷的吸引力, 對寬頻業者而言,最大的挑戰也在於此,因此是否能以全新的思維,開發出更新
型態的媒體消費模式,才是影音相關產業最重要的項目(楊明軒,2004)。然而, 目前絕大部分的IP 內容服務,都還是採取傳統的方式,不論是以廣播的方式,或 是以隨選視訊(VOD)的方式,都是單純的提供節目內容給用戶收看為主,很少 有新的創意出現;而由於好的內容來源很少,獲得成本很高,因此造成目前相關 業者在營運時,都需要不斷洽談付費給各節目單位來擁有播放權,造成很大的困 擾;卻很少有人去運用IP 原有的優點,利用不同的或其他有效率的「內容服務模 式」,來突破節目內容的獲得問題。以致於今天看到的 IPTV 如中華電信的 MOD 等,都只是用到IP 的頻寬,只是拿 IP 來做為另一個不同的電視廣播線路而已,因 此除了用來看視訊節目以外,最多就在電視上用到一些IP 的基本收信、看網頁的 功能,換句話說,就是把電視拿來當作電腦的顯示幕而已,也因此結果,我們認 為目前眾多的 IPTV 及影音的內容產業,仍沒有實際進入產值更高的 IP 市場應用 端。 另一方面,自從Web 2.0 的概念成熟之後,網路上提供各種可下載的影音檔案 愈來愈多了,諸如 avi、wmv、mpg、mp4、jpg、swf、flv 等檔案格式,在網路上 都是可以下載觀賞或聆聽的節目,許多熱心人士自行拍攝剪輯的視訊檔案,已遠 超過所謂的正規節目的製作數量,且品質日益提升,包含了政治、體育、新聞事 件、影音廣告、及有趣的各類影音檔案等,另外各公教機關每天仍不斷增加很多 的有用資源,包含影音教材、幼教故事、及Flash 互動教學等檔案,這些不論是聲 音或影片,大都是免費無版權問題,且存在各地網站、Blog 裡,鼓勵人們透過網 路下載回來使用,例如YouTube、文建會、各級學校、商業性質、或個人所架設等 網站,這類屬於公益性質的檔案就已經很多了,更別說其他性質的影音檔案了。 截至目前為止,光是YouTube 網站上,每天就有超過 6 萬 5 千支的影片上傳,由 此可知,網路經過多年的發展,長時間的累積之後,可以確定的一點就是:「未來 這類的檔案資源只會繼續不斷的增加,也將愈來愈精緻專業。」 因此歸納起來,全球可用的影、音等檔案資源,有三個新趨勢出現: 1. 資源免費化:像「YouTube」及「Yahoo 影片分享」等 Web 2.0 架構的網站, 將會愈來愈多,免費的影音內容也將成指數的方式增長。 2. 內容專業化:隨著科技發展,一般民眾擁有的數位影音裝置愈來愈專業,影
音內容製作與剪接的技術,也因為電腦軟體與硬體的功能規格愈來愈好,使 得業餘影音檔案朝向專業化的方向發展,由最近許多新聞媒體上的影音畫面 更可以確認,這些路人即時拍攝到的影片,都帶給大眾更多的驚奇性與新聞 性。從只有數秒的自製動畫短片,到真實生活中的瘋狂時刻紀錄,或是各種 難得的看到的畫面,例如自行紀錄卡崔娜風災或以黎戰爭的真實畫面。由每 天全球下載觀賞超過1 億支 YouTube 的影音檔案來看,可以確信 Web 2.0 上 的影音傳播力量,早已超過專業的電視台了。 3. 檔案位置靜態化:許多人上傳了影片之後,或是網站業者加入了影音檔案之 後,很久一段時間都沒有去改變它的網路位置,亦即超鏈結位置不變,這種 現象我們可稱之為靜態化檔案位置,或稱檔案位置的礦物化現象。 圖1-1 全球可用檔案示意圖 使用者獲得網路資訊主要有兩種方式,一種是由上而下,屬於主動型態的流 覽、搜尋方式,此以使用者為導向,例如 Google、Yahoo 等入口網站;另一種方 式則是由下而上,屬於被動型態的推薦機制,此以內容為導向,例如 RSS 服務、 訂閱電子報等服務。由於資訊過載的嚴重問題,使得由下而上的推薦服務,成為 未來最重要的一們研究領域,而訂閱推薦的方式,大都是透過用戶的資訊,來找 出其確實需求,並同時考慮待推薦的資訊內容是否合適等問題,本研究也將以這 種訂閱的方式,建構一個極有效率的客戶化影音檢索服務系統。 File Resource http://www.jinmiao.net/chengyugushi/01/chengyu529.mp3 鷸蚌相爭 成語故事
使用者 使用者 搜尋引擎 入口網站 推薦、訂閱 使用者 使用者 影音內容 好看的電影 好聽的音樂 通通都要 影音內容 好看的電影 好聽的音樂 通通都要 網頁 網頁 圖1-2 兩種獲得網路資訊的方式
1.2 研究動機
全球網頁總數早已超過百億,資料的大量複製、傳播與分享,造成過量、品 質低落和格式不一的資訊氾濫問題,因此,雖然許多檔案的位置有礦物化的現象, 但是若需要某個影音檔案時,這個合適的影音內容礦物,到底位在那裡呢?許多 人會從Google、Baidu 等網站上去搜尋,結果卻發現,隨便一個關鍵字搜尋,都會 有超過幾百萬筆的資料回應,再加上一般人搜尋時,都是以相關的字詞來搜尋, 如果所要找的資訊,沒有相同的關鍵字描述,則根本無從找起。因此如何協助使 用者自動獲得其所感興趣的影音檔案,成為眾多學者研究的對象。 Yahoo 和 MSN 等入口網站雖然強調可以瀏覽方式,來尋找相關網頁或檔案, 但是如果要下載某類特定的檔案,則需要花很多的時間到各分類目錄下搜尋、分 析,最後點選檔案等待下載完成,還要花費很多的時間試用或是試聽,才能決定 這是不是用戶想要的目標檔案。 針對頻寬問題,網路上雖然有許多同儕軟體(Peer-to-Peer),簡稱 P2P,提供 用戶端直接相互下載檔案,可以加快許多速度,但卻不一定能提供用戶找到所需 要的檔案。例如,P2P 類的 BT、Foxy 等同儕分享軟體,要在上面找到一個熱門下 載的檔案很容易,但很難找到目前非熱門的特定檔案。另外版權問題、盜版情況 非常嚴重,有很多MP3 音樂、院線影片等檔案,都被放上 P2P 來分享,因此也造成網路上有許多盜版、盜拷的負面效果。守法的用戶無法確認這些檔案是否非法, 伺服器管理者也無法介入,經常會有著作權的法律問題,影響業者的經營。另外, 如果特定檔案是在某網頁上,而不是在某個Peer 的分享硬碟裡,也無法從這個 P2P 裡下載。而事實上,大部分有系統整理、較有規模的內容檔案集合,都是被放置 在網頁上公開的。 YouTube 提供免費的空間和頻寬,讓大家把自己的影片放上網站,除可方便收 藏以外,更可以方便隨處存取,然而真正的原因卻是看準人們不甘寂寞的愛秀心 態,喜歡將個人的視訊放上網站,讓大家分享,因此造成一股熱潮。然而由於大 家都集中到 YouTube 的網站上面,即使已做好分散的處理,頻寬與儲存資源的問 題,卻是 YouTube 這類網站揮之不去的惡夢。YouTube 目前是仍以廣告為網站主 要的營利項目,若是將太多廣告放在網頁或影音內容上,將會增加用戶額外的資 訊瀏覽、觀賞時間,並影響其普及率。有很多人在使用 YouTube 時,就是無法忍 受串流播放的斷續品質,只好用手動方式下載該檔案回來,如果檔案稍大些,就 必須要花費很長的時間等待。 況且,各影音分享網站目前正深陷於著作權的風暴中,節目來源的著作權爭 議愈來愈嚴重,未來將只有那些能突破那種困境的服務,尊重智慧財產權,鎖定 特殊族群提供合法方式,且內容源頭又能符合成本低廉原則的網路平台,才能夠 長久安穩的經營。
許多人電腦裡都有安裝網路收音電台,連Media Player 或 Real Player 大部分 的版本,也都早有內建提供搜尋收聽網路電台的服務,網路電視台則是這一、二 年開始爆紅的網路服務項目。然而這些服務,大部分都是使用串流技術讓人在線 上觀看節目,因此都會遇到網路品質及頻寬的問題。由於直接傳送給用戶播放的 檔案,總是會遇到內容版權歸屬的問題,因此影片來源很難獲得妥善的解決,目 前大都是一些比較非熱門的檔案才會交給網路電視、收音機來播放。 其實,全球各地網站上都有愈來愈多的免費優質內容,但業者就算是知道, 因著作權關係,也不能直接將這些檔案放上自己的網站,供用戶直接下載來收看, 目前只能在入口網頁,以超鏈結方式,提供讓用戶連結過去觀看,以此方式,除 了會有線上串流的頻寬問題以外,也需要用戶手動去點選檔案的不方便問題存
在;另外,這個用戶也可能順勢就轉到該提供內容的主體網頁瀏覽了,因此只有 入口網站型態的服務者才會提供。 另外,我們觀察到,傳統看電視、聽收音機方式是一種「電台主導式廣播」,, 是屬於一種推薦訂閱式的服務;電腦多媒體出現之後,主動權在人們手裡的Video On Demand (VOD)是一種「用戶主導式廣播」。上網搜尋影音檔案,點選播放的動 作,就像是 VOD 的習慣一樣。然而之前許多人認為電腦多媒體出現以後,VOD 將會完全取代傳統「電台主導式廣播」,可是後來發現,這兩種模式都是人們生活 中同時不可或缺的。例如,我們經常發現,即使某用戶硬碟裡滿滿的都是好看的 影片,他還是會經常打開電視,隨機地收看電影台、新聞台等節目,即使這些節 目並非是從頭開始播放的。 主要是因為人們有一大部分的時間,是處於「樂於被動接受資訊」的狀態, 例如短暫的片斷時間,明知不可能這時候可看完某影片;或休息中腦裡一片空白, 根本不知道目前自己想看那類資訊時;另外,所謂的新聞就是「之前不知道的事 件」,如果收看新聞都還需要自己一一去挑選,那將是很矛盾的一件事。因此我們 認為,未來多模式並存的人性化介面,將會繼續主導產業界。 綜觀以上所論述的這些問題,可以彙整如下: 1. 資訊量過載狀況下用戶的搜尋問題。 2. 線上播放頻寬問題。 3. 網路影音付費及著作權問題。 4. 電台主導式的電視收視習慣問題。 5. 自動化獲得內容問題。 為解決以上所提及的問題,我們產生了一個研究動機,就是去構思能否有一 個平台可提供,當您一回到家打開電視時,螢幕上顯示: 1. 今天您最有興趣知道的政治新聞影片有 8 個節目; 2. 您最想看的王建民球賽精采片段有 3 個節目; 3. 網路上的 Flash 互動教學檔案有 5 個; 4. 成語故事、童話故事、寓言、課文、教學等等。
已下載完成在硬碟的暫存區裡,用戶可按Play 鍵開始播放。 圖1-3 電腦、電視訂閱式影音節目服務 而這樣的一個影音服務平台,將可以讓用戶在免費、合法、頻寬不是問題、 收視習慣不是問題、且完全自動化的情況下,獲得網路上源源不絕的各式影音內 容檔案下載的服務。
1.3 研究目的
本研究主要目的在於: 1. 建構出一個客製化的影音檢索系統,能夠解決免費、合法、頻寬、收視習慣、 且自動化下載等諸多問題。 2. 實作出一個初期可營運的手持式裝置,用來驗證平台的內容快遞服務。 3. 根據文獻整理提出一個可用的智慧型推薦系統。 4. 未來重點在提供成為一項創新的全球網路服務,希望能對社會經濟產生實質 的貢獻。 其餘部分詳述如下: 本研究要建立一個獨特、創新的內容服務平台及營運模式,且全球各地並沒 有其他相同模式的競爭者。它能夠提供一種嶄新的服務,將網路上眾多免費或公 益的內容檔案,以合法的方式,自動有效地「快遞」給需要的人。預期所創建之 平台,將可以一次同時解決了目前影音產業發展時,所遭遇到的幾個較嚴重問題,諸如:影音內容的來源問題、節目內容的著作權問題、影音編解碼專利問題、串 流收視的頻寬問題、個人化的訂閱服務問題、以及用戶的收視習慣配合等問題。 我們的模式是藉由一種推薦給用戶超鏈結資訊的方式(陳安斌、鄭景俗、劉 敦仁、何天華,發明專利申請2007),將全球各地可用的影音檔案,分類加上註解 評分之後,以開放的標準規格語法,讓用戶的裝置自行透過網路,到正確位置去 下載這些影音檔案和播放的描述指令,這種方式我們稱之為「RePush」機制,因 此整體的平台營運費用將非常低廉,但卻可以帶來極大的效益。這個平台將可以 迅速應用到各種不同的產業上面,對於電腦、電視的用戶而言,加入此訂閱式的 服務平台,就可以獲得源源不絕的免費內容,對於3G 這類不易執行搜尋動作的用 戶而言,我們提供的訂閱服務更能夠適用在小屏幕上面,對於音響 DVD、CD、 MP3 播放器業者而言,我們提出的服務平台,將可讓這些裝置從此不需要在煩惱 內容的來源與儲放問題,很方便利用(Leverage)到家中電腦的記憶體資源、CPU 資源、及網路上的內容資源等。因此,我們的核心價值即為:「利用一種符合智財 權的新服務模式,將免費的全球網路影音資源,合法的轉化成我們的經營服務核 心,能夠為機上盒、3G、或其他各種有線、無線等影音裝置,提供永無止境的內 容服務。」 RePush平台 RePush平台 用戶端用戶端 3G/手機 伺服器端 超鏈結資料總表 用戶傳送資料表 用戶資料表 硬碟區 UI 用戶端 智慧型決策中心 自動下載程序 各地網站 故事機
Set Top Box 各地網站 各地網站
我們提出的方法,目的在讓用戶不需浪費時間找尋網路上的各式影音檔案, 能夠自動且合法取得真正需要的節目,且每天快遞到用戶的電腦、電視或其他手 持裝置上面,讓用戶使用簡單的遙控器,就可以每天輕易地收看、收聽到網路資 源。這個平台與其他傳統的方式最大的差異在於,我們將可以在很短的時間內, 即可免費擁有全球數以千萬計的內容檔案,且以合法的方式,每天將最有趣的影 音內容,輪流推薦播送給我們的用戶,且和他原來收看電視的習慣可以相容。由 於我們提供的是一種新型態的訂閱式快遞服務,將可讓用戶感覺到前所未有的實 質方便性,且獲得極大的收視效益。 這個平台將可以擷取傳統電台主導式廣播與 VOD 播放的優點,而去除其缺 點,依靠「主動推薦給用戶他感興趣的檔案」,來達到兩者兼容的優勢,一方面既 可以滿足人們隨機想獲得新資訊的心理(我們會主動推薦給他),又當使用者收看 或收聽時,都可以從頭開始,或依設定從最精采的段落開始播放,因此不會漏失 任何重要的訊息。例如,可想像當某用戶打開某電視軟體,它立刻開始播給該用 戶收看 TVBS 今天的要點新聞,用戶往下選台,它就是最新的體育消息,這些節 目本來都是該用戶就想看的,電腦主動幫他下載回來了,頻寬將非常地流暢,而 且每一個內容也都正等著用戶從頭開始點播。 推薦內容式廣播因具有「智慧」,幫用戶找出想看的節目,且就像是電台主導 式廣播不需要太多的點選,或動腦決定節目內容,就可以輕鬆的觀看、收聽自己 想要的節目,所以可預期將是未來人類最合理的資訊接收方式,而這個目標的達 成,需要一個智慧型的推薦系統。
依據Fuller R., and Majlender P.於(2001)年所提出一種新的 OWA 的運算模 式,可以快速且有效率的求得更為合理的屬性權重值。再參考Choi D. Y.於(1999) 年為了因應不同的決策環境,提出的一個求得反映現實情境求得合理整合值的概 念,本研究因此推導出一個新的數學模式,其中與傳統做法最大不同在於可根據 現實環境「動態修正」各個評估準則的權重,並整合各評估值之後,得到最終評 估結果,以提供自動推薦時的參考。為了具體的表現出其效益,本研究將根據這 個嶄新的運算模式,實作一套智慧型的影音檔案推薦系統。
1.4 研究範圍
本論文將提出一個平台架構,並設計出一個無線可移式的語音機產品,做為 RePush 機制的先期測試產品,另外平台所需要的自動推薦系統,將採用 Fuzzy OWA 技術,來模擬人類的心智模式,以較貼切人類思考的方式,從眾多的可推薦影音 檔案中,選擇出用戶較感興趣的節目,來送給用戶收看或收聽。 由於本研究之推薦系統所面對的問題,僅限於解決本平台所遭遇到之實際狀 況,因此影音檔案的描述語意關鍵詞,也只僅限於該領域專家所設定之固定範圍 內,另外,考慮到本平台系統及產品,都是要能在實際產業裡面正常運作的,因 此推薦系統的設計,將會傾向時效性與穩定性,所採用的數學模式,也將會優先 以較成熟且可實際運用的理論為主。
1.5 論文研究過程的知識模組架構
Dynamic fuzzy OWA, Soft Computing (SCI) Dynamic Fuzzy OWA, Cybernetics and Systems (SCI)
Fuzzy OWA Operators, MDAI 2005 (LNCS)
發明申請:提供檔案位置資訊
之超鏈結表單服務系統 Location Aided Mobile P2PSystem,PMC Journal (EI) 資訊管理實務研討會論文 互動無線廣播平台之研究 發明申請:互動式語法軟體 平台之電腦聲音廣播架構 Ajax技術用於Web 2.0 的BLOG產學合作 解決自動推薦的問題 解決無線終端裝置 的P2P分享影音問題 理論推導 系統實作 解決平台的互動語法 與無線廣播的問題 解決全球影音 快遞平台的問題 解決Web 2.0影音 分享上傳的問題 無限多個合法且 免費的影音檔案 全球各地 影音資料 推薦式影音內容快遞服務平台論文研究 圖1-5 論文研究過程的知識模組架構
第二章 文獻探討
2.1 數位匯流相關研究
隨著科技的發展,傳統媒體的角色與界線已經不再,在全球資訊網上不斷出 現創新應用的潮流帶動之下,數位媒體的匯流成為不可避免的趨勢(鄭雯隆, 2004),包括 3G 手機、行動電視、隨選視訊(Video On Demand)等都是新時代 的產物,而跨業經營更成為一種趨勢,我國交通部電信總局也因此成立了「因應 數位匯流趨勢工作小組」,優先討論數位匯流等相關的研究議題。 在實體的網路層次上,IEEE 於 1995 年開始,為了處理各種訊號的規格問題, 也已經成立了一個802.14 制定計劃,來協調 Cable Modem 及數位匯流等相關產品 的標準(Eng, J.W.; Mollenauer, J.F., 1995)。各種研究也開始從市場的角度以及技術 的角度,探討數位匯流後的因應措施,例如(趙恬嘉,2006)主要針對國內有線 電視產業的現況與科技的發展趨勢,在數位電視、機上盒、隨選視訊、電視商務 等領域,透過質化的研究方法,希望能透過國外數位有線電視發展經驗,針對目 前國內有線電視MSO 數位化現況,提出競爭策略建議,以面對新競爭者的威脅, 如中華電信MOD(Multimedia on Demand)、數位無線電視業者等。 另外,WiMAX 與 3G/3.5G 是目前無線行動寬頻接取技術中,最有可能成為主 流的兩種技術(Cox, T., 2006)。3G 進入市場的時間較早,主要以語音通信為出發 點,其優勢在於具備全球較完整的涵蓋面,3.5G 則是手機業者為跨足資料傳輸領 域所發展的一項新服務架構。但由於與其配合的終端裝置大部分為運算能力較低 及顯示幕較小的手機,因此在內容服務上仍無法獲得良好的發展(Gray, D., 2006)。 另一方面,WiMAX 以低成本、高傳輸速率、良好行動性為訴求,緊隨著 WiFi 的 成功之後,開始進入無線行動寬頻接取服務的市場。不過一般預期 WiMAX 早期 的應用終端裝置,將以行動性不高的筆記型電腦為主,一段時間之後,才會逐漸 往高行動性的手持裝置發展。研究指出(呂文源,2005),當 WiMAX 以高規格的 形態進入3G 這個已存在的無線行動寬頻市場時,這兩種相近的技術將會產生微妙 的競爭與合作的關係。從 WiMAX 與 3G 的標準競爭與數位匯流的角度來探討,WiMAX 相對於 3G 具有低成本的特性,但3G 在安裝基礎、線路普及率、全球工作頻段的一致性上, 則有 WiMAX 未能具備的絕對優勢。然而,未來的兩三年內,數位匯流的重心將 開始從 3G 的相關產業移轉到 WiMax,因此何者能成為市場上主流的無線行動寬 頻接取技術,尚未能有明確的定論。(Qiu, R.C., Wenwu Zhu Ya-Qin Zhang, 2002)
2.2 數位學習
數位學習(e-learning)在知識經濟時代當中扮演著很重要的角色,由於多媒 體、網路技術、通訊科技的發展,使得我們可以利用相關工具的輔助來達到數位 學習的目的,學習者也因此擁有更多更快的學習管道。世界上先進國家無不把數 位學習當成是知識管理的首要工具,藉由知識管理工具來提升國民的競爭力(王 英恕,2005)。數位學習既然有這麼大的影響力,因此在現今數位匯流的環境當中, 要如何利用各種不同媒體(電視、電信、網路)的特色,以及如何整合利用媒體 匯流後的利基點,來有效發展數位學習的產業,變成一個重要的課題(Bane, P. William, S. P. Bradley, D. J. Collins, 1995)。也有把 e-learning 當做一項服務,架構 在數位匯流的環境底下,探討符合數位匯流時代中數位學習經營模式該有的特色 與未來發展方向(Clark, R. C., Mayer, R. E., 2003)(Colette, 2001)。在高階的數位學習裡,K. Seki, W. Tsukahara & T. Okamoto(2005)提出一個有 效的數位學習平台,能夠讓學習者適當的瞭解學習內容及目前的階段,並且有學 習過程的歷史資料隨時可供調閱。在兒童的網路學習系統上,(吳弘凱,2003)分 析國小學童在網路學習系統上的「擷取課程」行為樣式,利用97 位國小學童於學 習平台上的擷取課程行為記錄,得到不同課程行為樣式。幼兒教育在Jonassen, D. H. (1991)呼籲「情境至上」後,數位學習的研究重心也轉向情境式的學習形式, 被學習的知識可利用情境故事的方式加以轉化,也得以意識到情境元素對於有意 義學習的重要,許多網路多媒體的研究也都有類似的發現(Carroll, J.M., 2000) (Alessi, S. M., & Trollip, S. R., 2001)(Banerjy, A., & Scales, G. R., 2005)。然而, 將情境元素順勢利導地納入數位教材中,需要多年的教學設計經驗方能竟功,因 而推廣不易。許多研究也著重在情境創設的處理手法設計環節上,試圖打造一個
創設學習情境的便利工具。(Aamodt, A., & Plaza, E., 1994)(Abrahamson, C. E., 1998) 情境故事導向數位教材以情境認知理論為基礎,可提供學習者有動機、會投 入、能記憶、可遷移的學習情境,適於問題解決類的教學(陳安斌、楊安渡、何 天華,2006)。互動設計的處理手法乃數位教材設計階段的首要工作,決定教材知 識設計與感知設計的骨幹,處理互動的流程是數位教材能否成為情境式教學的關 鍵點(Wager, W. D., & Gagné, R. M., 1988)。吳斯茜(2005)提出,情境故事導向 數位教材處理手法之設計模式,需利用角色、問題、任務、場景與資源等五個元 素,以及「1、決定學習者角色」,「2、決定問題與任務」與「3、決定場景與資源」 三個步驟,來創設學習情境,並獲致「提供擁有感」與「營造寫實氛圍」的效益。
2.3 推薦系統
推 薦 系 統 (Recommendation System ) 可 以 視 為 一 群 物 件 的 集 合 ,{
d d dn}
D= 1, 2,..., 。d 是指資料庫中的某件商品或某個資訊,而推薦系統的主要目i 標就是將D 中的某些符合使用者興趣的d 推薦給使用者(Yager, 2003)i 。與資料庫 行銷(database marketing)不同的是,推薦系統強調用戶的主動參與,藉由與用戶 的互動,並學習用戶的興趣,提供符合使用者需求的有價產品或資訊,以達到推 薦的目的。「推薦系統」這個名稱最早是由Resnick and Varian (1997)所提出。但在此之 前,相同的產品或資訊服務推薦概已被學者應用於許多的不同領域。例如:線上 音樂推薦(Shardanand & Maes, 1995);線上新聞主題推薦(Balabanovic´ & Shoham, 1997);家庭錄影帶(Hill, Stead, Rosenstein, & Furnas, 1995)以及電影推薦系統 (Miller, Albert, Lam, Konstan, & Riedl, 2003)。一般而言,推薦系統可概分為兩大 類:內容導向式(Content-based)推薦系統,以及協同過濾式(Collaborative Filtering) 推薦系統,分別介紹如下:
2.3.1 內容導向式推薦
內容導向方式(content-based approach)比協同過濾方式之推薦,更早被應用 在篩選資料上。通常內容導向式推薦會根據使用者輸入的關鍵字,由系統來篩選 出符合關鍵字或者符合關鍵字語意概念(Semantic Concept)的資料來推薦給使用 者。簡言之,內容導向式推薦是指針對產品屬性與客戶偏好相近時就加以推薦。 因為內容導向的方法因為實際考慮到物件的內容屬性,所以系統中的物件利用各 自的屬性向量表示式,來比較彼此間相似度時,通常有相當高的準確率。 在內容導向式推薦系統中,使用者是以自己的興趣來建立個人的興趣表示(興 趣向量),所以每個人的興趣向量都不盡相同,各有各自的特性,因此系統可以找 出每個人不同而只適合某個人的推薦,這使得採用內容導向過濾的推薦系統可以 更具備個人化的功能,推薦的東西更能符合個人的需求。 有關於內容導向式推薦系統的研究文獻也相當豐富,應用領域也相當廣泛。 Cheng and Yang(1999)提出基於內容導向的影音資料庫檢索方式,Mooney and Roy (2000)提出將文章依照興趣排序的書本推薦系統,Wang, Chuang, Hsu and Keh (2005)則建構一個化妝品選購的內容導向推薦系統。2.3.2 協同過濾式推薦
協同過濾方式(collaborative filtering approach)推薦系統最早於 1992 年由 Goldberg 等人於研究報告中首先提出(Goldberg, Nichols, Oki, & Terry, 1992),當 時被用以處理大量的電子郵件傳送上。此方法先找出一群具有共同興趣、背景或 經驗的使用者,形成所謂的「社群(community)」,也就是在某些行為或偏好上有 相同特性的成員之集合。透過分析此社群成員的偏好,用群體的觀點來產生推薦 項目給特定的個人使用者。換句話說,協同過濾式推薦系統先計算各使用者之間 的偏好行為相似度,找出與自己偏好相接近的鄰近群組,透過其他人的意見或建 議,來產生使用者沒有經驗但有興趣的推薦資訊來給使用者做為參考。
有關於協同過濾式推薦系統的研究文獻也相當豐富。Schafer, Konstan and Riedl(1999)提出一套協同過濾式推薦系統,協助使用者進行電子商務時得到更 多的產品推薦。Kohrs and Merialdo(2001)將協同過濾式推薦系統應用於建構使 用者個人化網頁設計。Kuo and Chen(2001)研發出符合個人化喜愛的資訊提供推 薦系統。Lee, Kim, and Choi(2003)則是建立了一套適用於網路環境的協同過濾式 推薦系統。
目前自動化推薦技術之相關研究主要可分為以下幾種方式:(Badrul Sarwar, George Karypis, Joseph Konstan, and John Riedl, 2000)(J. Schafer, J. K. Ben, and J. Riedl, 1999)(Daniel Billsus and Michael J. Pazzani, 1998)(David Goldberg, David Nichols, and Brian M. Oki, and Douglas Terry, 1992)
1. 非個人化熱門式推薦(Non-Personalized) 2. 物品關聯式推薦(Item-to-Item Correlation) 3. 屬性式推薦(Attribute-Based) 4. 人物關聯式推薦(People-to-People Correlation) 本研究之自動化推薦技術將採用屬性式推薦,並結合個人化偏好之模糊權重 資訊檢索整合技術,首先由領域專家標註各影音檔案之屬性,並由各用戶自行將 個人化的偏好類別及屬性填入,經過OWA 整合運算之後,產生各用戶對每一個影 音檔案的推薦分數,因此可較貼近用戶真實的心智模式,達成興趣偏好關聯式推 薦之目的。
2.3.3 資料採礦
資料採礦及探勘(Tzung-Pei Hong, Chan-Sheng Kuo, and Sheng-Chai Chi, 1999) (Jiawei Han and Michenline Kamber, 2001)是一種為了特殊需求,從已存在於資料 庫或資料倉儲之大量資料中,擷取有意義的知識、樣式(Pattern)或關聯性 (Associations)的一種過程。U. Fayyad, G. Piatetsky-shapiro, and P. Smyth(1996) 曾運用資料探勘流程,對使用者的興趣做規則探勘之工作,其主要包含下列步驟: 選取資料、資料前處理與轉換、執行資料探勘、解釋與評價探勘結果等,主要使
用的資料探勘方法如分類、趨勢分析、分群、關聯及循序特徵等,從轉換後的資 料中發掘存在的多種特徵及資訊,可採用Rough Set 演算法或 Apriori 演算法,以 關聯式法則來探勘未知的隱性知識,分析這些得到的資訊後,可透過文字或視覺 化的圖形,對擷取出來的資訊作一解釋與評價。
在Yu(1999)的研究中指出了資料探勘(Data Mining)的技術如何來改善個 人化的資訊推薦系統。大略有下列四種方法:群聚(Clustering)與相似度指標 (Similarity indexing)技術可以被用來辨別同等地位的群體或內容。關連法則探勘 (Association rule mining)可以被用來識別產品的關連性與客戶的輪廓資料以供目 標行銷之用。
2.4 模糊集合論
模糊集合論(Fuzzy Set Theory)是用數學的方法研究處理自然界模糊現象的 一門學問,經過多年的發展,模糊數學的領域已經非常的完備,在基礎理論方面 就有模糊集合、模糊關係、模糊圖論、聚類分析、綜合判斷、模糊識別、模糊語 言、模糊邏輯、以及模糊推論等(Zadeh L. A., 1975, Ⅰ-Ⅱ, 1976, Ⅲ)。本研究中 我們將使用循序權重平均(OWA)運算子,做為影音檔案推薦系統的技術核心。 模糊集合論是由美國加州柏克萊大學的 Zadeh 教授(Zadeh, 1965)提出,目 的在解決現實環境中之不確定性(Uncertainty)與模糊性(Fuzziness),Zadeh 認為 世上許多事物的探討與描述並非僅由“是"或“否",“屬於"或“不屬於"等 明確劃分的概念所能完全概括的,尤其是對一些抽象事物的描述,譬如“冷"或 “熱",“很喜歡"或“不喜歡"等,更是不易用嚴謹的數學函數來表示其意義, 因此Zadeh 認為應以模糊「歸屬函數(Membership Function)」來加以描述為佳。 為了跳脫傳統的0 和 1 的觀念,進而表示許多模糊關係的概念,Zadeh 教授將普通 集合論中的絕對隸屬關係靈活化,用特徵函數(Characteristic Function)來說明, 一個集合A,它的特徵函數μA(X)是介於0 到 1 之間,也就是說元素 X 屬於集合 A 的程度有大小輕重之分,而當μA(X1)>μA(X2)則表示元素 X1屬於集合 A 的程度 (Degree or Grade)比元素 X2屬於集合A 的程度大(或重)。因此這個集合 A 就是
一個不明確的元素隸屬關係,這種集合我們稱之為「模糊集合」(Fuzzy Sets)。
2.4.1 模糊數與基本模糊數運算
當我們的評估值落在某一個範圍之內,此時若以一個明確的數值表示,較不 能反映真實之情況,所以在模糊多屬性評估中,大多採用模糊數(Fuzzy Number) 這樣的表示方法,Dobois 與 Prade 曾對模糊數加以定義,並指出模糊數具有一些性 質(Dubios D., Prade H., 1978)(Dubios D., Prade H., 1980)。
【定義 2.1】模糊數 A~為一個模糊子集,其隸屬函數為 ~(x):U →[0,1] A μ ,並具有 以下特性: I. μA~為連續性函數。 II. μA~為一凸模糊集。 III. 存在一實數x ,使得0 ~(x0)=1 A μ 。 凡滿足此三項特性之模糊集合,便稱之為模糊數,常見的模糊數有三角模糊 數(Triangular Fuzzy Number, TFN),及梯形模糊數(Trapezoidal Fuzzy Number, TrFN),分別概略如下: 【定義2.2】三角模糊數 A~可定義成(a,b,c),其中a代表左端點,b代表中心點, c代表右端點,如圖2-1 所示,則其歸屬函數的圖形表示如下: μ(x) a b c x 1 0 A~ 圖2-1 三角模糊數A~的歸屬函數圖形
以公式表示三角模糊數 A~的歸屬函數可定義如下: 0 , ( ) /( ) , ( ) ( ) /( ) , 0 , A x a x a b a a x b x c x c b b x c x c μ < ⎧ ⎪ − − ≤ < ⎪ = ⎨ − − ≤ < ⎪ ⎪ ≥ ⎩ % (1) 【定義 2.3】梯型模糊數 B~可定義成(a,b,c,d),如圖 2-2 所示,則其歸屬函數的 圖形表示如下: a b μ(x) c 1 B ~ 0 d x 圖2-2 梯形模糊數的歸屬函數圖形 以公式表示梯型模糊數 的歸屬函數可定義如下: 0 , ( ) /( ) , ( ) 1 , ( ) /( ) , 0 , B x a x a b a a x b x b x c d x d c c x d x d μ < ⎧ ⎪ − − ≤ < ⎪⎪ =⎨ ≤ < ⎪ − − ≤ < ⎪ ≥ ⎪⎩ % (2) 【定義2.4】若將模糊數 A~與模糊數 B~取聯集其運算方式如下:
( )
(
)
{
i, A B i | A B( )
i(
A( ) ( )
i , B i)
, i}
A%∪ =B% u f ∪ u f ∪ u =Max f u f u u ∈U (3) 【定義2.5】若將模糊數 A~與模糊數 B~取交集其運算方式如下:( )
(
)
{
i, A B i | A B( )
i(
A( ) ( )
i , B i)
, i}
A%∩ =B% u f ∩ u f ∩ u =Min f u f u u ∈U (4)【定義2.6】若將模糊數 A~取補集其運算方式如下:
( )
(
)
{
u f u f( )
u f( )
u u U}
A= i, A i | A i =1− A i , i∈ (5) 【定義 2.7】假設正三角模糊數A~=(a1,a2,a3)與正三角模糊數B~=(b1,b2,b3),其 運算方式如下: 加法:A~+ B~=(a1,a2,a3)+(b1,b2,b3) =(a1+b1,a2+b2,a3+b3) (6) 減法: A~ − B~=(a1,a2,a3)−(b1,b2,b3)=(a1−b3,a2−b2,a3−b1) (7) 乘法: A~ × B~ =(a1,a2,a3)×(b1,b2,b3) =(a1×b1,a2×b2,a3×b3) (8) 除法: A~/ B~=(a1,a2,a3)/(b1,b2,b3) =(a1/b3,a2/b2,a3/b1) (9)2.4.2 語意變數
根據Zadeh(1975, 1976)提到,對於複雜或難以定義的情境,一般人很難以 傳統的量化方法來做合理的表達,因此有必要運用語意變數的觀點來處理這類狀 況。語意變數並不是使用明確的數值,而是人類的一個文字、自然的句子或人工 語言所代表的變數。我們可將語意變數劃分為數個適當且有效的語意尺度,例如 “非常不喜歡"、“不喜歡"、“普通"、“喜歡"、“非常喜歡"等,讓評選 者各自選擇他們認為合適的語意來描述個人對此評選項目的感受(如圖 2-3)。再由 透過事先設計好的各種語意尺度所代表的模糊數(如表 2-1),進而推算全體評選者 對各評審項目的實際感受值。非 常 不 喜 歡 非 常 喜 歡 不喜歡 普通 喜歡 ) ( ~ x A μ 1 0.5 0 3 5 7 9 x 1 圖2-3 五種語意變數之三角模糊隸屬函數 表2-1 語意變數對應三角模糊數給分對照表 語意變數 給分(Rating) 非常不喜歡(VL) (1,1,3) 不喜歡(L) (1,3,5) 普通(M) (3,5,7) 喜歡(H) (5,7,9) 非常喜歡(VH) (7,9,9)
2.4.3 解模糊化
解模糊化簡單來說就是將模糊集合轉換成明確集的的一種方法,目前被提出 的至少有七種方法以上,分別為最大歸屬值法、重心法、加權平均法、平均最大 歸屬值法、最大面積中心法、首(或尾)最大值法等,本研究中所用的是較常會被使 用的重心法(Center of Gravity Method)做介紹,方法如下:( )
( )
( )
∑
∑
× = i A i A i x f x f x g f (10) 其中g( )
xi 就是我們一般稱之的權重值,而 f 就是模糊歸屬函數 fA( )
xi 之重心。2.5 循序權重平均運算子
Yager(1988)在提出循序權重平均(OWA)運算子之後,就有許多的學者專 家將它運用在各種領域的權重運算上,此理論中最重要的地方在於可自由的測定 相關的權重問題,此運算方法具有較為合理且具彈性(考量情境參數α)等優點, 為了能更清楚的瞭解OWA,下列介紹其基本定義及一些運算(Filev D. & Yager, R. R., 1998):
【定義2.8】一個空間維度 n 的 OWA operator 對應函數為(Yager, 1988): : n f R → ,而其關聯權重矩陣 W 為 R 1 2 [ , , ... , ] T n W = w w w ,使得 1, [0,1] i i i
w
w
= ∈∑
∀
而 1 2 1 ( , , ..., )n n j j j f a a aw b
= =∑
(11)其中,bj為目標集合 a1,a2,….,an的第 j 個最大元素,而函數 f(a1,….,an)所得 到的值即為 a1,a2,….,an的參數集合值。
Fuller and Majlender(2001)後來在原有的 OWA 加入 Maximum entropy 的觀 念,提出一個新的在最大Entropy 之下所獲得的 OWA 權重運算模式,這方法簡化 了舊有的OWA 運算的不便之處,且新的 OWA 方法計算過程只需給定α值與指標 個數 n,並重新排列指標的重要性程度順序,即可進行運算。其運算式子如下所示:
( )
W Orness =∑
= − − n i iw
i n n 1 1( ) 1 (12) 權重向量 W 的資訊亂度(或熵)為( )
W Disp =w
w
i n i iln 1∑
= (13)亂度最大時,Maximize n
w
w
i i iln 1∑
=∑
= − − = n i iw
i n n 1 ) ( 1 1 α (14) α為給定的參數;n 為屬性個數;W1為權重最高的 OWA 屬性權重,W2為權 重次高的OWA 屬性權重,而後依序排列。 1 1 1 1 ln 1 ln 1 1 ln ⇒ = − − − − − + − − = n j n j n j n jw
w
w
w
w
w
nj nn j (15) 且w
1[
(
n−1)
α +1−nw
1]
n =[
(
n−1)
α]
n−1[
(
(
n−1)
α −n)
w
1+1]
(16) 若 = = = = ⇒ nw
w
w
n 1 .... 2 1 disp(W) = ln(n 此時資訊亂度最大 )w
w
w
n nn n n 1 1 1 ) 1 ( 1 ) ) 1 (( − + − + − − = α α (17) 上列公式(11)-(17),n 表示屬性個數,w表示權重向量,α在本研究中則表示 用戶當時的情境指標,α=0.5 時,為最大的資訊亂度,α=0 或 1 時則為最小資訊 亂度。簡單來說,當用戶為樂觀者時,或期望資料的分布朝向集中化時,α可趨 於 0 或 1,而若使用者為中立者時,或期望資料的分布朝向分散化時,α可趨於 0.5,如此即可由(16)式獲得最高權重(W1)的值,由(17)式算出最低權重(Wn), 進而快速的求得所有其他的權重值(W2 ~ Wn-1)。第三章 客製化影音檢索系統
網路個人化的時代已經來臨,家用電腦作為家庭娛樂中心的「數值化家庭」 理想也開始實現,在本論文提出的架構裡,用戶只需依個人興趣,訂閱個人化的 頻道,就可以在電腦裡,很方便的自動收到各種內容檔案,包含文字、聲音、動 畫、視訊等傳送服務,我們稱之為「推薦內容快遞」服務(Recommended Content Push:RCP),在本研究中將簡稱為RePush,同時亦有 Recommended Push 及 Re-Push 推薦式推送服務及重覆推送、轉向推送之意。其特點在於:此平台只需要維持一 個從全球各地搜集來的、有價值的「檔案超鏈結位置資訊」之資料庫,即可提供 用戶所需要的各式內容檔案,並且因為是由用戶自己自動去下載到他電腦裡的, 當下載完成後,才會通知用戶進行節目觀賞,因此同時解決了伺服器的頻寬問題、 用戶的串流觀賞影片的頻寬問題、及許多可能的著作權衍生問題等。 由於此種創新平台,可使得未來的網路影音營運業者,不需再花費許多的資 源,很繁瑣的去獲得昂貴的各影音內容上面,因此這種方式比起目前所有的傳統 音樂及影音檔案下載業者,將更具有彈性,將能以幾乎無成本的資訊加值方式來 提供服務。網路上雖然經常有許多創新的服務出現,但是我們觀察到,只有模式 愈簡單,用戶接受度愈高的服務才容易成功,因此本論文接下來的重點在於說明 如何建構一個模式很簡單,但卻能改變目前產業均勢的服務出現。
3.1 用戶推薦內容快遞服務平台
本平台主要是一種能提供特定檔案位置資訊的超鏈結表單服務系統及服務模 式,能有效管理網際網路上眾多可下載檔案的來源,並利用搜尋、推薦、評分等 技術,將分布於全球各地網站上的特定資源,在本系統的伺服器管理之下,透過 維持一張記載有最新正確的各個資源位置之超鏈結資訊表單,來服務各地之用戶 端,使其能快速手動或完全自動地將檔案下載回來,當需要觀看該影音檔案時, 即可在本地端直接開啟使用,不受頻寬或串流問題所干擾。人工搜尋 影音檔案 人工標記 影音類別 關鍵詞概念 分類辭典 關鍵詞概念 分類辭典 影音超鏈結 位置資料庫 影音超鏈結 位置資料庫 加入超鏈結資料庫 專家 專家 服務提供者 推薦給用 戶的表單 模糊權重資訊檢索整合系統 用戶興趣 概念擷取 影音標記 關鍵概念詞 用戶端自動下載 用戶訂閱 關鍵詞 用戶收到 下載表單 影音下載 用戶硬碟 影音下載 用戶硬碟 智慧型推薦系統 影音內容 圖3-1 平台的研究模型架構 如圖3-1 所示,首先服務提供者使用人工或自動搜尋技術,將全球各地可用的 影音檔案搜尋、整理出來,經過人工標記這些影音檔案之後,即可加入超鏈結的 資料庫之中。人工標記是利用屬性關鍵詞組,來描述影音檔案的分類方法,是目 前最合理的方式之ㄧ,由於影片名稱通常無法直接望文生義,許多影音租售商店 都是用此方式,來歸類各個影音檔案,例如,「星光大道」影音公司的網頁上,對 於每個新上架的影片,都會使用一些關鍵詞組來描述此影音內容,以方便客戶檢 索其本身興趣之影片,如表3-1 所示: 表3-1 影片名稱及標註 影片名稱 標註 窒命寫真 驚悚、懸疑、鬥智、動作 艾瑪的禮物 劇情 洞裡春光 文藝 明明 武俠、浪漫 哈利波特:鳳凰會的密令 冒險 藏屍樓 恐怖、驚悚
蜂電影 動畫、喜劇 靈異透視 靈異、驚悚、恐怖 奪命手術 懸疑、驚悚、恐怖 邪鱷禁區 災難、驚悚、恐怖 仲夏夜驚魂 懸疑、驚悚、靈異 異形戰場:適者生存 動作、科幻、驚悚 國家寶藏2 冒險 潛水鐘與蝴蝶 劇情 我的聖誕老公 爆笑、魔幻、喜劇 惡夜30 恐怖、驚悚 黃金羅盤 奇幻、冒險、史詩 蒙哥馬利的玩具王國 奇幻、冒險、家庭 屍蹤現場 懸疑、謀殺、動作 惡作劇之刎 恐怖、驚悚、懸疑 情聖兄弟 爆笑、喜劇 奪魂鋸4 恐怖、驚悚、鬥智 星塵情緣 動作、冒險 因此,對於本研究人工標記時,所使用到的影音屬性關鍵詞,將綜合台灣幾 個較知名的影音商店之常用標記分類用的關鍵詞,如下表3-2 所示: 表3-2 知名商店常用影音標註關鍵詞 iVideo 亞藝影視 PDA 永興 劇情 3D 動畫 動作 動作片 愛情文藝 文藝 動畫 冒險 恐怖驚悚 卡通 喜劇 動作 懸疑推理 動畫 犯罪 恐怖 動作 史詩 戲劇 科幻 災難 布袋戲 家庭 警匪 卡通 犯罪 科幻 戰爭 相聲 災難 黑白片 喜劇片 喜劇 其他 恐怖 浪漫 溫馨勵志 奇幻 音樂劇 喜劇 科幻 武俠 神秘 劇情片 戰爭 社會寫實 浪漫 劇情 探索 青春純愛 科幻 懸疑 國家地理 冒險 驚悚 羅曼史 BBC 科幻 戰爭 神秘
知性類 紀錄片 西方 特殊興趣 懷念經典 家庭 音樂 情色 恐怖 經典 情色MPG 浪漫 亞洲電影 布袋戲 真實故事 動作 音樂片 鬥智 喜劇 演唱會 動作 家庭 舞蹈與表演 動畫 劇情 寫真 情色 卡通 風景 清涼 警匪 卡拉OK 都會 布袋戲 港片 喜劇 西洋影集 日片 傳奇傳記 動作 國片 愛情 喜劇 X 檔案 溫馨 家庭 幼教 劇情 警匪 間諜 戰爭 其他 紀錄片 戰慄 劇情 謀殺 爆笑 藝術 懸疑 警匪 魔幻 驚悚 靈異 將這些各家商店常用的關鍵字整合之後,去除重複的詞組,本研究取得66 個 關鍵詞,用以表達網路上的影音檔案之概念分類,如表3-3 所示。 表3-3 描述影音屬性之語意關鍵詞 屬性ID 1 2 3 4 5 6 7 8 9 10 0 3D 動畫 X 檔案 文藝 日片 卡拉 OK 卡通 史詩 布袋戲 幼教 犯罪 10 西方 災難 其他 奇幻 武俠 知性類 社會寫實 青春純愛 冒險 相聲 20 科幻 紀錄片 音樂 音樂劇 風景 家庭 恐怖 浪漫 真實故事 神秘 30 鬥智 動作 動畫 國片 國家地理 情色 探索 推理 清涼 都會 40 喜劇 港片 間諜 黑白片 傳奇傳記 愛情 溫馨 經典 演唱會 舞蹈與表演
50 劇情 寫真 戰爭 戰慄 謀殺 勵志 戲劇 懷念經典 爆笑 羅曼史 60 藝術 懸疑 警匪 魔幻 驚悚 靈異 智慧型推薦系統則透過OWA 運算的設計,將所有候選的影音檔案,一一按照 其標記的關鍵概念詞與用戶的興趣概念詞做比對,計算出各影音檔案對某特定用 戶的推薦分數,然後按照用戶的興趣偏好等設定,將適合該用戶的影音推薦表單 送給該用戶,當用戶連線進來伺服器時,即可完成遞交表單的任務。 當用戶收到推薦的表單資料之後,會立即自動在背景程式中,以多執行緒的 方式,到表單記載的各超鏈結位置去下載該檔案或資料,當下載好資料之後,就 會通知用戶並等候其收看或收聽節目。為求有效率起見,用戶的興趣概念詞目前 也是這描述影音屬性語意的66 個關鍵詞相同,並分為 5 至 7 個大分類,因此推薦 的結果將容易達成比較正確地與用戶的真實興趣相結合。 服務提供者需架設好該超鏈結資料表單的伺服器,並維護機器本身與網路頻 寬之正常運作,接下來,提供用戶能從網路上順利完成安裝及會員註冊等事項。 服務提供者需負責管理各用戶端之帳號申請,並提供計費系統等管理服務,用戶 端則需透過網路取得帳號、密碼。經過驗證後,即可提供用戶端開始自動下載各 式推薦的資訊表單,並由用戶端內建的機器人程式,自動去下載該資訊表單所記 載之各檔案,下載完成後會有訊息通知,隨即可直接取用電腦裡已下載的各個檔 案,且同時也獲得該檔案額外之文字、聲音或多媒體介紹等相關資訊服務。
3.2 全球超鏈結位置伺服器
所謂的超鏈結是連接另一個網站的某網頁位置,或直接指到此連接點裡的某 個檔案上,通常在網頁顯示上以藍字底線顯示。超鏈結是網頁和其他媒體之間最 大的區別,訪問者只要單擊網頁上的超鏈結,瀏覽器就會自動打開鏈結的目標網 頁或下載該目標檔案。超鏈結的出現,改變了人們按順序閱讀訊息的傳統習慣, 同時也改變了檔案儲存位置的觀念。在網路上只要從瀏覽器上打入此超鏈結位 置,就可以將該檔案下載回來使用,同樣地,本研究所設計的應用軟體,也可以在獲得這個超鏈結位置後,就透過背景執行,自動無聲無息、不影響用戶的情況 下,將這檔案下載回來。 全球超鏈結位置伺服器,提供用戶端可定時取回最新的一張超鏈結資料表 單,上面記載有全球各網站可下載的特定檔案超鏈結位置資訊,因此將可位居於 數位匯流的內容最源頭端。當用戶端獲得該表單之後,隨即可以至表單所列的超 鏈結位置去下載這些檔案。而服務提供者,也就是伺服器的管理者,其最重要的 核心工作,就是儘量去尋找出全球各網站合適或值得用戶下載收藏之特定檔案, 例如各文教機關提供的免費幼教有聲教材等,並將這些檔案最新的正確位置,或 最佳的頻寬位置等超鏈結資訊,加入該超鏈結資料表單內。 服務提供者也會視狀況將各超鏈結檔案之額外介紹資訊部份,以聲音、文字 或多媒體等輔助方式,加入到該超鏈結資料表單中之相對的關聯位置。如此,透 過本研究之服務系統,將可提供用戶端透過一個使用者介面,在該用戶端電腦的 資料儲存區內,即可隨時直接取用該超鏈結資料表單所列之已下載檔案,且同時 從該使用者介面即可方便獲知該檔案額外之文字、聲音或多媒體等相關的介紹資 訊。 可加入到這超鏈結上面的資訊來源,有下列幾種狀況: 1. 由管理者找到的好內容、版權沒有問題的檔案,可由專人審核後,加入到這 超鏈結資料庫。 2. 用戶自己提供的內容,也可透過回饋機制,加入到這資料庫上面。 3. 與其他業者的合作,可以由業者提供可付費內容,透過付費機制加入到這資 料庫上面。 在伺服器上的訊息都會是最新的,因為經過大家分散式鏈結後,很快就會在 伺服器上形成專業分工,利用眾人的回饋結果,將最好鏈結的網址,或最多人聽 的檔案資源,都利用用戶連結更新時,告知所有用戶。如圖3-2 所示,為本平台服 務系統之運作流程圖。
收到客戶端要求服務 等待服務要求 建立連線 用戶端提出服務要求 依用戶端帳戶資訊計算 出最合適的超鏈結資料 表單內容 用戶端收到資料表單 建立連線 伺服器送出資料表單 選擇下載之檔案 自動至超鏈結位置 下載所選擇之檔案 將檔案放置於 檔案儲存區裡 網路上其他各伺服器 伺服器送出介紹資訊 用戶端收到介紹資訊 圖3-2 平台服務系統運作流程圖
3.3 獲得用戶最新推薦表
用戶端會有一個內建機器人程式,是一個專屬的軟體系統,與單純的網頁瀏 覽器不同,它可存在電腦中,也可放在3G 手機裡,也可以放在電視機上的機上盒 內(STB)。在其內建的程式功能中,已設定好不需要通過點選網頁的方式,即可 於背景執行狀態下,定時自動從我們的伺服器上,獲得一張依自己勾選興趣的超 鏈結資料推薦表單,例如,如表3-4 所示為一個有 6 個資料紀錄的超鏈結位置表單 範例。 表3-4 超鏈結位置資料表範例 檔案編號 內容名稱 分類 超鏈結位置 1065 大海的故事 科學故事 http://www.ear18.com/story/50016.mp3 1049 釜底抽薪 益智故事 http://www.ear18.com/story/80173.mp3 1010 消逝的黑紐扣01 偵探故事 http://www.ear18.com/story/112074.mp3 1005 小穆克 兒童故事 http://www.chinesef.net/stzx/gscb/thgs/0249.mp3 1089 對牛彈琴 成語故事 http://www.ear18.com/story/41365.mp3 1096 野天鵝 兒童故事 http://www.chinesef.net/stzx/gscb/thgs/0312.mp3用戶端接收該超鏈結資料表單後,利用使用者介面,可提供用戶以自動或手 動的方式,來選擇哪些檔案才真正需要去下載回來,選定之後,用戶端就會自動 將這些選擇的各個檔案超鏈結位置資訊,送至用戶端內建的自動下載單元,並啟 動一個或多個下載程式,依序或依各網站的網路通訊狀況,自動連結至各超鏈結 位置之網路其他伺服器,將選擇之檔案自動下載至該客戶端的硬碟儲存區內。因 此,安裝此軟體之後,用戶端的電腦將可以很方便、自動的常常保有這些自動下 載回來最新且值得收藏的檔案了,例如,教材、故事、新專輯介紹、理化實驗Flash 動畫檔、或其他各類影音檔案。 由於網站上許多影音檔案所取的檔名,都跟此檔案根本無關,因此利用自動 的關鍵詞比對系統,無法很正確的分類推薦成功,因此本研究的超鏈結表單,將 採取使用人工的方式,透過專家的搜尋,將各檔案的屬性關係及額外的介紹等資 訊,以多媒體或超鏈結的方式,記載於該資料表單之內,當用戶擁有該檔案時, 再從各相關位置自動取得獲得相關的介紹資訊,並自動對應至各已下載完成之相 關檔案。 最新推薦給各用戶的資訊裡,包含有自動挑選部分和管理者手動加入部分。 自動挑選部分,是從超鏈結資料總表中,依個人訂閱的頻道中,在每次連線回來 時,隨機或依政策自動節錄不同數量的超鏈結資料紀錄,產生成為該用戶的最新 推薦下載的超鏈結資訊表單。此每次所輸出之資料表單內容,由於伺服器的管理 程式可由軟體設定,將可彈性挑選不同的表單紀錄、項目、數量等,依不同用戶 端的權限、條件及系統管理者之決策而定,將最合適的推荐超鏈結送給該用戶使 用。 由於網路上的各類伺服器所放置之可下載檔案,並不一定能完全成功下載, 有時因為網路問題或伺服器問題,會造成超鏈結失效的問題,因此,此表單在用 戶端也會自動記錄下某些訊息,在下次接收新表單時,將該欄位資料回傳給服務 器,利用該自動下載單元在下載各超鏈結位置檔案時,自動紀錄該用戶端對各不 同檔案之下載速度、及下載成功或失敗等訊息,利用統計或其他資料採礦的方式, 找出最可靠的各超鏈結檔案之下載狀況,作為對其他用戶端傳送該相同檔案位置 資訊時的參考依據。例如:各推薦下載超鏈結紀錄的用戶下載狀況(成功次數/失