• 沒有找到結果。

一個考慮閱聽人體驗喜好的電子新聞推薦模型 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "一個考慮閱聽人體驗喜好的電子新聞推薦模型 - 政大學術集成"

Copied!
83
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學數位內容碩士學位學程 碩士學位論文. 一個考慮閱聽人體驗喜好的電子新聞推薦模型 政 治. 大. 立 An E-news Recommendation Model Based on Consumer’s. ‧ 國. 學. Experience and Preference. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授:許 志 堅 博士 副指導教授:廖 峻 鋒 博士 研究生:朱 為 丞 撰. 中 華 民 國 105 年 7 月.

(2) 誌 謝. 首先很感謝聖三位和主讓我能夠考上並在政大數位內容所當中學習,過程雖 然辛苦,但讓我學習到很多寶貴的事物,如何和人相處、如何團隊合作、如何做 好一份研究,如何構想等等。. 政 治 大 我如何做一份研究,感謝很多雖然我不太熟悉但是卻熱心幫助我的老師們、感謝 立. 很感謝父母們總是不求回報的支持著我,感謝許志堅老師一步步帶著我教導. ‧ 國. 學. 很多不認識的同學幫我填寫非常長的問卷、也感謝許多過程中幫助我的朋友以及 忍受我不足的朋友們。. ‧. 在過程當中深刻感受到整個學術領域的浩瀚,若沒有過去許多偉大的學者的. sit. y. Nat. 貢獻,無法讓各個研究領域如此蓬勃的發展,也體會到要完成一份論文真的不是. al. er. io. 靠一個人就可以了,需要有許多研究人員的貢獻,也需要有很多人的幫助。期望. v. n. 自己能夠把所學到的所得到的,在未來更多的回饋給這個世界。. Ch. engchi. i n U. 2017.1 月 朱為丞. 1.

(3) 摘 要. 本研究嘗試建立一個考慮使用者體驗喜好之電子新聞推薦模型。我們以 Schmitt 提出之策略體驗模組為基礎了解使用者對各體驗之重視程度,分析使用 者對各種不同型式體驗之重視程度以作為 ID3 決策樹機器學習演算法的輸入屬. 政 治 大 這些輸入屬性(使用者對各種不同型式體驗之喜好)與目標屬性(使用者對於電子 立 性,並以消費者對於電子新聞的喜好與否作為目標屬性,利用決策樹演算法計算. ‧ 國. 學. 新聞的選擇)之間的關聯式規則。接著利用這些規則來建構一個預測模型,以評 估閱聽人對於未知電子新聞的接受程度,從而建立一個能有效符合使用者個人體. ‧. 驗喜好之新聞推薦模型。. sit. y. Nat. n. al. er. io. 關鍵詞:體驗行銷、決策樹、新聞推薦. Ch. engchi. 2. i n U. v.

(4) 目次 第一章 研究動機與目的............................................... 8 第一節 研究背景與動機........................................... 8 第二節 研究目的................................................ 10 第二章 文獻回顧.................................................... 14 第一節 體驗行銷................................................ 14 一、 體驗的定義............................................ 14 二、 策略體驗模組.......................................... 15. 政 治 大 第二節 資料探勘(Data 立 Mining)................................... 18 三、 體驗媒介.............................................. 17. ‧ 國. 學. 一、 資料探勘的操作步驟.................................... 19 二、 資料探勘的技術與方法.................................. 19. ‧. 三、 決策樹演算法(Decision Tree)........................... 22. sit. y. Nat. 四、 ID3 演算法(Iterative Dichotomiser 3) .................. 22. al. er. io. 第三節 李克特量表.............................................. 25. v. n. 第四節 軟性新聞................................................ 26. Ch. engchi. i n U. 第三章 研究設計....................................................32 第一節 使用者行為資料蒐集...................................... 35 一、 閱聽人體驗喜好之評估.................................. 36 二、 設計問卷.............................................. 37 三、 問卷測試、修正及問卷調查.............................. 42 第二節 機器學習................................................ 43 一、 訓練階段.............................................. 43 二、 執行階段.............................................. 50 第四章 實驗結果與分析.............................................. 55 3.

(5) 第一節 問卷設計及結果分析...................................... 55 一、 問卷設計.............................................. 55 二、 問卷測試及修正........................................ 56 三、 問卷信度分析.......................................... 57 四、 問卷效度分析.......................................... 59 第二節 推薦系統衡量指標及驗證方法.............................. 60 第三節 實驗結果分析............................................ 62 一、 演算法之參數調整...................................... 63. 政 治 大 第五章 結論與未來展望.............................................. 78 立 二、 實驗結果分析.......................................... 73. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 4. i n U. v.

(6) 表次 表 1、現有新聞推薦演算法優缺點比較.......................................................... 11 表 2、台灣紙本新聞分類 .................................................................................. 27 表 3、國際紙本新聞分類 .................................................................................. 28 表 4、網路新聞分類 .......................................................................................... 29 表 5、體驗模組之於新聞內容的意義 .............................................................. 36 表 6、各新聞體驗之重要關聯因素 .................................................................. 38. 政 治 大 表 8、各新聞類別所包含之新聞內容 .............................................................. 42 立 表 7、各重要關聯因素之對應問句 .................................................................. 39. 表 9、好感得分配分表 ...................................................................................... 45. ‧ 國. 學. 表 10、使用者對各重要關鍵因素之喜好表 .................................................... 46. ‧. 表 11、新聞喜好得分配分表 ............................................................................ 47. y. Nat. 表 12、使用者對各新聞類別之喜好表 ............................................................ 48. er. io. sit. 表 13、體驗重要關鍵因素及新聞類別種類 ....................................................52 表 14、體驗重要關鍵因素信度 ........................................................................ 58. al. n. v i n 表 15、各新聞類別因素信度 58 C h............................................................................ engchi U 表 16、CRONBACH. Α 係數與可信度高低之對照表 ............................................. 59. 表 17、各問卷之 KMO 值及球型檢定值 ............................................................ 60 表 18、混淆矩陣 ................................................................................................ 61 表 19、決策樹停止分割純度門檻之變化影響表 ............................................ 64 表 20、決策樹停止分割純度門檻對不同各類別新聞之變化影響表 ............ 66 表 21、權重分配係數 ALPHA 值之變化影響 ...................................................... 68 表 22、權重分配係數 ALPHA 值對各類別新聞之變化影響表 .......................... 69 表 23、推薦門檻 MIN_SUGGEST_SCORE 值之變化影響表 ...................................... 71. 5.

(7) 表 24、推薦門檻 MIN_SUGGEST_SCORE 值對各類別新聞之變化影響表 .............. 72 表 25、推薦模型對不同數量測試資料之推薦表現 ........................................ 74 表 26、推薦模型對不同類別新聞之推薦表現表 ............................................ 76. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 6. i n U. v.

(8) 圖次 圖 1、美國成年人使用各種媒體的時間比例 .................................................... 8 圖 2、獲得新聞的主要來源比例 ........................................................................ 9 圖 3、超過 18 歲並使用網路的人口中,會觀看網路新聞的人數 ................ 10 圖 4、決策樹架構 .............................................................................................. 24 圖 5、研究示意圖 .............................................................................................. 32 圖 6、問卷設計流程 .......................................................................................... 33. 政 治 大 圖 8、訓練階段架構圖 ...................................................................................... 44 立 圖 7、機器學習架構圖 ...................................................................................... 35. 圖 9、各新聞類別決策樹 .................................................................................. 49. ‧ 國. 學. 圖 10、執行階段流程圖 .................................................................................... 51. ‧. 圖 11、問卷設計流程 ........................................................................................ 55. y. Nat. 圖 12、問卷修正流程 ........................................................................................ 56. er. io. sit. 圖 13、決策樹停止分割純度門檻之變化影響圖 ............................................ 64 圖 14、決策樹停止分割純度門檻對不同各類別新聞之變化影響圖 ............ 65. al. n. v i n 圖 15、權重分配係數 ALPHA 67 C 值之變化影響圖 U h e n g c h i .................................................. 圖 16、權重分配係數 ALPHA 值對各類別新聞之變化影響圖 .......................... 69 圖 17、推薦門檻 MIN_SUGGEST_SCORE 值之變化影響圖 ...................................... 70 圖 18、推薦門檻 MIN_SUGGEST_SCORE 值對各類別新聞之變化影響圖 .............. 72 圖 19、推薦模型對不同數量測試資料之推薦表現圖 .................................... 74 圖 20、推薦模型對不同類別新聞之推薦表現圖 ............................................ 76. 7.

(9) 第一章. 研究動機與目的. 第一節 研究背景與動機 近年來,由於網路和行動通訊的興起,使得傳播產業受到了很大的衝擊和影 響,新媒介的發展改變了閱聽人獲取資訊的方式。使用者除了透過傳統的媒體獲 取資訊之外,越來越多使用者透過 Facebook,Twitter,Youtube 等等新媒介平台 來獲取最新資訊。而傳統的媒體公司為了因應這潮流也各自展開新媒介的佈局。 美國知名市場研究機構 eMarketer 針對使用者主要獲取資訊的方式進行調查(圖. 政 治 大. 1)[1],發現在 2013 年時,美國成年人使用新媒介的時間首次超越了觀看電視的. 立. 時間,並且使用行動通訊的時間比率不斷的增加,到 2014 年已經有 23.3%。使. ‧. ‧ 國. 學. 用傳統媒體如電視,廣播,印刷品的時間則逐年的下降。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 1、美國成年人使用各種媒體的時間比例. 在新聞領域當中,使用者比起透過紙本越來越習慣透過網路來閱讀新聞,美 國皮尤研究中心(Pew Research Center),2008 年時調查發現,使用者主要獲取新 聞的來源,比例上電子新聞已經超越了紙本新聞(圖 2)[2]。而美國 comScore 網 8.

(10) 站則針對十八歲以上會使用網路的美國人進行觀看網路新聞的狀況調查,發現在 2014 年一月到 2015 年一月,會觀看數位新聞的人數比例增加了 19%,從一億四 千六百萬人,成長到了一億七千三百萬人,會觀看網路新聞的佔其中 82%(圖三) [3]。而在大量的內容以及龐大數量的使用者當中,如何推薦使用者所喜歡的新 聞內容,成為了重要的課題。以現有的新聞網站,常用使用的推薦方式,是按照 點擊的人次做熱門新聞推薦,以及推薦和使用者所點擊的內容分類相同的新聞。 以 New York Times 為例,在新聞之後會推薦和所點閱相同分類的數個新聞,以 及推薦焦點新聞。而其他如 BBC,CNN 則會推薦熱門新聞,以及與觀看新聞內. 政 治 大. 容中有相關的新聞,也會推薦和所點閱的內容相同分類的新聞。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2、獲得新聞的主要來源比例. 9.

(11) 180 175 170 165 160 155 單位:百萬. 150 145 140 135 130. 政 治 大 (資料來源:comScore). 圖 3、超過 18 歲並使用網路的人口中,會觀看網路新聞的人數. 立. ‧. ‧ 國. 學 y. sit. Nat. 第二節 研究目的. n. al. er. io. 如何推薦給使用者所想要觀看到的內容成為了學者們爭相研究的題目,許多. i n U. v. 學者提出使用機器學習的演算法,針對使用者進行分析並推薦新聞。其中演算法. Ch. engchi. 大 致 上 可 以 分 為 兩 種 , 一 種 是 以 內 容 為 底 進 行 的 推 薦 (content-based recommendation ) , 另 外 一 種 則 是 透 過 使 用 者 群 的 演 算 法 來 推 薦 新 聞 內 容 (collaborative filtering),這種演算法就不針對新聞的內容分析[4]。. 以內容為底進行的新聞推薦部分(content-based recommendation),Kompan, M.和 Bieliková, M.,提出了以餘弦相似度(cosine-similarity)演算法針對內容運算 來推薦新聞[5]。也有學者提出 Hermes framework [6]和 Athena framework[7], 對內容進行知識本體(Ontology)的比對和分析之後推薦新聞。. 10.

(12) 另外,透過使用者群的演算法來推薦新聞內容(collaborative filtering)的部 份,Joseph A. Kostan 等學者將 collaborative filtering 的演算法使用在 Usenet news 中[8]。Google 在 2007 年也提出了延展性高的 collaborative filtering 推薦[9]。. 除了上述兩類型的演算法之外, google 在 2010 年提出另一種演算法[10] 認為人想要觀看新聞,就是想要找尋一些新的事物,因此不會只提供相同類別的 內容,反而會提供一些比較一般的內容,並針對使用者的點擊進行記錄以及分析, 觀察在這期間當中,點擊內容的趨勢,並分析出使用者是不是有新的興趣產生,. 政 治 大 表 1、現有新聞推薦演算法優缺點比較 立. 進而推薦相關的內容。. ‧ 國. 優點. 依照點擊次數推薦. y. sit. er. 可以提供讀者喜歡的 無法針對讀者個人喜歡的 體驗進行分析推薦 a l 領域的熱門文章 v i n Ch e n g c h i U無法直接針對使用者喜好 能夠對同類型興趣的. n. collaborative filtering. 推薦. ‧. 心的議題. io. recommendation. 缺點. 能夠推薦出大眾最關 無法針對使用者喜好進行. Nat. content-based. 學. 推薦方法. 人推薦該類型的新聞. 進行分析並推薦. 本研究分析後發現,目前所使用的推薦演算法,最後的決策主要是依據新聞 的內容類別作為決策來推薦,或者是透過擁有相同興趣使用者的記錄進行推薦, 沒有辦法針對使用者本身的喜好體驗精準的進行分析並推薦。. 11.

(13) 阿里巴巴集團董事局主席兼執行長馬雲曾說:體驗很有意思,就是感受,上 世紀講了很多服務,不斷地增加服務能力,其實客戶要的不是服務,而是體驗。 近來對於消費者和使用者而言,消費者和使用者喜好的不只是訊息或服務的本身, 而是整個服務所給人的體驗。像是買電子產品時,相較於過去產品只是擺設在產 品架上,現在的商店都會擺設實機在店中供消費者體驗以及使用。經營書店時也 不再只是顧慮到書種類的齊全,數量的多寡而已,如何營造出好的體驗成為了吸 引人潮的關鍵。另外消費者也會願意花相當的金費去得到一個難忘的體驗,比如 說去遊樂園遊玩,農場生活體驗,或是創造出一個生日的驚喜等等。. 政 治 大 Pine and Gilmoe(1998)在"體驗經濟(The Experience Economy)“[11]一書中 立. 就提到,過去從農業經濟時代 、工業經濟時代、服務經濟時代,到現在進入到. ‧ 國. 學. 了體驗經濟的時代,透過體驗可用來創造使用者難以忘懷的感受,而增加該服務. ‧. 所帶來的效益。另外 Schmitt 在 1997 年則提出了具體的體驗分類模組,可將體驗. y. sit. io. er. 式體驗[12]。. Nat. 大致分成感官式(sense)、情感式(feel)、思考式(think)、行動式(act)以及關聯(relate). al. n. v i n 雖然依靠點擊率進行推薦可以推薦出最熱門的即時話題,但除了熱門的即時 Ch engchi U. 話題之外,尚有其他多樣化的新聞內容,其中較軟性的議題像是旅遊或是親子議. 題等等就較不能用點擊率作為推薦的依據,而是需要針對使用者喜好的體驗進行 分析再加以推薦。因此本研究想要針對新聞的體驗構面,結合機器學習的演算法 來建構一套推薦系統。. 擁有巨大的資料量的時候,透過機器學習和資料探勘的演算法,可以對巨大 的資料進行統計,比對,解析,針對特定的問題能夠產生出客觀的結果,這樣的. 12.

(14) 方法和技術被廣泛運用在電子商務,社群網路,醫療記錄,甚至是科學的分析。 不少的公司會運用機器學習的技術來預測並推薦使用者感有興趣的內容。. 機器學習中有許多的方法,像是集群法,決策樹,類神經網路,基因演算等 等方法,分別使用不同的演算方法對資料進行分析,其中決策樹是一種樹狀資料 結構的預測模型,能夠產生歸納性原則也兼具直覺的表達優點。. 本研究嘗試建立一個考慮使用者體驗喜好之電子新聞推薦模型。Schmitt 在. 政 治 大 體驗以及關聯式(relate)體驗。我們以此體驗模組為基礎了解 立. 1997 年提出的體驗模組:感官式(sense) 體驗、情感式(feel) 體驗、思考式(think) 體驗、行動式(act). 使用者對各體驗之重視程度,並運用機器學習的決策樹演算法,分析使用者重視. ‧ 國. 學. 的體驗類型以及使用者喜好的新聞類別之關聯式規則,再結合使用者重視之體驗. ‧. 類型和關聯式規則建立新聞推薦模型。. n. er. io. sit. y. Nat. al. Ch. engchi. 13. i n U. v.

(15) 第二章 文獻回顧 第一節 體驗行銷 體驗行銷是現在行銷的風潮,舉凡大小的公司都會透過體驗來去宣傳自己的 商品。例如販售電子產品的公司,像是蘋果,HTC 等等,會設置體驗專區使消費 者可以親身體驗使用的感覺,亦或是到校園當中舉辦體驗活動,使消費者對於產 品產生美好的體驗。而體驗行銷的概念,Schmitt 在 1999 年透過 Experiential. 政 治 大. Marketing 這本著作已經提出。在 Schmitt 的著作中也預示了體驗行銷將席捲 20 世紀的商場。. 立. ‧ 國. 學. 一、體驗的定義. ‧. y. Nat. 目前成為主流的體驗行銷,Schmitt(1999)以著三種角度闡述體驗的定義,. er. io. sit. 包 括 哲 學 (philosophical) 、 神 經 生 物 學 (neurobiological) 、 心 理 學 與 社 會 學 (psychology & sociology)等觀點。透過這些觀點說明體驗和消費者的連結。. n. al. I. 哲學的觀點:. Ch. engchi. i n U. v. 人對平常生活當中所經歷的事情和接受的刺激會產生一些感覺和回 應,我們稱之為體驗。其中體驗包含的層面非常廣,會透過各種媒介得到 不同的體驗。例如在平常透過眼睛看見的,耳朵聽到的,鼻子聞到的,四 肢去碰觸到的,甚至是虛擬的感覺,這些都是體驗。而提供體驗的主體則 可以透過各種媒介包裝所想要傳遞的訊息或是想販售的商品,提供體驗引 人迴響。. 14.

(16) II. 神經生物學觀點: 當人受到刺激時,透過大腦不同的神經區塊的互動反應會產生出體驗。 更細部的說明,人的感官,例如眼睛,耳朵,鼻子,嘴巴,皮膚等等接受 刺激之後,大腦中的『知覺與感覺(sensation)系統』會處理這些訊息, 接著傳送到掌管思考和創造的『認知(cognition)系統』,最後則進入『自 覺情感(affect)系統』進行記憶處理。而透過這三個系統彼此的互動會產 生體驗。. 政 治 大 以社會學角度來說,是因為社會團體以及文化的互相影響而產生出體 立. III. 心理學與社會學觀點:. 積的經驗,成為了體驗的根源。. ‧ er. io. sit. y. Nat. 二、策略體驗模組. 學. ‧ 國. 驗。而以心理學的角度,因著人長期的習慣,以及生活的模式從小到大累. al. n. v i n Schmitt 認為體驗是經由數種互相獨立的體驗形式所組合而成。Schmitt Ch engchi U. 將. 體驗大致分成五形式:感官式體驗(sense),情感式體驗(feel),思考式體驗 (think),行動式體驗(act),關聯式體驗(relate)。體驗策略模組則是以著這 些形式為基礎,針對每個形式可以再進行進一步的設計,透過這些形式的整合達 成想要傳達給消費者的體驗。. I. 感官式體驗: 感官式體驗主要是針對人基本的五個感官提供的體驗。透過提供感官 上的刺激使得消費者對於產品的感受更加提升,進而使消費者對於產品更. 15.

(17) 有好感。像是書店當中提供舒適的音樂,透過聽覺使人放鬆的在書店中享 受。或是食物商品透過產品的試吃,讓消費者可以感受味覺的刺激進而增 強想購買的意願。. II. 情感式體驗: 情感式體驗則是藉由一些方式使消費者對於公司的品牌或是產品產 生情感。透過這些方式使得消費者和產品產生連結超越只是需求的層次。 常見的手法像是創造一些標語,為產品加上一些個性,例如 NBA 季後賽. 政 治 大 發生的偉大事件,進而期待再度觀看球賽的時候可以見證奇蹟。 立. 的廣告當中的標語『Where Amazing Happens』引發人想到過去在球場上. ‧ 國. 學. III. 思考式體驗:. ‧. 思考是體驗主要是要讓消費者產生思考的動作。透過消費者感興趣的. y. Nat. 事物誘導他進入更深入的思考當中,這過程當中將產品和消費者之間做連. er. io. sit. 結,如此營造出思考式的體驗。一些電影或是書本的宣傳當中常會提出一 些問題引發人思考,進而使消費者對那主題產生興趣。. n. al. IV. 行動式體驗:. Ch. engchi. i n U. v. 行動式體驗主要是使消費者透過親身去實踐一些項目而產生感受如 此得到體驗。例如宣傳活動時常常擺放可以合照的人型立牌,使得參觀者 不只是觀看而是能夠透過行動進行互動。. V.關聯式體驗: 關聯式體驗是透過個人體驗和他人事物產生關聯,例如在論壇上面的 討論,透過討論的時候不只是自己一個人的體驗而是和他人一起共創體驗。. 16.

(18) 或是在遊戲的進行當中,透過玩家間彼此的互動而產生不一樣的效果和樂 趣。. 三、體驗媒介 Schmitt 認為上述的五種體驗需要透過體驗媒介來進行傳達,透過這些體驗 媒介,消費者和使用者可以得到 體驗傳達者所要傳遞的體驗。. 政 治 大 例如新聞網站中,不同讀者的留言和討論,或是透過客服詢問瞭解的 立. I. 溝通體驗媒介:. 部分。. ‧ 國. 學. II. 視覺口語識別體驗媒介:. ‧. 此媒介泛指的是一些企業商標、設計或是產品的標語等可以區別企業. sit. y. Nat. 本身和其他企業的象徵。例如 NIKE 的--Just Do It、Adidas—Impossible is. io. al. n. 力。. er. nothing,東森新聞雲--樂在分享,愛在雲端,聯合新聞網--觸動未來新勢. Ch. III. 產品呈現體驗媒介:. engchi. i n U. v. 包括書店當中擺放書的方式,服飾店當中擺放衣服的方式以及新聞的 排版等。 IV. 空間環境體驗媒介: 包括商場當中的佈置設計。 V. 網站體驗媒介: 現今網路已經成為了不可或缺的媒介,透過網站或是粉絲團的經營, 使消費者以及民眾更加瞭解企業和產品的精神,其中包含官方網站、粉絲 團和各個通訊平台的官方帳號。. 17.

(19) VI.共建品牌體驗媒介: 包括任何有共同合作的案件或是場合,例如發表會、企業聯盟、贊助 商、共同合作活動案等等。 VII.人員體驗媒介: 包含員工,客服人員,銷售員,以及任何會跟品牌、企業或商品連結 的人。. 第二節 資料探勘(Data Mining). 政 治 大 資料探勘的技術是結合人工智慧、機器學習、統計學、以及資料庫系統,透 立. ‧ 國. 學. 過這些領域的理論的演算法,應用在資料中而得到資料和資料間有價值的特殊規 則。不過對於找出潛在規則這樣的行為其實不是一個新的技術,人類從過去就會. ‧. 研究動物的遷徙而找到適合的時機去打獵,也會找出榖物的生長週期而進行農事. sit. y. Nat. 的規劃,政治上也會研究如何可以獲得更多支持者,這些都是相關的應用。但是. io. er. 近年來,由於電腦,行動通訊的普及,使得資料的儲存變得非常容易,因此產生. al. 出龐大的資料量。對於現在巨量的資料量,使用過去的方法無法精準的分析出其. n. v i n Ch 中隱藏的規則和關連性。因此學者們發展出許多的演算法 e n g c h i U ,針對不同性質的資料, 使用適合的演算法進行運算並產出分析結果,所產出的結果能夠對各領域的研究 或是趨勢能夠有很大的助益。資料探勘目前已經廣泛的使用在各個領域,像是手 寫識別、語音識別、生物特徵識別、醫學診斷、商業分析等等領域。在之後的幾 個章節將會介紹資料探勘的步驟和常使用的方法,以及各種方法的特性。. 18.

(20) 一、資料探勘的操作步驟 為了從龐大的資料當中取得有價值的分析,必須要對原始資料進行處理並選 擇適合的演算法來做運算,最後以著合適的方式呈現。在 Pang-Ning Tan et al.所 作的 Introduction to Data Mining 書中把這過程分為三個階段[13]: 資料前處理, 資料探勘,後處理。而 Han & Kamber(2001)[14]則把資料探勘的過程細分成七個 步驟: Step1:資料清理(Data Cleaning):將雜亂和與資料及不相同的資料刪除 Step2:資料整合(Data integration):將多個來源的資料整合. 政 治 大. Step3:資料選擇(Data selection):在資料庫中選擇適當的資料。. 立. Step4:資料轉換(Data transformation):轉換資料使其得以更方便地被使用. ‧ 國. 學. Step5:資料探勘(Data mining):運用資料探勘的演算法來進行分析 Step6:模式評估(Pattern evaluation):評估適合的模式加以使用. ‧. Step7:知識表達(Knowledge presentation):使用適合的呈現方式表達資料探勘. Nat. n. al. er. io. sit. y. 所得到的結果. Ch. 二、資料探勘的技術與方法. engchi. i n U. v. 對於原始資料進行初步的處理之後,需要依照資料的性質選擇最適合的演算 法進行運算。本研究根據 Ian H.Witten et al.所著的”Data Mining”一書中的分類列 出較常使用的演算法 :. I.. 1-R 規則法(1-rule). 19.

(21) 是一種極為簡單直觀的演算法,其做法是在資料的每個屬性所延伸出 來的結果,找出錯誤率最低的一組屬性而得到分析的結果。此演算法雖然 簡單,但是實際操作上卻出乎意料的好,比起其他的演算法的準確率只有 少零點多個百分點。這種演算法很適合用在讓人了解整個資料及的整體狀 況,因為他的效率,也可以使用在很大的資料集當中。. II. 統計建模法(Statiscal Modeling). 政 治 大 結果,同樣的,這也是一個非常簡單的演算法,但是卻會產生出令人驚艷 立. 此演算法是在建立在 Bayes’規則上,透過機率的運算產生出分析的. 的結果,甚至表現的比一些複雜的演算法還要出色。但是統計建模法必須. ‧ 國. 學. 要在一個屬性影響的權重是平均散佈狀況下運算,結果才會較為精準。. ‧ y. Nat. III. 線性模組(Linear Models). er. io. sit. 相較於上述的決策和規則方式的演算法,線性模組對於處理數字行的 資料是更適合的。雖然說統計及資料探勘為兩門各自獨立的科目,但統計. al. n. v i n 學與資料探勘的預測仍是有很大的相關性,資料探勘常會使用統計的方法 Ch engchi U 對資料進行分析,其中包括一般迴歸(regression)、logistic regression、區別 分析(discriminal analysis)等。. IV. 支援向量機 主要的操作方法是運用特徵值以及數學之計算來訓練資料,透過計算 特徵值得到一個理想的分界,即可利用此超分界將資料進行分類。其中分 類邊界若距離最近的訓練資料點越遠,則其分類之誤差會越小。分類邊界. 20.

(22) 和最近資料點之距離稱為間隔(margin),支持向量機演算法期望找到一個 最大間格分類邊界,此邊界和最近之訓練資料點擁有最大的距離。. V. 分群演算法(Clustering) 分群演算法是利用物件之間的關係資訊來做分群,其中物件彼此相關 的話會被分到同一個群當中。當資訊當中各個群內相似程度大而群和群之 間相差性大的話,這樣的狀況之下會有最好的結果。分群演算法當中最常 見的的有 K-nearest neighbor 演算法。. 立. 類神經網路(Neural Network). 學. ‧ 國. VI.. 政 治 大. 類神經網路一開始的發想是想要模擬生物的神經系統。大腦是由很多. ‧. 神經元細胞組成,神經元彼此透過神經軸和突觸互相連結。神經學家發現. y. Nat. 人的大腦可以透過突觸受到的重複刺激進行學習。而學者運用這概念在資. er. io. sit. 料探勘的領域,透過訓練和學習的方式發現資料彼此的關係。此技術適用 於線性和非線性的狀況。. n. al. VII.. Ch. engchi. i n U. v. 基因演算法(Genetic Algorithm). 基因演算法(或稱遺傳演算法)是由 John Holland 於 1975 年提出。 此演算法是借鏡自然生態中的演化規律『適者生存』的概念加以應用在資 料探勘的操作當中。透過模擬大自然的基因操作(例如:交配 cross-over, 反轉 inversion,突變 mutation)對資料進行處理和分析。. 21.

(23) VIII.. 決策樹(decision tree) 決策樹演算法將資料透過分類判斷而建立成一個樹狀的模型。透過這. 種樹狀結構可以清楚地表達資訊的結構和相互關係。因為其清楚的結構和 呈現常常可以提供很明確的分析,決策樹也成為了最受歡迎的資料探勘技 術之一。而常見的決策樹演算法有 ID3,C4.5,CART 等。. 政 治 大. 三、決策樹演算法(Decision Tree). 立. 決策樹演算法會將資料建構成樹狀的資料結構,將相同的,藉此分析出資料. ‧ 國. 學. 之間互相的關聯特性,其產出的結構十分易懂及視覺化,在各個領域都廣泛被使. ‧. 用。在決策樹演算法中 ID3 (Iterative Dichotomiser 3)和 C4.5 為普遍被使用的決策. y. Nat. 樹演算法,ID3 是由 Quinlan 於 1986 提出的[17][18],C4.5 則是在 1993 提出。在. er. io. sit. 本研究當中,由於樹狀的結構可以最清楚的表現出使用者喜歡的體驗類型以及使 用者喜歡的新聞類別的關聯式關係,因此本研究決定使用以決策樹為基礎之演算. n. al. Ch. 法---ID3 決策樹演算法對資料集進行分析。. engchi. i n U. v. 四、ID3 演算法(Iterative Dichotomiser 3) ID3 演算法為決策樹演算法的一種,決策樹演算法有許多種類,其主要差別 是在於用何種理論決定分類屬性的判斷。ID3 演算法在建構決策樹時,計算資訊 獲利(Informational Gain)來決定分類屬性的判斷依據。本研究會首先介紹 ID3 演 算法演算法所使用的資訊獲利,接下來依序介紹 ID3 決策樹架構、ID3 演算法的 建構。. 22.

(24) I. 資訊獲利 美國數學家 Claude Shannon 於 1948 年 10 月發表的 A mathematical Theory of Communication 提出了透過計算熵(Entropy)來進行資訊的量化。 而在 ID3 決策樹演算法中將經過處理後的熵值和經過處理前的熵值相減, 得到的數值稱為資訊獲利,ID3 演算法會比較各項資訊獲利的數值來決定 該進行何種操作。 Claude Shannon 提出的熵值的計算方法,假設所有事件 𝑥 的集合為 A,而事件 𝑥 發生的機率為𝑃(𝑥),而該資訊的熵值 E(c)為 A 中所有事件. 治 政 𝑥 的發生機率 P(x)乘上log 𝑃(𝑥)的總和負值(式 大 1)。 立 2. ‧ 國. 學. E(c) = − ∑𝑥∈A 𝑃(𝑥) log 2 𝑃(𝑥). (1). ‧. 而資訊獲利 Information_gain 的計算方法是將經過處理前的資訊熵值 Entropy_before 減去經過處理後的資訊熵值 Entropy_after(式 2) Entropy_before − Entropy_after. n. II.. (2). er. io. al. sit. y. Nat. Information_gain =. Ch. engchi. i n U. v. ID3 決策樹架構 ID3 演算法會建立一個決策樹分類模型,此決策樹的是透過遞迴 (Recursive)和分治法(Divide-and-conquer)建立的,其架構是由上而下(Topdown)的樹狀結構(圖 4),詳細介紹如下: 1. 根節點:在決策樹的建構過程中,一開始所有的資料都儲存於 根節點中,在建立決策樹的過程當中會將資料分配到不同的節點。. 23.

(25) 2. 分支線:表示節點資訊的分枝路徑 3. 子節點:為根結點以下的之節點,亦可稱為內部節點 4. 葉節點:決策樹演算法進行至最後所停止之節點,在每個葉節 點當中之資料具有類似的特徵。. A. 根節點 分支線. B 立. G. 葉節點. ‧. ‧ 國. F. 圖 4、決策樹架構. y. Nat. io. n. al. sit. ID3 決策樹演算法運算流程:. er. III.. E. 子節點. 學. D. 政C 治 大. i n U. v. 本研究將所有的資料樣本集合以 T 來表示,若一共有 n 筆樣本資料,. Ch. engchi. 則 T = (𝑇1 , … , 𝑇𝑛 )。每一筆樣本資料皆有一組特徵屬性,我們將其表示為 F = (𝐹1 , … , 𝐹𝑛 ),每個特徵屬性有兩個特徵值 f = (𝑓1 , 𝑓2 )。在執行 ID3 決策樹 演算法時,會選定一項特徵屬性𝐹𝑛 作為目標屬性 C,目標屬性 C 會有 n 個 特徵值 c = (𝑐1 , … 𝑐𝑛 ),除了目標屬性之外其餘的特徵屬性則為關鍵屬性。 以下為 ID3 決策樹執行步驟: Step1: 起初,所有資料物件皆屬於根節點 A。. 24.

(26) Step2: 分析目前節點中所有資料物件的目標屬性 C,若目標屬性 C 的特徵值 c 皆相同則停止運算,若非全部相同,則繼續進行 步驟 3。 Step3: 若尚有關鍵屬性未被選取則進行步驟 4;倘若所有關鍵屬性 皆被選取過,則計算節點中各關鍵屬性的類別出現次數,並 選擇最多出現次數之關鍵屬性類別作為該節點之類別。 Step4: 計算目前節點 k 之熵值 E(k),並計算所有尚未選擇過的關鍵 屬性 F 之資訊獲利值Information_gain,比較所有關鍵屬性. 分入兩個子節點。. 學 ‧. ‧ 國. 治 政 之資訊獲利值Information_gain選取具有最大資訊獲利值之 大 立 關鍵屬性 F,依據關鍵屬性的特徵值 f 將該節點的資料樣本 Step5: 對 Step4 所產生的兩個子節點,從 Step2 開始重新執行。. er. io. sit. y. Nat. n. a l第三節 李克特量表 i v n Ch U engchi. 在本研究的問卷設計是以李克特量表(Likert Scale)為基礎進行設計。李克特 量表為心理學家 Rensis Likert 於 1932 所提出,透過回答李克特量表的題目,受 測者會具體的回答出其認同程度。此量表是目前在調查研究中最常被使用的量表。 通常典型李克特量表給予受測者回答的認同程度選項為五個等級: 非常不 同意、不同意、無意見、同意、非常同意。不過也有研究者使用七個或九個等級 的回答選項,也有些研究者將中間(無意見)項目的選項去除,只剩下四個等級的 回答選項。 李克特量表的設計程序需進行以下步驟:. 25.

(27) Step1: 針對研究議題設計出與了解受測者對議題態度的陳述,每一項的陳 述皆予以設定相同等級數目的答案。 Step2: 根據針對每個陳述回答的偏向程度給予其不同的分數配置,若該項 陳述為正面的陳述,則答案越正向分數越高;反之若該項陳述為負 向陳述,則答案負向則分數越高。 Step3: 尋找些許受測者進行前測,根據受測者的回答進行對陳述句的調整。 若陳述句無法具有鑑別力則需要對陳述句進行修改,避免受測者對 每一陳述皆回覆相同答案。. 政 治 大. Step4: 將調整好的陳述整合成正式量表(若無調整即直接進行整合)。. 立. 設計完量表後即可將此量表發放給受測者,所得到的資訊則為受測者對於該. ‧ 國. 學. 項議題之態度分數。而所有受測者的態度分數總合則為此群受測者對此議題的態. ‧. io. n. al. Ch. sit. y. Nat. 第四節 軟性新聞. er. 度偏好狀況。. i n U. v. 在本研究中,主要進行推薦分析的新聞類型是屬於軟性新聞的範疇,Thomas. engchi. E. Patterson 在描述軟性新聞的定義時說道,硬性新聞是較具時效性的新聞,像是 報導重大事件,頭條,以及會影響甚至打亂日常生活的事件報導,而軟性新聞則 是相對較無時效性,較以個人為中心,較感性的類型的新聞[19]。由於硬性新聞 是屬於每位使用者必須要及時了解的新聞,因此此類新聞的推薦可以單純以熱門 的程度進行推薦即可得到良好之果效。但軟性新聞則須分析每個使用者之喜好進 行推薦,方可推薦出使用者所喜歡之新聞。下列表格為本研究蒐集之國內外各大 報紙及網站之新聞分類方式。. 26.

(28) 表 2、台灣紙本新聞分類 自由時報. 焦點新聞,政治新聞,生活新聞,財經新聞,國際新聞,新北都會新聞,新 北都會生活,自由廣場,影視名人,專輯,國際娛樂,消費新聞,文化‧藝 術,自由副刊,旅遊,旅遊專輯,家庭親子,兩性異言堂,健康醫療,社會 焦點,大社會,社會新聞,體壇焦點,運動場上,證券新聞,投資理財. 中國時報. 要聞,焦點新聞,政治綜合,政治新聞,財金新聞,生活新聞,社會新聞, 國際新聞,時論廣場,文化新聞,消費,人間副刊. 聯合報. 焦點,要聞,話題,生活,社會,文化,綜合,國際,民意論壇,兩岸,產 業‧策略,投資理財,證券行情,健康,聯合副刊,繽紛,新北市新聞,運 動,基隆新聞,教育,星話題,星火線,星 blog,星品味,消費,旅遊休閒. 蘋果. 頭條,要聞,政治,社會,法庭,論壇,全球焦點,國際新聞,運動焦點新 聞,尬輸贏,籃球火,運動 bar,運彩王,教育,求職王,好屋,靚車王, 財經,暖流,娛樂名人,電影表,木瓜霞吐槽,國際娛樂,名人時尚,頭條. 政 治 大. 新聞,消費高手,讓我更美,健康醫療,3C 通訊,車市快遞,流行尖端,美. 立. 食ㄔㄔ看,廚房 DIY,蘋果遊戲王,看漫畫,一日遊,每日運勢, 蘋果遊戲王解答. ‧ 國. 學. 經濟日報. 頭版,話題,焦點,國際,兩岸,陸港股市,金融,產業,產業‧稅務法務, 經營管理,化學論壇,自動化周報,基金理財要聞,基金,基金走廊,理. ‧. 財,證券行情表,證券產業要聞,市場脈動,市場焦點,上市櫃公司,期 貨,權證. 火線焦點,財經要聞,綜合要聞,政經八百,國際經濟,國際投資,國際產. y. Nat. 工商時報. sit. 業,兩岸焦點,陸港股市,金融市場,科技要聞,產業商業,稅務法務,地. al. er. io. 方要聞,產業動態,房地產,健康照護,證券頭版,法人看市,上市櫃,集. n. 中市場,櫃買市場,期貨,權證,證券表板,財富頭版,金融商品,證券投. Ch. i n U. v. 資,證券表板,投資頭版,理財百寶箱,金融理財,證券表板,流通頭版, 活動資訊,經營知識 旺報. engchi. 焦點,話題,綜合,文教,財經要聞,產業,理財,地方新聞,社會,影 視,兩岸史話,民意,論壇,兩岸徵文,社論. 都會時報. 頭版,評朝論野,全國公告,公益彩卷,都會偶像巨星. 眾聲日報. 焦點新聞,國會要聞,新聞大追擊,財經焦點,產業證券,財稅專刊,醫藥 生活,金融匯市,全國教育,直轄市、北部地方新聞,直轄市、南部地方新 聞,全國版公告,深度報導. 27.

(29) 表 3、國際紙本新聞分類 International New York Times. 1.First Page 2.World News : Europe, Asia, United 3.States 4.Style 5.Opinion 6.Culture : Art, Television, Books 7.Sports 8.Business (Dealbook) 2016/7/21. The New York Times. 1.First Page 2.International 3.National 4.Weather Report 5.New York 6.Editorials/letters 7.Business Day: dealbook, automobiles, market gauges 8.SportsFriday 9.WeekendArts I : Movies | Performances, The Listings 10.WeekendArts II : Fine Arts | Leisure 2016/7/15. ‧. n. al. y. sit. er. 3.International 4.Financial 5.journal : the long read|opinion|reviews 6.obituaries 7.education 8.theguardianjobs 9.weather 10.sport 11.shortcuts 12.women. io. 英國 衛報. 1.News 2.National :Special report. Nat. the guardian. 學. ‧ 國. 立. 政 治 大. Ch. engchi. i n U. v. 13.style Q&A 14.TV & radios 15.puzzles & crossword 2016/7/19. 28.

(30) The Straights. 1.Top of the News. Times 新加坡海峽時報. 2.World 3.Opinion 4.life weekend : happenings trlrvision buzz 5.Travel 6.Home 7.Business 8.sport 2016/7/15. 政 治 大. 表 4、網路新聞分類. 立. 1.首頁(圖片集錦、熱門新聞、心情新聞、新聞總覽、縮時新聞、雜誌專區、 YAHOO 民調中心、人氣、Y 頭腦、懶人新聞卡、強震重創台南). 學. 2.政治(政治熱門、政治影音、日本留學、外勞仲介、遊學團). ‧ 國. 3.財經(股市匯市、產業動態、經貿財稅、房地產、理財就業、國際財經、財. ‧. 經熱門、公共消息、財經影音、投資聚焦). 4.影劇(藝人動態、電視廣播、音樂、電影、日韓、影劇熱門、名人娛樂、影. y. Nat. 劇影音、微博、線上音樂、卸妝油、美白產品、春季保養、爆紅內褲). sit. 5.運動(棒球、籃球、高爾夫、網球、綜合、運動熱門、運動影音、2014 世. io. 足、塑身衣、飛輪、按摩椅). al. er. 奇摩新聞. n. 6.社會(社會熱門、公共消息、綜合影音、汽車玻璃、鑽戒、濾水器). Ch. i n U. v. 7.地方(大台北、北台灣、中部離島、南臺灣、東台灣、地方熱門、公共消. engchi. 息、通馬桶、裝潢、桶裝水). 8.國際(亞澳、中港、美洲、歐非、國際財經、國際熱門、國際影音、遊學、 美國遊學、海外婚禮) 9.生活(消費、交通、寵物、美食、生活綜合、生活熱門、一分鐘報氣象、生 活影音、開胃料理、圓仔日記、檜木桶、外燴、成分簡單、黃牛包) 10.文教(教育、藝文、文教熱門、看新聞學英文、英文怎麼說、情緒教育、 遊學代辦、英語學習、學英文) 11.健康(醫療衛生、美容保健、健康熱門、蘋果肌、外籍看護、褐藻糖膠) 12.科技(資訊 3C、科學發展、自然環境、科技熱門、3C 大事記、淨水器、 網頁製作、硬碟救援) 13.旅遊(美食、旅遊熱門、達人帶你玩、香港住宿、訂房系統、東京飯店) 14.氣象(新頁面) 15.新奇(酷搜圖聞、FUN 影音、影音懶人包、澳門住宿、美白牙齒、氣墊粉 29.

(31) 餅) 16.影音(影劇、綜合、生活、政治、財經、運動、國際、YAHOO 獨家、 FUN 影音、凱蒂酷瑞克、2016 選舉、民視新聞、音波拉皮) 17.專欄(社會觀察、休閒風尚、哈燒趨勢、Y!oung 觀點、給年輕人的信) PCHOME 新. 1. 首頁(氣象、新聞人物、對獎專區、影音新聞、一分鐘新聞、名人專欄). 聞. 2. 政治(政治焦點、最新政治、政治專題、政治照片) 3. 社會(社會焦點、最新社會、社會專題、社會照片) 4. 財經(財經焦點、最新財經、財經照片、股市新聞、基金新聞) 5. 科技(科技焦點、最新科技、科技專題、科技照片、遊戲新聞) 6. 國際(國際焦點、最新國際、國際專題、國際照片) 7. 大陸(大陸焦點、最新大陸、大陸照片) 8. 健康(健康焦點、最新健康) 9. 娛樂(新頁面). 政 治 大. 10. 體育(體育焦點、最新體育、體育專題、體育照片). 立. 11. 生活(生活焦點、最新生活、生活專題、生活照片) 12. 消費(消費焦點、最新消費). ‧ 國. 學. 13. 旅遊(旅遊焦點、最新旅遊). 14. 房產(房屋首頁、房產新聞、特別企劃、實用工具). ‧. 15. 專題(精選專題、政治、社會、財經、娛樂、體育、生活、科技、國際) 16. 雜誌(雜誌首頁、合作媒體). y. Nat. 17. 星座(牡羊、金牛、雙子、巨蟹、獅子、處女、天秤、先蠍、射手、魔. io. 18. 汽車(汽車焦點、最新汽車). al. er. sit. 羯、水瓶、雙魚). n. 19. 政治(政府消息焦點、最新政府消息、行政院、中央政府、台北市、新北 市、高雄市). Ch. engchi. i n U. v. 20. 民意(最新議題、熱門議題、熱門回應) 21. 通知 NOWnews 新聞. 1. 新聞(人氣總覽、名家論壇、公益行善、圖集總覽、新聞影音、今日頭 條、快樂志工、星座算命) 2. 政治(政治看板、軍事新聞、NOW 評論、網友評論、親青爆報、政治最 速報) 3. 財經(財經看板、經貿報一下、復華金管家、錢進東協、房市、理財、職 場、台北房市、財經最速報) 4. 生活(生活看板、健康、校園、媽媽保健、命理、勾勾好事、愛鮮 iFRESH、保健新知、生活最速報) 5. 地方(台北、基隆、新竹、台中、南投、嘉義、高雄、宜蘭、金門、新 北、桃園、苗栗、彰化、雲林、台南、屏東、花東) 30.

(32) 6. 社會(社會看板、社會志工、社會最速報) 7. 運動(運動看板、台灣之光、綜合、棒球、籃球、足球、運動最速報) 8. 娛樂(娛樂看板、日韓流行線、電視、電影、音樂、八卦、色區) 9. 國際(國際看板、軍武大觀、國際最速報) 10. 大陸(大陸看板、花生網、熱話題、名人堂、兩岸最速報) 11. 新奇(新奇看板、新奇圖片、寵物、新奇最速報) 12. 消費(消費看板、流行時尚、民生消費、美食料理、汽車鑑賞、NOW 無 GAME) 13. 旅遊(旅遊看板、走遍台灣、環遊世界、旅行玩家、活動好康、劈腿女孩 Yaya) 14. 科技(科技看板、行動通訊、電玩動漫、雲端電視、網頁遊戲、Swapub) 15. 健康(健康養生、醫美減重、兩性關係、醫藥衛生、癌症新知、達人部落 格、活動情報、診所地圖、健康專題) 蘋果即時. 政 治 大. 立. 最新、焦點、熱門、爆社、動物、搜奇、3C、影片、正妹、體育、圖解、媒 陣、娛樂、時尚、生活、社會、國際、財經、地產、政治、論壇. ‧ 國. 學. 1. 首頁. ‧. 2. 名人娛樂. 3. 即時新聞(其他、地方新聞、社會新聞、奇聞軼事、社會新聞、國際新. y. Nat. 聞、政治新聞、美通社、運動、今日頭條). sit. 4. 休閒趣聞(寵物資訊、親子話題、生活知識、星座命理、搞笑趣聞、勵志. io. 感人、恐怖驚悚). al. er. eNews. n. 5. 健康生活(健康醫療、養生食譜、減肥塑身、美妝時尚、時尚穿搭). Ch. 6. 情感家庭(兩性關係、親子話題). engchi. i n U. v. 7. 其他(上班甘苦談、財經資訊、行銷創業、雜誌、經營管理、名人觀點、 房市快報、手機&APP、電玩遊戲、電腦資訊、3C 配件) 8. 吃喝玩樂(活動展覽、美食特搜、料理食譜、旅遊資訊、達人分享) 9. 暖新聞. 31.

(33) 第三章. 研究設計. 本研究是從使用者的體驗之中分析其喜好來作為行為分析的基礎。我們運用 機器學習當中的決策樹資料探勘演算法(decision tree data mining algorithm)來計 算使用者行為的關聯式規則:我們分析使用者對各種不同型式體驗之重視程度以 作為決策樹資料探勘的輸入屬性,並以消費者對於電子新聞的喜好與否作為目標 屬性,利用決策樹演算法計算這些輸入屬性(使用者對各種不同型式體驗之喜好) 與目標屬性(使用者對於電子新聞的選擇)之間的關聯式規則。接著利用這些規則 來建構一個預測模型,以評估閱聽人對於未知電子新聞的接受程度,從而建立一. 治 政 個能有效符合使用者個人體驗喜好之新聞推薦模型:從眾多電子新聞之中經由預 大 立 測模型的資料分析來預測並挑選出使用者可能感興趣的新聞,推薦給使用者 (圖 ‧. ‧ 國. 學. 5)。. n. er. io. sit. y. Nat. al. 網路上之新聞資料. Ch. engchi. 資料分析. i n U. v. 使用者感興趣之新聞. 使用者. 圖 5、研究示意圖. 本研究的架構主要包含兩部分:(一)使用者行為資料蒐集、(二)透過機器學 習建立新聞推薦模型。 其中,使用者行為資料蒐集的主要目的是分析使用者源自其經驗所產生的喜 好狀況。為了要了解使用者對於不同的體驗類型偏好的程度以預測使用者會喜歡 32.

(34) 的新聞,首先需要得到使用者對於不同類型體驗的偏好程度資料,同時收集使用 者對於各種新聞類型的偏好程度之資料;這些使用者的喜好資料,本研究預定將 透過問卷的方式來取得。問卷設計的流程則如圖 6 所示,首先是進行閱聽人體驗 喜好之評估,接著根據評估結果設計問卷。而在實際給受測者填寫之前先進行前 測以及修正,修正完畢後即進行問卷調查。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 6、問卷設計流程. 經由第一部份的使用者行為資料蒐集階段而得到使用者對於不同類型體驗 的喜好資訊之後,在第二部分:機器學習,本研究會以這些資訊為輸入,採用機. 33.

(35) 器學習的方式,利用資料探勘的演算法,來建立符合使用者喜好體驗之新聞推薦 模型(圖 7)。 機器學習這個部分又可以再細分成為「訓練階段」和「執行階段」,主要目 的是進行電子新聞的分析與推薦計算。在訓練階段,本研究分析前述問卷所得到 關於使用者喜好的體驗資料以及使用者對於不同類型新聞的喜好度,以這些喜好 資料作為輸入屬性,透過決策樹演算法進行資料探勘的計算,以分析出輸入屬性 (代表使用者對於各類體驗的重視程度)與目標屬性(使用者對於各類電子新聞的 偏好狀況)之間的關聯式規則。之後,以這些規則作為推薦計分之基礎,相關規則. 政 治 大 首先將對未知的電子新聞進行分析,再進一步由本研究的機器學習推薦模組結合 立 資料將儲存到資料庫當中以提供執行階段作為推薦決策之使用。而在執行階段,. 訓練階段所得到的關聯式規則資料進行分析計算,以此判斷是否推薦此未知新聞. ‧ 國. 學. 給使用者。. ‧. 以下章節分別就各個階段進行細部的介紹。. n. er. io. sit. y. Nat. al. Ch. engchi. 34. i n U. v.

(36) 使用者 行為資料. 訓練階段 個人喜好體驗 分析模組 訓練樣本 新聞. 個人喜好新聞 類別分析模組. 決策樹分析 模組. 評分模組. 各類型新聞 之關聯式規 則資料庫. 執行階段 推薦新聞. 決策模組 個人喜好體 驗評分模組. 學. 不推薦新聞. ‧. ‧ 國. 新聞. 立. 新聞分析 模組. 政決策樹治 大 評分模組. 圖 7、機器學習架構圖. io. sit. y. Nat. er. 第一節 使用者行為資料蒐集. al. n. v i n Ch 在進行機器學習時需要取得使用者行為資料而對其進行分析運算,因此在此 engchi U. 階段本研究會以問卷的方式取得使用者所喜歡的新聞體驗類型資訊以及使用者 喜歡的新聞類型資訊,問卷設計流程如圖 6 所示。流程共分為五個步驟:(1) 閱 聽人體驗喜好之評估;(2)設計問卷;(3)問卷測試以及修正;(4)問卷調查;(5)儲 存使用者群行為資料。以下分別就每個步驟進行說明。. 35.

(37) 一、閱聽人體驗喜好之評估 本研究的問卷設計主要分為兩個部分:(I)使用者體驗喜好調查,以及(II)使 用者新聞類別喜好調查;分別取得使用者對於各類型體驗的偏好資訊以及取得使 用者喜歡的新聞類別之資訊。為了要能夠設計出有效的問卷,本研究在文獻資料 研究及分析階段會針對體驗模組理論以及現有的實體和網路新聞類別進行研究。. 在使用者體驗喜好調查的問卷設計中,本研究以 schmitt 在 Experiential marketing 一書所提出的策略體驗模組作為基礎(見第二章),將體驗類型分為五. 政 治 大 原本 schmitt 提出此策略體驗模組時主要是針對行銷應用,在本研究中,我們將 立 個類型:感官式體驗、情感式體驗、思考式體驗、行動式體驗以及關聯式體驗。. ‧ 國. 學. 取其原始意義並擴充這些體驗在新聞領域當中的相對應意涵(如表 5)。在問卷設 計階段,我們將會以這些定義設計相對應的問題來取得使用者對五種體驗的喜好. ‧. 程度。. y. Nat. n. al. 意義. 感官式體驗. Ch. er. io. 體驗類型. sit. 表 5、體驗模組之於新聞內容的意義. i n U. v. 讀者觀看新聞時會感受到關於五感的刺激或想像,透過新聞的文字可以感. engchi. 受到新聞所描述之實體感覺。 情感式體驗. 讀者閱讀新聞內容時會產生柔性情感之共鳴,內心會產生許多感性的情 緒。. 思考式體驗. 讀者因為新聞的關鍵字、內容而激發自身的挑戰性或者好奇心而願意深入 思索,或是報導內容具有深度、涉及重大的議題而引發讀者願意深思、腦 力激盪。. 行動式體驗. 讀者閱讀新聞時會產生想要身體力行去從事某種行為、或願意參與某互動 的想法。. 36.

(38) 關聯式體驗. 讀者閱讀新聞報導時,透過其中的文字敘述或是報導可以得知其他相關的 議題資訊或是與自身相關的利害資訊. 在使用者新聞類別喜好調查的問卷中,本研究分析推薦的新聞主要以軟性新 聞為主,將各大報紙及網站之分類方法整合,選擇若干種新聞類型提供使用者, 以確定使用者的喜好類型。這部分的結果將會切割為兩部分,分別應用於兩處: 其一是作為本研究之機器學習模組在進行訓練階段時之輸入,以之作為決策樹資 料探勘計算之目標屬性(使用者所喜歡的新聞類型),藉此分析出使用者各類型體. 政 治 大 聯式規則;另一處則是在本研究之機器學習模組進行執行階段時,作為系統之計 立. 驗類型的喜好狀況對於目標屬性(各新聞類別的喜好狀況)的影響,找出之間的關. 算結果之對照印證,以確認正確性。系統將依據使用者的體驗喜好,以訓練階段. ‧ 國. 學. 所得到的關聯式規則進行分析計算,決定推薦或不推薦各個新聞;問卷事先詢問. ‧. 使用者之結果可以直接用於判斷本研究之機器學習模組之推薦準確程度。. sit. y. Nat. 為能夠找出最適合進行研究的軟性新聞分類方法,因此本研究在文獻資料研. io. er. 究及分析階段蒐集了紙本新聞以及較具代表性的網路新聞分類作為參考(見第二 章),重新規劃出較適合本研究進行分析的新聞分類(文化藝術類別/設計時尚類別. al. n. v i n Ch /體育類別/健康類別/影視娛樂類別/旅遊類別/親子類別/美食類別),以利問卷設計 engchi U 之進行。. 二、設計問卷 I. 使用者體驗喜好調查: 如同上一節所描述的一般,本研究問卷的設計上主要分成兩個部分。 在使用者體驗喜好調查的問卷,本研究會對上一節所提出的體驗類型再進 一步設計,針對每一種體驗類型找出會讓使用者產生該體驗的重要關鍵因 37.

(39) 素,例如會讓使用者產生感官式體驗的重要關鍵因素分別有嗅覺味覺要素、 視聽要素、觸感要素。詳細的每一種體驗類型的重要關鍵因素列於表 6。. 表 6、各新聞體驗之重要關聯因素 體驗類型. 意義. 重要關鍵因素. 讀者觀看新聞時會感. 色香味感. 閱讀新聞內容時,讀者會被引發產生對於. 受到關於五感的刺激. 受. 嗅覺與味覺的愉悅感受(e.g., 美食新聞). 感官式. 或想像,透過新聞的文. 視聽愉悅. 新聞內容或關鍵字能引發讀者視覺與聽覺. 體驗. 字可以感受到新聞所 描述之實體感覺。. 的愉悅感受、共鳴。(視聽類型新聞) 美感要素. 讀者可以透過新聞內容觸發其對美感方面 的感受. 讀者閱讀新聞內容時 會產生柔性情感之共. 立. 情感式. 鳴,內心會產生許多感. 體驗. 性的情緒。. 政 治 大 同情關懷. 新聞報導的內容以及題材引起讀者的關懷 及同情. 煽情感受. 讀者透過新聞報導內容或關鍵字可以感受. ‧ 國. 共鳴感受. 學. 到催淚、煽情的感受。 新聞報導內容或關鍵字引發讀者美好的想 像或憧憬 震撼性. 新聞報導內容或關鍵字具有聳動、驚人的. 體驗. 是報導內容具有深. 新聞報導內容或關鍵字陳述一個重要的公 共議題或者拋出一個重大的新問題. er. io. 而願意深入思索,或. 重大意義. y. Nat. 思考式. 意涵。. sit. 字、內容而激發自身 的挑戰性或者好奇心. ‧. 讀者因為新聞的關鍵. n. 反省檢討 讀者透過新聞內容可以對社會或某事件進 a i v (例如,論壇) 度、涉及重大的議題 行更深入的思考 l C n hengchi U 而引發讀者願意深 思、腦力激盪。. 讀者閱讀新聞時會產. 聲援呼應. 生想要身體力行去從 行動式. 事某種行為、或願意. 體驗. 參與某互動的想法。. 讀者閱讀新聞之報導時會激發想要行動的 情緒(例如“滅頂”的呼籲). 活動宣傳. 報導內容或關鍵字大力地報導某個巨有渲 染力的重大活動(例如反課綱活動). 持續關注. 報導內容或關鍵字陳述某個讓讀者願意持 續關注的重大事件. 關聯式 體驗. 讀者閱讀新聞報導. 議題相關. 時,透過其中的文字. 性. 敘述或是報導者的觀. 38. 新聞報導內容或關鍵字攸關群眾權益.

(40) 點,引發讀者想要去. 利害相關. 關懷的心情;或是報. 新聞報導內容或關鍵字挑動讀者去了解、 比較. 導是關於讀者本身利 益的相關議題. 找出影響每一個體驗類型的重要關鍵因素之後。接下來要針對體驗類 型設計五等級之李克特量表(見第二章),本研究針對每一個重要關鍵因素 設計三種不同面相之陳述(表 7),受測者可以針對每個陳述選擇對其之同 意程度(非常同意、很同意、普通、不同意、非常不同意)。一旦回收了問. 政 治 大. 卷,本研究便可以從使用者對以上問題所做出的回答了解他們對每一種體. 立. 驗類型的喜好程度以及對每一個重要關鍵因素的敏感程度。. 色香味感受. 1. 在閱讀新聞時,我喜歡內容當中有描述食物或飲品的味道. al. n. 驗. sit. 感官式體. 問題. er. 重要關鍵因素. io. 體驗類型. y. ‧. ‧ 國. 學. Nat. 表 7、各重要關聯因素之對應問句. 的報導. Ch. i n U. v. 2. 如果閱讀到仔細描述食品香味和口味的報導,我會很有興 趣. engchi. 3. 在新聞當中如果有出現很仔細描寫食品的滋味和嗅味的內 容,我會去想像那感覺並享受在其中 視聽愉悅. 1. 我覺得在新聞當中有出現關於視覺衝擊和音效衝擊的內容 會引發我的興趣 2. 閱讀有視覺和聽覺內容的新聞的時候,我會沉浸在其中 3. 我喜歡吸收有關視覺和聽覺內容的新聞,閱讀時會讓我產 生愉悅的感受. 美感要素. 1. 我喜歡閱讀描述或展示物品質感和雅致的新聞 2. 閱讀有關於描述物品的質感的新聞時,我會花心思去思考 並感受那新聞 3. 我會花心思描述物品或商品形狀樣式的新聞,透過欣賞那 物品,我會覺得開心 39.

(41) 情感式體. 同情關懷. 1. 我喜歡閱讀到一些資訊可以讓我知道有哪些地方或人事物. 驗. 是需要我去關懷的 2. 閱讀到一些新聞在描述某些人事物是需要被關懷的時候, 我會很重視並且想要去了解 3. 我很想要去知道有哪些人事物是亟需要被幫助獲支持的, 我很希望在新聞當中吸收到這些資訊 煽情感受. 1. 閱讀新聞時,我喜歡閱讀到關於有關煽情的內容 2. 閱讀新聞時,我會喜歡看到有催淚感受的內容 3. 我會喜歡讀到可以給予自己一些刺激情感的內容,像是催 淚或是煽情等情感. 共鳴感受. 1. 我喜歡閱讀到一些新聞是可以讓我對生活或對未來是可以 產生美好的憧憬 2. 當閱讀到一些可以讓我產生美好的生活想像的新聞,我會. 政 治 大. 覺得很開心. 立. 3. 我會希望透過閱讀一些可以帶給自己正面想像的新聞,透. ‧ 國. 震撼性. 1. 我喜歡閱讀到擁有聳動標題或是內容的新聞 2. 當閱讀到有聳動的標題或內容的新聞會讓我重視一些議 3. 我希望可以瀏覽到一些報導驚人意涵的新聞,讓我可以更. y. 仔細去思考一些議題. io. sit. Nat. 重大意義. 1. 我喜歡閱讀報導重大公眾議題或是提出重要新問題的新聞 2. 我會希望在新聞當中能夠看到報導重大議題的新聞,這讓. n. al 3.. 反省檢討. ‧. 題,所以我很喜歡. er. 驗. 學. 思考式體. 過這些新聞得到正面的力量. v i n Ch 當新聞報導到關於重大議題,我會留意並閱讀,因為想要 U i e h n c g 了解在社會當中發生的事情,也希望能夠出一分力 我可以持續關注這社會. 1. 我喜歡閱讀一些對重大事件進行更深入的思考的新聞 2. 我會喜歡一些新聞報導讓我們對重大議題或是現況做深入 的思考,因為這會讓我更深入看清楚真實社會現況 3. 我喜歡看關於深入探討某件議題的新聞,因為這會讓我從 不同方面去看待並對待事情. 行動式體. 聲援呼應. 驗. 1. 我喜歡閱讀到一些新聞是會激發我們想要去參加活動的心 理 2. 我會希望從新聞當中夠得到一些想要一同參與某些重大的 活動的刺激,並了解其重要性 3. 我會希望閱讀到新聞報導呼籲名眾去參與一些活動或是行 動,因為我喜歡去參加以及感受許多事物. 活動宣傳. 1. 我喜歡閱讀報導重要活動的新聞 40.

(42) 2. 我希望可以從新聞知道一些資訊讓我可以去參與一些實際 活動 3. 我希望從新聞當中了解重大活動的意義以及來龍去脈 持續關注. 1. 我喜歡閱讀到針對一個行動或活動持續的追蹤報導 2. 我會希望可以得知一個重要事件或是行動的持續報導,因 為我也想要一同參與 3. 我想要持續關注一個重要行動或事件的狀態和發展狀況, 所以很希望從新聞當中得到這些資訊. 關聯式體. 議題相關性. 1. 我會想要閱讀到一些新聞報導的內容引導我可以連結到其. 驗. 他相關議題的內容 2. 因為想要了解並關注其他地區遇到的相關的議題,所以會 想要閱讀到一些可以引導我得知更多相關類似議題的新聞 內容. 政 治 大. 3. 我喜歡吸收並了解資訊,所以我會想要閱讀到一些引導我. 立. 1. 我會喜歡閱讀跟自身或是社會利益相關的新聞內容. 學. ‧ 國. 利害相關. 會去查詢相關資訊的新聞內容. 2. 我會從新聞當中得知和自身利益相關的資訊,讓我可以更 掌握可以幫助自己的資訊. ‧. 3. 我很關注和自己利益相關的資訊,因為這對來說很重要. sit. y. Nat. n. al. er. io. 以上為關於使用者體驗喜好調查的問卷內容,第二部分的問卷是關於. i n U. v. 使用者新聞類別喜好調查,透過這部分的問卷,可以得到使用者喜歡的新. Ch. engchi. 聞類別,本研究可以透過第一部分和第二部分的結果作為資料集來對使用 者行為進行分析。. II. 使用者新聞類別喜好調查: 在使用者新聞類別喜好調查的問卷中,本研究整理了紙本新聞和網路 新聞的分類類別之後,找出適合本研究的方式來推薦的軟性新聞類型,分 別為:文化藝術類別、設計時尚類別、體育類別、健康類別、影視娛樂類 別、旅遊類別、親子類別、美食類別,表 8 詳細介紹各種內容的新聞歸屬 於何種新聞類別。針對每個類別,本研究分別找出七則新聞放在問卷中供 41.

(43) 使用者閱讀,並設計李克特量表以取得使用者對此新聞之喜好程度。其中 李克特量表採的五個等級的回答選項設計:非常喜歡,很喜歡,尚可,不 喜歡,非常不喜歡。. 表 8、各新聞類別所包含之新聞內容 新聞類別名稱. 所包含新聞之新聞內容. 文化藝術類別. 文化新聞、藝術新聞等. 設計時尚類別. 時尚新聞、精品新聞. 體育類別. 體育新聞、運動賽事新聞等. 健康類別. 立. 政 治 健康相關新聞、醫療新聞等 大. 影視娛樂類別. 娛樂新聞、名人偶像新聞、國際. ‧ 國. 學. 娛樂新聞、八卦新聞等 休閒相關新聞、旅遊新聞等. 親子類別. 教育新聞、親子相關新聞等. ‧. 旅遊類別. y. Nat. n. er. io. al. 美食新聞. sit. 美食類別. Ch. engchi. i n U. v. 三、問卷測試、修正及問卷調查 設計完問卷之後,將問卷的樣式排版進行微調之後,即進行問卷調查。本研 究鎖定的研究族群為大學生,針對五百名大學生進行問卷調查。回收問卷之後本 研究會將問卷的結果輸入至使用者行為資料庫,以供機器學習使用。完成使用者 行為資料蒐集之後,本研究將透過此部分所蒐集到的使用者所喜歡的體驗類型以 及使用者喜歡的類別的資料進行機器學習,藉此分析出兩者的關聯性規則。. 42.

(44) 第二節 機器學習 經過第一階段問卷的調查得到使用者喜歡的新聞體驗類型以及喜歡的新聞 類別之後,這個階段要運用機器學習的演算法首先分析出兩者的關聯式規則,並 運用此關聯式規則來建立能有效符合使用者個人體驗喜好之新聞推薦模型。在機 器學習段中分為訓練階段和執行階段,訓練階段顧名思義就是要對系統進行訓練 而讓系統有能夠推薦出適合的新聞,在本研究的訓練階段會透過問卷的結果分析 出使用者所喜歡的體驗和使用者喜歡的新聞類別的關聯式規則,例如說喜歡思考 式體驗的人有較大的機率會喜歡社會類的新聞等等。並且將這些關聯式規則依照. 政 治 大. 影響程度的大小加以配分,所產生的配分資料會進一步使用在執行階段。而在執. 立. 行階段則會實際操作推薦新聞的動作,本研究會輸入未知樣本新聞資料,機器學. ‧ 國. 學. 習模組將會分析此新聞所含有的體驗類型以及文件內容屬於何種分類,之後將這 些資訊分別和訓練階段所得到的使用者資訊做分析運算,最後判斷是否推薦該新. n. al. er. io. sit. y. Nat 一、訓練階段. ‧. 聞。以下分別對訓練階段以及執行階段更進一步作解說。. Ch. engchi. i n U. v. 在訓練階段本研究首先輸入訓練樣本新聞,訓練樣本新聞是在問卷階段已經 由受測者閱讀過的新聞資料,本研究系統當中的個人喜好新聞類別會從問卷得到 的使用者行為資料當中得到使用者對於該新聞的喜好度,並且也會將新聞進行分 類。 而個人喜好體驗分析模組則會從使用者行為資料分析出使用者喜歡的體驗 類型資訊。接下來決策樹分析模組會對以上資訊進行決策樹演算法的分析,獲取 使用者喜好的體驗資料以及使用者對於各新聞類別的喜好度的關聯式規則。之後 評分模組會對所得到的關聯式規則進行權重的配分,並將此結果儲存至各類型新 聞之關聯式規則資料庫。 43.

(45) 使用者 行為資料. 訓練階段 個人喜好體驗 分析模組 訓練樣本 新聞. 決策樹分析 模組. 個人喜好新聞 類別分析模組. 評分模組. 各類型新聞 之關聯式規 則資料庫. 政 治 大. 立圖 8、訓練階段架構圖. ‧ 國. 學. I. 個人喜好體驗分析模組. ‧. 在個人喜好體驗分析模組中首先輸入問卷當中所得到的使用者行為. sit. y. Nat. 資料。在第一階段新聞體驗溝面的問卷設計中,本研究針對每一種重要關. al. er. io. 鍵因素Factor𝑖 分別設計了三個重要關鍵要素問題(j),在此模組中本研究. v. n. 針對問卷的結果進行運算,分析出受測者對於各個重要關鍵因素Factor𝑖 的 好感程度。. Ch. engchi. i n U. Step1 : 將每個受測者針對每一個重要關鍵要素問題(j)不同的回 答 進 行 配 分 , 得 到 不 同 的 體 驗 好 感 得 分 Exp_preference_point(j),當中的配分如表 9。. 44.

(46) 表 9、好感得分配分表 Exp_preference_point( j). 非常同意. 100. 同意. 75. 普通. 50. 不同意. 25. 非常不同意. 0. 立. 政 治 大. 由於問卷的題目是針對新聞體驗的重要關鍵因素所設計. 學. 的,因此透過計算問卷回覆的得分可以得知測試者所喜歡 的體驗關鍵因素。算式(1)將每個重要關鍵因素Factor𝑖 回答. ‧. ‧ 國. Step2 :. 回答. 的答案(j)所得的體驗好感得分 Exp_prefence_point(j)相. y. Nat. i n U. al. Exp_prefernce_score( Factor𝑖. Ch. engchi. er. , 得 到 體 驗 好 感 分 數. io. Question_amount( Factor𝑖. n. sit. 加 並 除 上 每 個 重 要 關 鍵 因 素 的 問 題 數 量. v. 。若是體驗好感分數. Exp_prefernce_score(Factor𝑖 的值大於 50,則本研究定義該 名測試者喜歡該重要關鍵因素,若是體驗好感分數 Exp_prefernce_score(Factor𝑖 小於或等於 50,則本研究定義 該名測試者不喜歡該重要關鍵因素。其結果可以表示如表 10。. Exp_prefernce_score(Factor𝑖 ) =. ∑𝑛 𝑗=1 Exp_prefence_point(j) Question_amount(Factor𝑖 ). (1 45.

(47) 表 10、使用者對各重要關鍵因素之喜好表 重要關鍵因素. 使用者喜好. 色香味感受. 喜歡/不喜歡. 視聽愉悅. 喜歡/不喜歡. 美感要素. 喜歡/不喜歡. 同情關懷. 喜歡/不喜歡. 煽情感受. 喜歡/不喜歡. 共鳴感受. 喜歡/不喜歡. 震撼性. 喜歡/不喜歡. 重大意義. 喜歡/不喜歡. 反省檢討. 喜歡/不喜歡. 聲援呼應. 喜歡/不喜歡. 活動宣傳. 喜歡/不喜歡. 持續關注. 喜歡/不喜歡. 政 治 大. n. 利害相關. y. sit. er. io. Ch. ‧. Nat. al. 議題相關性. 學. ‧ 國. 立. i n U. 喜歡/不喜歡. engchi. v. 喜歡/不喜歡. II. 個人喜好新聞類別分析模組 在此模組中首先將被輸入的訓練樣本新聞和使用者行為資料中新聞 類別構面問卷的回答進行比對,在前面章節有提到訓練樣本新聞是在問卷 階段已經由受測者閱讀過的新聞資料,因此可以在使用者行為資料中對應 46.

(48) 到相同的新聞以及該新聞所屬的新聞類別,並取得每個受測者對訓練樣本 新聞中各種類別新聞的喜好程度。 Step1 : 將每個受測者針對每一個新聞喜好問題(k)不同的回答進 行 配 分 , 得 到 不 同 的 新 聞 喜 好 得 分 News_preference_point(k),當中的配分如表 11。. 表 11、新聞喜好得分配分表 回答. 75. 學. 不喜歡. 25. 非常不喜歡. 0. n. al. er. io Step2 :. y. 50. Nat. 尚可. ‧. ‧ 國. 立 喜歡. 政 治 大100. sit. 非常喜歡. News_preference_point(k). Ch. i n U. v. 透過計算問卷回覆的得分可以得知測試者對各種類型的. engchi. 電子新聞之喜好程度。算式(2)將每種新聞類別Type𝑖 中針 對每個新聞喜好問題(k)回覆的答案所得的新聞喜好得分 Exp_preference_point(k) 相 加 並 除 上 屬 於 每 個 新 聞 類 別 Type𝑖 的新聞數量 News_amount(Type𝑖 ),得到新聞喜好分 數 News_preference_score( Type𝑖 ) 。 若 是 新 聞 喜 好 分 數 News_preference_score(Type𝑖 )的值大於 50,則本研究定義 該名測試者喜歡該新聞類別,若是新聞喜好分數 News_preference_score(Type𝑖 )小於或等於 50,則本研究定 義該名測試者不喜歡該新聞類別。其結果可以表示如表 12。 47.

(49) News_preference_score(Type𝑖 ) =. ∑𝑛 𝑘=1 Exp_preference_point(k) News_amount(Type𝑖 ). (2 表 12、使用者對各新聞類別之喜好表 新聞類別. 使用者喜好. 藝術與文化類別. 喜歡/不喜歡. 影視娛樂八卦類別. 喜歡/不喜歡. 美食消費類別. 喜歡/不喜歡. 醫療健康類別. 喜歡/不喜歡. 休閒旅遊類別. 喜歡/不喜歡. 家庭綜合事務類別. 喜歡/不喜歡. ‧. n. al. er. io. sit. y. Nat III. 決策樹分析模組. 學. 喜歡/不喜歡. 立. ‧ 國. 政 治 大. 運動與競賽類別. Ch. engchi. i n U. v. 得到測試者對於每個新聞體驗當中重要關鍵因素的喜好程度以及測 試者對各種新聞類別喜好的程度之後,接下來將這些資訊送入至決策樹分 析模組進行 ID3 決策樹演算法的分析運算。本研究將新聞類別當作目標屬 性,新聞體驗的重要關鍵因素作為決策屬性,分別對每個新聞類別建立其 決策樹(圖 9)。經由各個決策樹本研究可以得到測試者喜歡的重要關鍵因 素和測試者喜歡的新聞類別之關聯式規則。. 48.

(50) 圖 9、各新聞類別決策樹. 立. IV. 評分模組. 政 治 大. ‧ 國. 學. 建立完決策樹之後,本研究的配分模組會將決策樹所產生的每一個關 聯規則加以配分後並儲存至關聯規則資料庫,供系統在執行階段的決策模. ‧. 組判斷時使用。. y. Nat. sit. Step1:在算式(3)中本研究對節點 p 取得該節點的支持度 Support(p)及節. n. al. er. io. 點純度 Purity(p)之乘積,並計算所有節點當中 Value 的最大值. i n U. Value_max 以及最小值 Value_min。. Ch. engchi. Step2:計算出權重 Weight(p)(算式 4). v. Step3:透過權重 Weight(p)以及 Value_min 調整所有 Value(p)值之分布, 使 Value(p)值介於 0 和 50 之間,其調整過後之值為 Adjust_value(p) (算式 5) Step4:若節點 p 之屬性為不喜歡該決策樹之新聞類別,則節點分數為 50 - Adjust_value(p),反之則為 50+- Adjust_value(p) (算式 6). V𝑎𝑙𝑢𝑒(𝑝) = 𝑃𝑢𝑟𝑖𝑡𝑦(𝑝) ×𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝑝). 49. (3.

參考文獻

相關文件

左邊有一個平面紙板圖形,右邊有數個立體圖型,左邊的紙板可合成右

機器常數machine epsilon,以ϵmach表示,其值為1和比 1大的最小浮點數之間的距離。以下表格為IEEE 754浮點 數標準中各部份所佔的位元數: 精準度類型 符號部分 指數部分

建模時,若我們沒有實際的物理定律、法則可以應用,我們 可以構造一個經驗模型 (empirical model) ,由所有收集到

在介紹方向場時,我們曾提過 RL 電流迴路的模型:一個迴 路接上電源(E)電感(L)以及電阻(R) 如下圖. 同時推得這個

 今年全國媒體、人民幾乎將所有關注焦點都放在新型冠狀病毒疫情,但我很希 望大家不要忽略了社會上其他的問題。博幼基金會主要是推動教育脫貧計畫,我 們在 33 個鄉鎮有

我一開始對這門課的目標只是想單純上課認真抄筆記、作業好好 寫、絕不早退外,還從未想過會上台報告。雖然我是老師點到要

另外,透過表 4-2 的結果可以看出,金融業受訪者最不重視的五項評估準則 因素依序為「C 41 親友推薦我使用網路電子支付」(權重為 0.013)、 「C 44 消費金額

而隨著道路之持續開發,隨之而來的大量環境破壞則成為促進道路生 態學發展的推手。歐美國家自 1920 年開始積極推動有關道路生態之 研究,藉以保護自然環境中之大型哺乳動物。表