第三章 研究⽅法
3.2 資料集
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
23
3.2 資料集
Distiller 為⼀以烈酒產品為主之酒飲資訊平台,本研究所指涉之專家評論,
即為該網站上8, 266 筆由官⽅提供,由專業品評⼈員撰寫,包含產品資訊、品 評筆記、風味圖譜之完整評論。專家評論主要特徵欄位整理如下表。
表
3.2-1 Distiller
網站-
專家評論資料欄位消費者評論部分,為使用該網站之消費者於網站各產品資訊頁內留⾔去所 發表之評分與⽂字評論,其中有完整⽂字評論與評分內容者計有151, 387 筆 [38] 。消費者評論之特徵欄位整理如下表。
表
3.2-2 Distiller
網站–
消費者評論資料欄位欄位 內容說明
品名 酒飲品項名稱
類別
酒飲品項之分類,以 Whiskey, Brandy, Vodka, Tequila, Gin, Rum, Liqueur 七⼤類為主
品評筆記 描述品味⼼得與酒款風味特性之⽂字
風味圖譜 14 種風味感知屬性之 0 到 100 評分
欄位 內容說明
品名 酒飲品項名稱
意見 描述⼼得與風味之⽂字
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
本研究利用Python 程式語⾔之 BeautifulSoup 套件撰寫爬蟲程式爬取網站本 身建立之有效商品資料並結合 Pandas 套件進⾏資料梳洗,在篩選有含有完整提 供評鑑資訊即品味筆記與風味圖譜兩者兼具之資料後,建立初步可用之訓練資 料集。接著根據烈酒分類,篩選出占資料總數過半數的 Whiskey 烈酒類別品項 資料,先隨機抽出1/5 之資料作為驗證資料集15。再以便利抽樣法取出6 個用於 電腦模型測試與消費者品味測試所用之測試品項,將其評論從剩餘資料中移 出,獨立作為測試用資料。最後剩下的 1,706 筆評論則作為專家部分的基本訓 練資料,鑑於可用之專家評論資料量較小,本研究亦參考了半監督學習法中自 我學習(Self-training)[39]的概念予以簡化運用,以便有效利用 Distiller 網站
⼤量的消費者評論資料。然⽽,考量到消費者評論的長度、格式與⽂字形式、
風格皆⼤不相同,為盡可能確保資料之有效性,對於消費者評論亦經過事先篩 選之程序,處理⽅式如下:首先,統計出專家評論中最短評論之字元數,再從 消費者評論中篩選出留⾔字元數⼤於此⼀數字者,接著,先將留⾔⽂字非英⽂
的消費者評論篩去,然後再按照品項名稱選出同為 Whiskey 類別的評論。經由 對消費者評論留⾔的觀察,發現留⾔內⼤部分提到品項價格相關訊息的評論,
⼀般帶有較少關於品味的敘述,因此,最後再跟據本研究所整理之價格相關字 詞表,並參考來自網路資源之禁用字清單[40]以篩去含不雅詞彙的評論後,將 剩餘之 17,411 筆資料做為後續兩輪訓練之使用,資料處理流程示意如下圖。
15 驗證資料(Validation Data)為機器學習任務中用來評估(Evaluation)模型參數成效所使用 的資料,通常與訓練資料及測試資料完全分隔,以確保模型的⼀般化(Generalization)能⼒。
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
評論類別 訓練資料 驗證資料 測試資料 合計
專家評論 1, 706 428 6 2,140
使用者評論 17, 413 0 0 17, 413
總計 19, 119 428 6 19,553
表
3.2-4 Distiller
資料集數量統計如前述,在經過清洗與梳理後,在 Distiller 資料集內,每⼀筆評論資料,
都具有品評筆記或意見之⽂本資料,以及含有風味圖譜,即14 個風味感知屬性 介於0 到 5 之間的數值資料。針對最終處理完成之專家評論與消費者評論⽂本 資料長度部分,以字元數為單位,整理其敘述性統計指標於下表:
表
3.2-3
篩選後之專家品評筆記與使用者評論字數長度統計專家資料的風味圖譜部分,Whiskey 烈酒類別⼀共有 28 種具味覺、嗅覺或 觸覺性質的感知屬性。由網站所屬之評專家評測者針對商品進⾏感官評價測試 後,根據其感覺之強度⼤小給予不同屬性0-100 範圍內的量化數值評分。本研 究將14 個標籤經參考相關風味詞彙定義[41-43]後,歸類整理如下表。
統計指標 專家評論(字元) 使用者評論(字元)
平均值 372 272
中位數 363 201
最⼤值 811 3, 462
最小值 119 119
‧
16 Min-Max 歸⼀化(Min-Max Normalization)為資料前處理的常見⼿法,透過將資料的數值按 其特徵(Feature)的比例縮放⾄特定整數範圍(常見為 0 與 1 之間),以加強機器學習模型訓練 的精度與收斂速度。