資料集 - 研究⽅法 - 基於感知屬性的品味分析：以酒飲網站專業與消費者評論為例

第三章研究⽅法

3.2 資料集

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2 資料集

Distiller 為⼀以烈酒產品為主之酒飲資訊平台，本研究所指涉之專家評論，

即為該網站上8, 266 筆由官⽅提供，由專業品評⼈員撰寫，包含產品資訊、品評筆記、風味圖譜之完整評論。專家評論主要特徵欄位整理如下表。

表

3.2-1 Distiller

網站

-

專家評論資料欄位

消費者評論部分，為使用該網站之消費者於網站各產品資訊頁內留⾔去所發表之評分與⽂字評論，其中有完整⽂字評論與評分內容者計有151, 387 筆 [38] 。消費者評論之特徵欄位整理如下表。

表

3.2-2 Distiller

^網站

–

^{消費者評論資料欄位}

欄位內容說明

品名酒飲品項名稱

類別

酒飲品項之分類，以 Whiskey, Brandy, Vodka, Tequila, Gin, Rum, Liqueur 七⼤類為主

品評筆記描述品味⼼得與酒款風味特性之⽂字

風味圖譜 14 種風味感知屬性之 0 到 100 評分

欄位內容說明

品名酒飲品項名稱

意見描述⼼得與風味之⽂字

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

本研究利用Python 程式語⾔之 BeautifulSoup 套件撰寫爬蟲程式爬取網站本身建立之有效商品資料並結合 Pandas 套件進⾏資料梳洗，在篩選有含有完整提供評鑑資訊即品味筆記與風味圖譜兩者兼具之資料後，建立初步可用之訓練資料集。接著根據烈酒分類，篩選出占資料總數過半數的 Whiskey 烈酒類別品項資料，先隨機抽出1/5 之資料作為驗證資料集¹⁵。再以便利抽樣法取出6 個用於電腦模型測試與消費者品味測試所用之測試品項，將其評論從剩餘資料中移出，獨立作為測試用資料。最後剩下的 1,706 筆評論則作為專家部分的基本訓練資料，鑑於可用之專家評論資料量較小，本研究亦參考了半監督學習法中自我學習（Self-training）[39]的概念予以簡化運用，以便有效利用 Distiller 網站

⼤量的消費者評論資料。然⽽，考量到消費者評論的長度、格式與⽂字形式、

風格皆⼤不相同，為盡可能確保資料之有效性，對於消費者評論亦經過事先篩選之程序，處理⽅式如下：首先，統計出專家評論中最短評論之字元數，再從消費者評論中篩選出留⾔字元數⼤於此⼀數字者，接著，先將留⾔⽂字非英⽂

的消費者評論篩去，然後再按照品項名稱選出同為 Whiskey 類別的評論。經由對消費者評論留⾔的觀察，發現留⾔內⼤部分提到品項價格相關訊息的評論，

⼀般帶有較少關於品味的敘述，因此，最後再跟據本研究所整理之價格相關字詞表，並參考來自網路資源之禁用字清單[40]以篩去含不雅詞彙的評論後，將剩餘之 17,411 筆資料做為後續兩輪訓練之使用，資料處理流程示意如下圖。

15 驗證資料（Validation Data）為機器學習任務中用來評估（Evaluation）模型參數成效所使用的資料，通常與訓練資料及測試資料完全分隔，以確保模型的⼀般化（Generalization）能⼒。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

評論類別訓練資料驗證資料測試資料合計

專家評論 1, 706 428 6 2,140

使用者評論 17, 413 0 0 17, 413

總計 19, 119 428 6 19,553

表

3.2-4 Distiller

^{資料集數量統計}

如前述，在經過清洗與梳理後，在 Distiller 資料集內，每⼀筆評論資料，

都具有品評筆記或意見之⽂本資料，以及含有風味圖譜，即14 個風味感知屬性介於0 到 5 之間的數值資料。針對最終處理完成之專家評論與消費者評論⽂本資料長度部分，以字元數為單位，整理其敘述性統計指標於下表：

表

3.2-3

篩選後之專家品評筆記與使用者評論字數長度統計

專家資料的風味圖譜部分，Whiskey 烈酒類別⼀共有 28 種具味覺、嗅覺或觸覺性質的感知屬性。由網站所屬之評專家評測者針對商品進⾏感官評價測試後，根據其感覺之強度⼤小給予不同屬性0-100 範圍內的量化數值評分。本研究將14 個標籤經參考相關風味詞彙定義[41-43]後，歸類整理如下表。

統計指標專家評論（字元）使用者評論（字元）

平均值 372 272

中位數 363 201

最⼤值 811 3, 462

最小值 119 119

‧

16 Min-Max 歸⼀化（Min-Max Normalization）為資料前處理的常見⼿法，透過將資料的數值按其特徵（Feature）的比例縮放⾄特定整數範圍（常見為 0 與 1 之間），以加強機器學習模型訓練的精度與收斂速度。

在文檔中基於感知屬性的品味分析：以酒飲網站專業與消費者評論為例 - 政大學術集成 (頁 24-28)

資料集

第三章 研究⽅法

3.2 資料集

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2 資料集

3.2-1 Distiller

-

3.2-2 Distiller

–

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2-4 Distiller

3.2-3

‧

第三章研究⽅法

立政治大學

立政治大學

立政治大學