實驗二：探討最佳的權重方式

4.4 實驗方法與結果

4.4.3 實驗二：探討最佳的權重方式

根據先前的實驗，我們將對正規化資料、正規化資料乘上Entropy 權重以及正規化資料乘上標準差權重這三者做進一步的實驗。而取營養素的方法則是採用 Entropy、5 個基本營養素以及全部營養素等三種。

在實驗組數我們隨機取十組，每組中有51 個食品，其中包含 1 個為基準食品、10 個與基準食品相同類別的食品，剩下的40 個食品隨機挑選與基準食品不同類別的食品。

圖 4-22、圖 4-23 以及圖 4-24 為實驗結果。從實驗結果中可以發現到取 5 個基本營養素的方法較不理想，而取Entropy 之營養素的方法在三種計算數值的方法中都有著不錯的表現，因此在計算正規化資料後是否需要乘上Entropy 或標準差權重似乎沒有很大的差別。

可以看出實驗二與實驗一有著相符的結果。最好的取營養素方法以及權重方法為取 Entropy 營養素並以 Entropy 權重計算，其次為取 Entropy 營養素並以標準差權重計算，第三為取Entropy 營養素並將原始資料正規化。第四則是取全部營養素並以 Entropy 權重計算。

圖 4-22 實驗二正規化資料（Normalized）實

圖 4-24 實驗二正規化資料（Normalized）乘上標準差權重實驗結果

4.4.4 實驗三：不同近似度公式之影響

先前提到計算近似度時有許多公式可用，我們必須實驗看看哪一種公式對於計算營養近似度時有比較好的結果，因此我們在這裡挑出Dice 以及 Jaccard 這兩者與 Cosine 比較。

我們在此實驗共取十組，每組食品包含一個基準食品，十個與基準食品相同類別之食品以及四十個其他類別食品。取營養素的方法有取Entropy 營養素、取五個基本營養素以及取全部營養素。而數值權重方法則有取原始資料、取正規化資料以及取正歸化後乘上Entropy 權重值之資料來計算。

圖 4-25、圖 4-26 以及圖 4-27 為實驗結果之比較圖。由於 Dice 與 Jaccard 之實驗結果的排名順序完全相同，因此在此只列出Dice 與 Cosine 的部份。可以看出 Cosine 與 Dice 其實相差無幾，相同取營養素的方法用 Dice 與 Cosine 其結果相當類似。特別注意的是取五個基本營養素時 Cosine 的效率較差。我們仔細觀察後發現原因出於實驗組中的三組食品，這三組食品皆以蔬菜類為基準。

而這裡得到另一個結果就是取 Entropy 的營養素方法比取全部營養素的方法較為理想，這個結果與先前實驗相符。

19.3 21.8 30.3 30.8 31.5 39.1

Cosine-5 Entropy Cosine-5 Nutrients Cosine-All Nutrients Dice-5 Entropy Dice-5 Nutrients Dice-All Nutrients

圖 4-25 實驗三原始資料之實驗結果

18.1 18.3 21.1 21.7 23.1 28.7

Cosine-5 Entropy Cosine-5 Nutrients Cosine-All Nutrients Dice-5 Entropy Dice-5 Nutrients Dice-All Nutrients

圖 4-26 實驗三正規化資料之實驗結果

4.4.5 實驗四：不過濾加工食品

Cosine-5 Entropy Cosine-5 Nutrients Cosine-All Nutrients

Dice-5 Entropy Dice-5 Nutrients Dice-All Nutrients

35.4 41.2

entropy 5 all

圖 4-28 不過濾加工食品原始資料之實驗結果

entropy 5 all

圖 4-29 不過濾加工食品正規化資料之實驗結果

26.4 33.2

entropy 5 all

圖 4-30 不過濾加工食品正規化資料乘上 Entropy 權重值之實驗結果

圖 4-31 各類別與各營養素之平均值之資料表

0

1st 2nd 3rd 4th 5th 6th 7th 8th 9th 10th 11th 12th 13th 14th 15th 16th 17th 18th

圖 4-33 實驗四各類別分類正確率取五個基本營養素。而數值權重的方法則是正規化後的資料以及正規化後乘上 Entropy 權重值的資料結果最好，取原始資料計算則是最差。

這個結果與國內資料庫實驗結果相仿，原因應該也是經由計算Entropy 所挑選出來的營養素，對於判斷是否同類食品也有相當不錯的準確率。至於正規化後是否需要乘上 Entropy 權重值，我們發現權重值大小約在二以下，值乘上後並不會產生很大的影響。

9.33 13.67 4.33

0%

20%

40%

60%

80%

100%

0 2 4 6 8 10 12 14

entropy 5 all

圖 4-34 USDA 原始資料之實驗結果

4 4.67 8.33

20%

40%

60%

80%

100%

0 1 2 3 4 5 6 7 8 9

entropy 5 all

4 4.67 8

20%

40%

60%

80%

100%

0 1 2 3 4 5 6 7 8 9

entropy 5 all

圖 4-36 USDA 正規化資料後乘上 Entropy 權重之實驗結果

4.4.8 實驗七：輔英市售商品

我們的整合資料庫中也新增由輔英科技大學所收集之市售商品資料，因此我們也將其資料進行實驗。可以發現，由於市售商品大多只標示五個基本營養素，因此在取營養素的方法中並無差異，但是數值權重的方法中，可以發現取正規化資料與取正規化資料後乘上Entropy 權重值均比取原始資料好。

圖 4-38 輔英市售商品正規化資料之實驗結果

4.4.9 討論

本研究共探討八種取營養素欄位的方法（全部營養素、五個基本營養素、基本成分表之營養素、Entropy 權重取的營養素、標準差權重取的營養素、排名高之營養素、

排名低之營養素以及排名高低混合之營養素）以及四種數值權重方法（原始資料、正規化資料、正規化資料後乘上Entropy 權重以及正規化資料後乘上標準差權重）。由於實驗組合的種類眾多，因此實驗初期我們先以少量測試資料進行分析，再將潛在有較佳結果的方法，以更多的資料進行更完整的測試分析。

在實驗一及實驗二，從實驗結果得到在取營養素欄位的方法中較好的方法（與基準食品相同類別的食品排名越前面）有三個，分別是五個基本營養素、Entropy 權重取的營養素以及全部營養素等。而數值權重方法則發現原始資料的結果較差，正規化資料的結果還不錯，剩餘的兩種方法則相當近似。其中特別注意到取原始資料時若以取全部營養素的結果比取Entropy 營養素的結果較為理想。這原因可能出於資料尚未經過正規化時若只考慮少數幾個關鍵營養素，儘管這幾個營養素的鑑別率較高但終究還是看全部營養素的結果會較為正確。

其他的近似度計算方法如Dice、Jaccard 等，計算過程與 Cosine 類似，只是在計算時必須注意分子與分母的項目。從取Entropy 營養素及取全部營養素的圖形曲線來看差

4.5 小結

近似性計算的可以幫使用者找出最佳的替代食品，對於非相關資訊背景的使用者來說是個很方便的工具。在這個章節中，我們探討了資料庫本身的缺值情況、計算權重的選擇以及營養素的挑選方式，目的在於找出計算近似性的最佳組合。整體實驗結果來看是一致的，取營養素的方法中以取Entropy 營養素最好，取全部營養素次之，但差異很小；計算權重的方法中以正規化資料與正規化資料後乘上Entropy 權重值的結果都不錯。

第5章營養親緣樹

親緣關係樹通常稱為Phylogenetic Tree或Evolutionary Tree[15]，是具有共同祖先的各物種演化關係的樹。藉由計算生物間的基因序列，可以了解生物間的近似程度。在食品中我們也希望能找出類似的親緣關係，因此在營養資訊中我們將這種親緣關係樹稱之為營養親緣樹（Phylonutritic Tree）。

5.1 親緣關係樹（Phylogenetic Tree）

畫出演化樹（親緣關係樹）的方法有：Distance Matrix、Maximum Parsimony, Maximum Likelihood等三種。Maximum Parsimony（MP）與Maximum Likelihood（ML）

都是Discrete-character Methods，這些方法考慮每個特徵的變化，利用不同樹形特徵的差異計算出判定數值，再由眾多樹形中挑出判斷數值最理想者。MP所需的運算時間少於 ML，其缺點是當樹形中物種的演化速率有較大差異時比其他方法更容易發生Long Branch Attraction，也就是演化速度較快的物種傾向於出現在同一分枝中。MP和ML方法都必須先畫出所有可能的樹形，再由其中找出具有最佳判定數值的樹形。但是樹形的數目隨著物種數目以幾何級數增加，因此這兩種方法都比Distance Matrix需要更多的計算時間。

而Distance Matrix 則是先將兩個序列間的距離安排成一矩陣，如圖 5-1 所示，有四種物種（S1~S4）。UPGMA 是利用一個 Distance Matrix，根據相關的規則而建構出來的Binary Tree。根據圖 5-1，S3 與 S4 距離最近因此合併，如圖 5-2 所示。

圖 5-1 Distance Matrix 之矩陣

圖 5-2 第一次合併

合併後重新計算物種間的距離，如圖 5-3 所示。如此反覆進行直到全部物種合併完成，就可以畫出一個UPGMA 的演化樹，如圖 5-4 所示。

在Distance Matrix 中另一個常用的方法則是 Neighbor Joining（NJ），一樣使用距離矩陣計算物種間的距離。在計算過程中，NJ 不是單純以距離直接計算，而是考慮淨差異值，並且在合併時需要修正物種間的遺傳距離。目前研究NJ 的論文相當多，故我們不再贅述NJ 的計算過程。

對營養資料庫來說，我們也希望能找出這種類似親緣關係樹的營養親緣樹

（Phylonutritic Tree）。建立這種樹的目的有：

圖 5-3 第一次合併後的矩陣

圖 5-4 UPGMA 最後產生的演化樹

z 建立並比對營養素與基因的親緣樹，找出營養素與基因之關聯性，可以應用在預防及對抗疾病等醫療方面。

z 基因領域研究中，要複製一個生物的基因序列要花費的代價很高。學者只能透過經驗猜測某個物種與要複製的生物基因近似，若我們可以以營養素做近似預測，便可以節省時間並提高正確率。

z 找出食品間的親緣關係，同時也可以用來做為替代食品，可以應用在膳療方

這個軟體免費且容易取得。另外還有一套為 TreeViewX[24]是由 TreeView 之核心改良開發而來，主要差異在於TreeViewX 支援中文顯示。

5.2 分群（Clustering）

將一群資料，依這些資料之屬性，計算每筆資料間的近似程度，再挑選最接近的兩筆將之合併。兩筆資料合併後成為一個虛擬點代替這兩筆資料，將剩餘資料筆數與這個虛擬點進行下一次近似程度計算，如此反覆進行直到每筆資料都被歸屬到某一個類別這就是分群[14]。

對營養資料庫來說，我們比較感興趣的是是否有方法可以將食品正確分類。依這個目的，比較適合的方法就是Clustering[16]。在 Clustering 的過程中，合併的方法相當重要，大致可分為兩類：層級式分群與非層級式分群分析法。

z 層級式分群分析法：

Single Linkage：原群中最小距離為合併後之新距離。

Complete Linkage：原群中最大距離為合併後之新距離。

Average Linkage：原群之平均距離為合併後之新距離。

z 非層級式分群分析法：

我們的分群實驗，以層級式分群分析法中的Average Linkage，也就是在合併過程中取兩筆資料之平均做為虛擬點。

當不錯，而乘以標準差的結果則是較為不理想。因此我們在分群實驗中將只保留乘以

在文檔中整合式營養資料庫之建置與應用 (頁 72-0)

4.4 實驗方法與結果

4.4.3 實驗二：探討最佳的權重方式

4.4.4 實驗三：不同近似度公式之影響

Cosine-5 Entropy Cosine-5 Nutrients Cosine-All Nutrients Dice-5 Entropy Dice-5 Nutrients Dice-All Nutrients

4.4.5 實驗四：不過濾加工食品

Cosine-5 Entropy Cosine-5 Nutrients Cosine-All Nutrients

Dice-5 Entropy Dice-5 Nutrients Dice-All Nutrients

entropy 5 all

0

9.33 13.67 4.33

0%

20%

40%

60%

80%

100%

0 2 4 6 8 10 12 14

entropy 5 all

entropy 5 all

4.4.8 實驗七：輔英市售商品

4.4.9 討論

4.5 小結

第5章 營養親緣樹

5.1 親緣關係樹（Phylogenetic Tree）

5.2 分群（Clustering）

第5章營養親緣樹