4.4 實驗方法與結果
4.4.2 實驗一:尋找近似度最佳組合
在實驗一中,我們每組食品取樣21 個,其中包含 1 個為基準食品、4 個與基準食 品相同類別的食品,剩下的16 個食品隨機挑選與基準食品不同類別的食品共取十組食 品取平均。
如圖 4-18 所示,每個圖中都有一個數字,如 Entropy 中為 7.8,此數字所代表意義 為三次挑選食品之最低名次之平均。因為我們希望與基準食品相同類別的食品排名越前 面越好,最好是前四名都是相同類別。所以這上面的數字越小越好,同時也代表同類別 的順位越前面。
此外在圖中標準差的值是空的,這是因為標準差挑選營養素上所導致的情形,由 於標準差之定義為一群觀察值與平均數之差,稱為離均差,各離均差之平方的平均數(即 變異數)再予開方所得即為標準差。所以標準差很容易挑選到其中一個食品有值而其餘 皆為0 的營養素欄位,若以這種營養素計算近似度就會得到都為 0 的近似值,因此也無 法繪出圖形。如圖 4-17 所示。
圖 4-19 為原始資料經過正規化的實驗結果。圖 4-20 為正規化後的數值再乘以 Entropy 的權重值的實驗結果。圖 4-21 則是正規化後的數值再乘以標準差的權重值的實 驗結果。最好的取營養素方式為Entropy 與全部營養素,另外基本成分表的結果還算可 以。至於數值的處理方式,我們發現經過正規化後的結果普遍優於其他方法,至於是否 需要乘以Entropy 或標準差之權重值,可能還要再觀察。
檢閱實驗結果,我們大致有了一個方向:資料在經過正規化(Normalized)後的實 驗結果普遍都比其他方法好。在取數值的四種方法中,正規化資料實驗結果、正規化資 料乘上Entropy 權重實驗結果以及正規化資料乘上標準差權重實驗結果這三者結果都不 錯,因此我們在實驗二中將保留這三種的取數值方法。至於取營養素的八種方法中,我 們發現High、Low 以及 Mix Order 這三種方法結果不甚理想,甚至實驗過程中最低名次 的變動率相當高,這有可能與食品之分類有關。例如:豆漿之分類,有的認為應該分在 豆類,但有的認為分應該在嗜好飲料類。所以我們決定這三種方法先行剔除。此外取基 本成分表之營養素(Basis)的方法也是不夠好,而取標準差營養素(STDDEV)則是 先前提過容易取到不適當的營養素,所以決定也將這兩種方法剔除。
圖 4-18 實驗一原始資料(RAW)實驗結果
圖 4-19 實驗一正規化資料(Normalized)實驗結果
圖 4-21 實驗一正規化資料(Normalized)乘上標準差權重實驗結果