• 沒有找到結果。

附錄一 模型參數說明

附錄表 1 決策樹參數

參數名稱 參數說明

apply_prepruning 是否執行事前修枝。

apply_pruning 是否執行事後修枝。

confidence 計算修枝的信用效度。

criterion

選擇下列標準進行分枝:

information_gain:計算熵值,並選擇最小的熵值進 行分枝,此種方法偏向於選擇具有大量值的變數。

gain_ratio:依據變數的資訊增益決定分枝。

gini_index:依據變數的吉尼係數決定分枝。

accuracy:依據整個樹的準確度最大化決定分枝。

maximal_depth

用於限制決策樹的深度,如果其值為「-1」,則不會 限制樹的深度,樹會被建立,直到滿足其他條件為 止;若其值為「1」,則會建立單個節點的樹。

minimal_gain 設定分枝節點的最小增益值。

minimal_leaf_size 設定最小枝葉的數量。

minimal_size_for_split 設定最小節點的數量。

number_of_prepruning_

alternatives 預先停止分枝,測試分枝替代節點的數量。

參考來源:RapidMiner Documentation

54 

附錄表 2 隨機森林參數

參數名稱 參數說明

apply_prepruning 是否執行事前修枝。

apply_pruning 是否執行事後修枝。

confidence 計算修枝的信用效度。

criterion

選擇下列標準進行分枝:

information_gain:計算熵值,並選擇最小的熵值 進行分枝,此種方法偏向於選擇具有大量值的變 數。

gain_ratio:依據變數的資訊增益決定分枝。

gini_index:依據變數的吉尼係數決定分枝。

accuracy:依據整個樹的準確度最大化決定分枝。

enable_parallel_execution 分配樹的建構並執行模型。

guess_subset_ratio 此參數為true 時,使用* int(log(m)+1),false 則使 用樣本比率*參數比率。

local_random_seed 僅在隨機化結果為true 時使用。

maximal_depth

用於限制決策樹的深度,如果其值為「-1」,則不 會限制樹的深度,樹會被建立,直到滿足其他條 件為止;若其值為「1」,則會建立單個節點的樹。

minimal_gain 設定分枝節點的最小增益值。

minimal_leaf_size 設定最小枝葉的數量。

minimal_size_for_split 設定最小節點的數量。

number_of_prepruning_

alternatives 預先停止分枝,測試分枝替代節點的數量。

number_of_trees 設定樹的數量。

random_splits 隨機分割參數。

subset_ratio 隨機選擇參數與測試比率。

use_local_random_seed 更改樣本抽樣規則。

voting_strategy

在反對預測模型情況下的策略:

confidence_vote:選擇信用效度最高的分枝。

majority_vote:選擇大多數模型的預測分枝。

參考來源:RapidMiner Documentation

附錄表 3 類神經網路參數

參數名稱 參數說明

decay 調降學習率。

error_epsilon 若誤差值低於ε,則停止優化。

hidden_layers 定義隱藏層的名稱和大小。

learning_rate 改變權重次數,且數值不該為0,必須是整數。

local_random_seed 僅在隨機化結果為true 時可用。

momentum 更新歷史權重並添加到目前的權重,可防止局部最 大化和優化向量。

normalize 作為激活函數,其範圍在1 和-1 間,並在訓練前進 行標準化。

shuffle 重新搓合資料。

training_cycles 重複循環訓練集。

use_local_random_seed 更改樣本抽樣規則。

參考來源:RapidMiner Documentation

56 

convergence_epsilon 規定 KKT 條件下的精準度。

epsilon 非敏感常數,為損失函數之一。

epsilon_minus 損失函數之一。

epsilon_plus 損失函數之一。

kernel_a 使用於neural。

kernel_b 使用於neural。

kernel_cache 指定內核緩存的大小。

kernel_degree 使用於polynomial、anova 或 epachnenikov。

kernel_gamma 使用於radial 或 anova。

kernel_shift 使用於multiquadric。

kernel_sigma1 使 用 於 epachnenikov 、 gaussian_combination 或 multiquadric。

kernel_sigma2 使用於gaussian_combination。

kernel_sigma3 使用於gaussian_combination。

kernel_type

選擇內核函數類型:

Dot:由 k(x,y)=x*y 定義,為 x 和 y 的內積。

Radial:由 exp(-g||xy||^2)定義,g 為 gamma,為重要調 整變數。

Polynomial:由 k(x,y)=(x*y+1)^d 定義,d 為多項式的階 數。

Neural:由 tanh(ax*y+b)定義,a 為 α,b 為截距數。

Anova:由 exp(-g(xy))定義。

Epachnenikov:在-1 和 1 間是 u(3/4)(1-u2),u 在範圍外 則為0,此參數可調整 sigma1 和 degree。

Gaussian_combination: 用 於 調 整 sigma1 、 sigma2 和 sigma3。

Multiquadric:由||xy||^2+c^2 開根號定義,可調整 sigma1 和shift。

L_neg 損失函數之一。

L_pos 損失函數之一。

max_iterations 指定停止訓練。

quadratic_loss pos 計算正偏差,為損失函數之一。

quadratic_loss_neg 計算負偏差,為損失函數之一。

scale 樣本集的縮放值。

參考來源:RapidMiner Documentation

58 

附錄表 5 倒轉遞類神經網路參數

參數名稱 參數說明

activation

隱藏層中神經元使用的激活函數(非線性):

Tanh:雙曲正切函數。

Rectifier:選擇(0,x)的最大值。

Maxout:選擇最大坐標。

ExpRectifier:整流器線性單位。

adaptive_rate 結合學習率和動能,避免收斂速度慢。

compute_variable_importances 連結前兩層隱藏層的權重。

distribution_function

訓練資料的函數:

Auto:自動選擇。

Bernoulli:用於二項式或多項式。

Gaussian、possion、gamma、tweedie、quantile、

laplace:用於回歸分佈。

early_stopping 若值為 true,則提前停止。

epochs 傳輸次數。

epsilon 調降學習率及動能。

expert_parameters 用於微調算法。

hidden_dropout_ratios 省略隱藏層的一小部分。

hidden_layer_sizes 隱藏層的數量及大小。

L1 限制權重的絕對值,並減去模型中的一些權

重,避免過度擬合。

L2 限制權重平方和。

learning_rate 改變權重次數,且數值不該為0,必須是整數。

local_random_seed 僅在隨機化結果為 true 時使用。

loss_function 使損失函數最小化。

max_runtime_seconds 模型訓練的最大運算時間。

max_w2 任一神經元的權重平方和。

missing_values_handling 處理遺漏值。

momentum_ramp 控制動能學習量。

momentum_stable 控制 momentum_ramp 訓練樣本後的最終值。

momentum_start 控制訓練開始時的動能。

nesterov_accelerated_gradient 調降最小殘差值。

rate_annealing 最小學習率的值。

rate_decay 調整層與層之間的變化。

reproducible 重整資料。

rho 更新權重變數之一。

standardize 樣本集標準化。

stopping_metric 提前停止運算。

stopping_rounds stopping_metric 的收斂提前停止。

stopping_tolerance 停止度量標準。

train_samples_per_iteration 更新隨機坡度下降模型的數量。

use_local_random_seed 更改樣本抽樣規則。

參考來源:RapidMiner Documentation

60 

相關文件