附錄表 1 決策樹參數
參數名稱 參數說明
apply_prepruning 是否執行事前修枝。
apply_pruning 是否執行事後修枝。
confidence 計算修枝的信用效度。
criterion
選擇下列標準進行分枝:
information_gain:計算熵值,並選擇最小的熵值進 行分枝,此種方法偏向於選擇具有大量值的變數。
gain_ratio:依據變數的資訊增益決定分枝。
gini_index:依據變數的吉尼係數決定分枝。
accuracy:依據整個樹的準確度最大化決定分枝。
maximal_depth
用於限制決策樹的深度,如果其值為「-1」,則不會 限制樹的深度,樹會被建立,直到滿足其他條件為 止;若其值為「1」,則會建立單個節點的樹。
minimal_gain 設定分枝節點的最小增益值。
minimal_leaf_size 設定最小枝葉的數量。
minimal_size_for_split 設定最小節點的數量。
number_of_prepruning_
alternatives 預先停止分枝,測試分枝替代節點的數量。
參考來源:RapidMiner Documentation
54
附錄表 2 隨機森林參數
參數名稱 參數說明
apply_prepruning 是否執行事前修枝。
apply_pruning 是否執行事後修枝。
confidence 計算修枝的信用效度。
criterion
選擇下列標準進行分枝:
information_gain:計算熵值,並選擇最小的熵值 進行分枝,此種方法偏向於選擇具有大量值的變 數。
gain_ratio:依據變數的資訊增益決定分枝。
gini_index:依據變數的吉尼係數決定分枝。
accuracy:依據整個樹的準確度最大化決定分枝。
enable_parallel_execution 分配樹的建構並執行模型。
guess_subset_ratio 此參數為true 時,使用* int(log(m)+1),false 則使 用樣本比率*參數比率。
local_random_seed 僅在隨機化結果為true 時使用。
maximal_depth
用於限制決策樹的深度,如果其值為「-1」,則不 會限制樹的深度,樹會被建立,直到滿足其他條 件為止;若其值為「1」,則會建立單個節點的樹。
minimal_gain 設定分枝節點的最小增益值。
minimal_leaf_size 設定最小枝葉的數量。
minimal_size_for_split 設定最小節點的數量。
number_of_prepruning_
alternatives 預先停止分枝,測試分枝替代節點的數量。
number_of_trees 設定樹的數量。
random_splits 隨機分割參數。
subset_ratio 隨機選擇參數與測試比率。
use_local_random_seed 更改樣本抽樣規則。
voting_strategy
在反對預測模型情況下的策略:
confidence_vote:選擇信用效度最高的分枝。
majority_vote:選擇大多數模型的預測分枝。
參考來源:RapidMiner Documentation
附錄表 3 類神經網路參數
參數名稱 參數說明
decay 調降學習率。
error_epsilon 若誤差值低於ε,則停止優化。
hidden_layers 定義隱藏層的名稱和大小。
learning_rate 改變權重次數,且數值不該為0,必須是整數。
local_random_seed 僅在隨機化結果為true 時可用。
momentum 更新歷史權重並添加到目前的權重,可防止局部最 大化和優化向量。
normalize 作為激活函數,其範圍在1 和-1 間,並在訓練前進 行標準化。
shuffle 重新搓合資料。
training_cycles 重複循環訓練集。
use_local_random_seed 更改樣本抽樣規則。
參考來源:RapidMiner Documentation
56
convergence_epsilon 規定 KKT 條件下的精準度。
epsilon 非敏感常數,為損失函數之一。
epsilon_minus 損失函數之一。
epsilon_plus 損失函數之一。
kernel_a 使用於neural。
kernel_b 使用於neural。
kernel_cache 指定內核緩存的大小。
kernel_degree 使用於polynomial、anova 或 epachnenikov。
kernel_gamma 使用於radial 或 anova。
kernel_shift 使用於multiquadric。
kernel_sigma1 使 用 於 epachnenikov 、 gaussian_combination 或 multiquadric。
kernel_sigma2 使用於gaussian_combination。
kernel_sigma3 使用於gaussian_combination。
kernel_type
選擇內核函數類型:
Dot:由 k(x,y)=x*y 定義,為 x 和 y 的內積。
Radial:由 exp(-g||xy||^2)定義,g 為 gamma,為重要調 整變數。
Polynomial:由 k(x,y)=(x*y+1)^d 定義,d 為多項式的階 數。
Neural:由 tanh(ax*y+b)定義,a 為 α,b 為截距數。
Anova:由 exp(-g(xy))定義。
Epachnenikov:在-1 和 1 間是 u(3/4)(1-u2),u 在範圍外 則為0,此參數可調整 sigma1 和 degree。
Gaussian_combination: 用 於 調 整 sigma1 、 sigma2 和 sigma3。
Multiquadric:由||xy||^2+c^2 開根號定義,可調整 sigma1 和shift。
L_neg 損失函數之一。
L_pos 損失函數之一。
max_iterations 指定停止訓練。
quadratic_loss pos 計算正偏差,為損失函數之一。
quadratic_loss_neg 計算負偏差,為損失函數之一。
scale 樣本集的縮放值。
參考來源:RapidMiner Documentation
58
附錄表 5 倒轉遞類神經網路參數
參數名稱 參數說明
activation
隱藏層中神經元使用的激活函數(非線性):
Tanh:雙曲正切函數。
Rectifier:選擇(0,x)的最大值。
Maxout:選擇最大坐標。
ExpRectifier:整流器線性單位。
adaptive_rate 結合學習率和動能,避免收斂速度慢。
compute_variable_importances 連結前兩層隱藏層的權重。
distribution_function
訓練資料的函數:
Auto:自動選擇。
Bernoulli:用於二項式或多項式。
Gaussian、possion、gamma、tweedie、quantile、
laplace:用於回歸分佈。
early_stopping 若值為 true,則提前停止。
epochs 傳輸次數。
epsilon 調降學習率及動能。
expert_parameters 用於微調算法。
hidden_dropout_ratios 省略隱藏層的一小部分。
hidden_layer_sizes 隱藏層的數量及大小。
L1 限制權重的絕對值,並減去模型中的一些權
重,避免過度擬合。
L2 限制權重平方和。
learning_rate 改變權重次數,且數值不該為0,必須是整數。
local_random_seed 僅在隨機化結果為 true 時使用。
loss_function 使損失函數最小化。
max_runtime_seconds 模型訓練的最大運算時間。
max_w2 任一神經元的權重平方和。
missing_values_handling 處理遺漏值。
momentum_ramp 控制動能學習量。
momentum_stable 控制 momentum_ramp 訓練樣本後的最終值。
momentum_start 控制訓練開始時的動能。
nesterov_accelerated_gradient 調降最小殘差值。
rate_annealing 最小學習率的值。
rate_decay 調整層與層之間的變化。
reproducible 重整資料。
rho 更新權重變數之一。
standardize 樣本集標準化。
stopping_metric 提前停止運算。
stopping_rounds stopping_metric 的收斂提前停止。
stopping_tolerance 停止度量標準。
train_samples_per_iteration 更新隨機坡度下降模型的數量。
use_local_random_seed 更改樣本抽樣規則。
參考來源:RapidMiner Documentation
60