附錄一模型參數說明

附錄表 1 決策樹參數

參數名稱參數說明

apply_prepruning 是否執行事前修枝。

apply_pruning 是否執行事後修枝。

confidence 計算修枝的信用效度。

criterion

選擇下列標準進行分枝：

information_gain：計算熵值，並選擇最小的熵值進行分枝，此種方法偏向於選擇具有大量值的變數。

gain_ratio：依據變數的資訊增益決定分枝。

gini_index：依據變數的吉尼係數決定分枝。

accuracy：依據整個樹的準確度最大化決定分枝。

maximal_depth

用於限制決策樹的深度，如果其值為「-1」，則不會限制樹的深度，樹會被建立，直到滿足其他條件為止；若其值為「1」，則會建立單個節點的樹。

minimal_gain 設定分枝節點的最小增益值。

minimal_leaf_size 設定最小枝葉的數量。

minimal_size_for_split 設定最小節點的數量。

number_of_prepruning_

alternatives 預先停止分枝，測試分枝替代節點的數量。

參考來源：RapidMiner Documentation

附錄表 2 隨機森林參數

參數名稱參數說明

apply_prepruning 是否執行事前修枝。

apply_pruning 是否執行事後修枝。

confidence 計算修枝的信用效度。

criterion

選擇下列標準進行分枝：

information_gain：計算熵值，並選擇最小的熵值進行分枝，此種方法偏向於選擇具有大量值的變數。

gain_ratio：依據變數的資訊增益決定分枝。

gini_index：依據變數的吉尼係數決定分枝。

accuracy：依據整個樹的準確度最大化決定分枝。

enable_parallel_execution 分配樹的建構並執行模型。

guess_subset_ratio 此參數為true 時，使用* int(log(m)+1)，false 則使用樣本比率*參數比率。

local_random_seed 僅在隨機化結果為true 時使用。

maximal_depth

用於限制決策樹的深度，如果其值為「-1」，則不會限制樹的深度，樹會被建立，直到滿足其他條件為止；若其值為「1」，則會建立單個節點的樹。

minimal_gain 設定分枝節點的最小增益值。

minimal_leaf_size 設定最小枝葉的數量。

minimal_size_for_split 設定最小節點的數量。

number_of_prepruning_

alternatives 預先停止分枝，測試分枝替代節點的數量。

number_of_trees 設定樹的數量。

random_splits 隨機分割參數。

subset_ratio 隨機選擇參數與測試比率。

use_local_random_seed 更改樣本抽樣規則。

voting_strategy

在反對預測模型情況下的策略：

confidence_vote：選擇信用效度最高的分枝。

majority_vote：選擇大多數模型的預測分枝。

參考來源：RapidMiner Documentation

附錄表 3 類神經網路參數

參數名稱參數說明

decay 調降學習率。

error_epsilon 若誤差值低於ε，則停止優化。

hidden_layers 定義隱藏層的名稱和大小。

learning_rate 改變權重次數，且數值不該為0，必須是整數。

local_random_seed 僅在隨機化結果為true 時可用。

momentum 更新歷史權重並添加到目前的權重，可防止局部最大化和優化向量。

normalize 作為激活函數，其範圍在1 和-1 間，並在訓練前進行標準化。

shuffle 重新搓合資料。

training_cycles 重複循環訓練集。

use_local_random_seed 更改樣本抽樣規則。

參考來源：RapidMiner Documentation

convergence_epsilon 規定 KKT 條件下的精準度。

epsilon 非敏感常數，為損失函數之一。

epsilon_minus 損失函數之一。

epsilon_plus 損失函數之一。

kernel_a 使用於neural。

kernel_b 使用於neural。

kernel_cache 指定內核緩存的大小。

kernel_degree 使用於polynomial、anova 或 epachnenikov。

kernel_gamma 使用於radial 或 anova。

kernel_shift 使用於multiquadric。

kernel_sigma1 使用於 epachnenikov 、 gaussian_combination 或 multiquadric。

kernel_sigma2 使用於gaussian_combination。

kernel_sigma3 使用於gaussian_combination。

kernel_type

選擇內核函數類型：

Dot：由 k(x,y)=x*y 定義，為 x 和 y 的內積。

Radial：由 exp(-g||xy||^2)定義，g 為 gamma，為重要調整變數。

Polynomial：由 k(x,y)=(x*y+1)^d 定義，d 為多項式的階數。

Neural：由 tanh(ax*y+b)定義，a 為 α，b 為截距數。

Anova：由 exp(-g(xy))定義。

Epachnenikov：在-1 和 1 間是 u(3/4)(1-u2)，u 在範圍外則為0，此參數可調整 sigma1 和 degree。

Gaussian_combination：用於調整 sigma1 、 sigma2 和 sigma3。

Multiquadric：由||xy||^2+c^2 開根號定義，可調整 sigma1 和shift。

L_neg 損失函數之一。

L_pos 損失函數之一。

max_iterations 指定停止訓練。

quadratic_loss pos 計算正偏差，為損失函數之一。

quadratic_loss_neg 計算負偏差，為損失函數之一。

scale 樣本集的縮放值。

參考來源：RapidMiner Documentation

附錄表 5 倒轉遞類神經網路參數

參數名稱參數說明

activation

隱藏層中神經元使用的激活函數(非線性)：

Tanh：雙曲正切函數。

Rectifier：選擇(0,x)的最大值。

Maxout：選擇最大坐標。

ExpRectifier：整流器線性單位。

adaptive_rate 結合學習率和動能，避免收斂速度慢。

compute_variable_importances 連結前兩層隱藏層的權重。

distribution_function

訓練資料的函數：

Auto：自動選擇。

Bernoulli：用於二項式或多項式。

Gaussian、possion、gamma、tweedie、quantile、

laplace：用於回歸分佈。

early_stopping 若值為 true，則提前停止。

epochs 傳輸次數。

epsilon 調降學習率及動能。

expert_parameters 用於微調算法。

hidden_dropout_ratios 省略隱藏層的一小部分。

hidden_layer_sizes 隱藏層的數量及大小。

L1 限制權重的絕對值，並減去模型中的一些權

重，避免過度擬合。

L2 限制權重平方和。

learning_rate 改變權重次數，且數值不該為0，必須是整數。

local_random_seed 僅在隨機化結果為 true 時使用。

loss_function 使損失函數最小化。

max_runtime_seconds 模型訓練的最大運算時間。

max_w2 任一神經元的權重平方和。

missing_values_handling 處理遺漏值。

momentum_ramp 控制動能學習量。

momentum_stable 控制 momentum_ramp 訓練樣本後的最終值。

momentum_start 控制訓練開始時的動能。

nesterov_accelerated_gradient 調降最小殘差值。

rate_annealing 最小學習率的值。

rate_decay 調整層與層之間的變化。

reproducible 重整資料。

rho 更新權重變數之一。

standardize 樣本集標準化。

stopping_metric 提前停止運算。

stopping_rounds stopping_metric 的收斂提前停止。

stopping_tolerance 停止度量標準。

train_samples_per_iteration 更新隨機坡度下降模型的數量。

use_local_random_seed 更改樣本抽樣規則。

參考來源：RapidMiner Documentation

在文檔中以資料探勘預測信用卡違約風險 (頁 61-68)

附錄一 模型參數說明