• 沒有找到結果。

的關係 與景氣的關

4.3.6 轉職預測

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.28 轉出比例受出口值影響的相關係數分析表

轉出比例 & 出口值 相關係數 排名

住宿/餐飲服務業 0.8229 1

一般服務業 0.8089 2

醫療保健及環境衛生業 0.8079 3

批發/零售/傳直銷業 0.7790 4

運輸物流及倉儲 0.7766 5

由表4.28 可以觀察出,轉出比例受出口值影響最高的五個產業,分別是住宿

/餐飲服務業、一般服務業、醫療保健及環境衛生業、批發/零售/傳直銷業和運輸物 流及倉儲。

 

4.3.6 轉職預測

轉職預測的目的是希望分析轉職者的經歷資料,期望用相關的資料探勘技術 試圖找出轉職者的特質,讓轉職者看自己條件會不會轉職成功,也讓求才的雇主 與人資能看出轉職頻率高的轉職者大概都有哪些共同的特質。

本實驗將採用ID3、J48、Naïve Bayesian Classifier、Logistic Regression、

Random Forest、AdaBoost、Support Vector Machines 等方法分別建立模型並測試 準確率。由表4.29 和表 4.30 中可以看出類別的資料差距非常大,所以訓練資料 先利用SMOTE 方法使訓練資料 balance 後,再針對產業大類:電子資訊/軟體

/半導體相關業和產業中類:軟體及網路相關業分別實驗,並依3 個月內離職和 一年內轉職達3 次的資料比較是否有差異。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.29 實驗資料筆數統計-職務大類:電子資訊/軟體/半導體相關業

是否短期離職 樣本總數 待不滿3 個月 比例 待超過3 個月 比例 求職(不限職類) 556,280 33,669 6.05 % 522,611 93.95 % 求職(資訊職類) 67,667 3,224 4.76 % 64,443 95.24 %

是否經常轉職 樣本總數 一年轉職

3 次或更多 比例 一年轉職

不到3 次 比例 求才(不限職類) 556,280 24,484 4.40 % 531,796 95.60 %

表 4.30 實驗資料筆數統計-職務中類:軟體及網路相關業

是否短期離職 樣本總數 待不滿3 個月 比例 待超過3 個月 比例 求職(不限職類) 117,450 6,233 5.31 % 111,217 94.69 % 求職(資訊職類) 42,952 2,063 4.80 % 40,889 95.20 %

是否經常轉職 樣本總數 一年轉職

3 次或更多 比例 一年轉職

不到3 次 比例 求才(不限職類) 117,450 5,629 4.80 % 111,821 95.20 %

表 4.31 則是針對求職者做轉職預測且不限定職類所定義的 Feature Extraction,

主要是用來判斷求職者是否能轉職成功,且不會在任職新公司後不到三個月就又 立即離職。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.31 Feature Extraction for 求職者(不限職類)

編號 屬性 欄位名稱

1 generation 轉職者出生於哪個世代:30 年代 ~ 90 年代

2 sex 轉職者性別:1=男、0=女

3 age 轉職者轉職時的當時年齡

4 stay_month 轉職者在轉職前所在公司的任職時間(月) 5 seniority 轉職者累計的年資(月)

6 degree 轉職者已畢業的最高學歷

7 major 轉職者已畢業的最高學歷所屬科系

8 profession1 轉出的舊工作是否與畢業本科系相關 9 profession2 轉入的新工作是否與畢業本科系相關

10 job1 轉職者在舊公司所屬的工作職類(大類)

11 job2 轉職者在新公司所屬的工作職類(大類)

12 similar_job 轉職者新舊兩工作是否為相同職類(大類) 13 job_M1 轉職者在舊公司所屬的工作職類(中類) 14 job_M2 轉職者在新公司所屬的工作職類(中類) 15 similar_job_M 轉職者新舊兩工作是否為相同職類(中類) 16 similar_industry 轉職者新舊兩工作是否為相同產業(大類) 17 size1 轉職者舊公司的規模:1=小、2=中、3=大 18 size2 轉職者新公司的規模:1=小、2=中、3=大 19 trans_size 轉職者新舊兩公司的規模轉變

20 class 轉職者是否短期任職:3 個月內離職

表4.32 則是針對求職者做轉職預測且限定資訊職類所定義的 Feature Extraction;跟表 4.31 不同的地方是,既然已經限定為資訊職類,所以將原本的 job1(轉職者在舊公司所屬的工作職類(大類)移除,只保留原本的 job2 代表資訊職 類的轉職者,轉職之後到新公司都是從事哪些職類,並且將job2 改名為 target_job 讓名稱較為直覺。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.32 Feature Extraction for 求職者(資訊職類)

編號 屬性 欄位名稱

1 generation 轉職者出生於哪個世代:30 年代 ~ 90 年代

2 sex 轉職者性別:1=男、0=女

3 age 轉職者轉職時的當時年齡

4 stay_month 轉職者在轉職前所在公司的任職時間(月) 5 seniority 轉職者累計的年資(月)

6 degree 轉職者已畢業的最高學歷

7 major 轉職者已畢業的最高學歷所屬科系

8 profession1 轉出的舊工作是否與畢業本科系相關 9 profession2 轉入的新工作是否與畢業本科系相關 11 target_job 轉職者在新公司所屬的工作職類(大類) 13 job_M1 轉職者在舊公司所屬的工作職類(中類) 14 job_M2 轉職者在新公司所屬的工作職類(中類) 15 similar_job_M 轉職者新舊兩工作是否為相同職類(中類) 16 similar_industry 轉職者新舊兩工作是否為相同產業(大類) 17 size1 轉職者舊公司的規模:1=小、2=中、3=大 18 size2 轉職者新公司的規模:1=小、2=中、3=大 19 trans_size 轉職者新舊兩公司的規模轉變

20 class 轉職者是否短期任職:3 個月內離職

接下來我們將針對產業大類:電子資訊/軟體/半導體相關業和產業中類:

軟體及網路相關業這兩個產業做轉職預測的實驗,實驗的訓練資料與測試資料分 配如下,首先先實驗1967~2013 年的資料為訓練資料,也同時為測試資料;然後 再用1967~2009 為訓練資料,2010~2013 為測試資料;最後再使用 5-fold cross validation 的方式取得分類結果。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

 電子資訊/軟體/半導體相關業(大類):

1. 1967~2013 年資料為 Training,對應 1967~2013 年為 Test 2. 1967~2009 年資料為 Training,對應 2010~2013 年為 Test 3. 1967~2009 佔 86.67 %,2010~2013 佔 13.33 %

4. 利用 5-fold cross validation

 軟體及網路相關業(中類)

1. 1967~2013 年資料為 Training,對應 1967~2013 年為 Test 2. 1967~2009 年資料為 Training,對應 2010~2013 年為 Test 3. 1967~2009 佔 89.22 %,2010~2013 佔 10.78 %

4. 利用 5-fold cross validation

本實驗是利用公開的資料探勘工作平臺WEKA(Waikato Environment for Knowledge Analysis)[15]進行資料探勘,WEKA 是一個由 JAVA 語言所撰寫而成,

功能強大的機器學習及資料探勘免費軟體,集合了大量資料探勘任務的機器學習 演算法,包括對資料進行預處理、分類、回歸、分群、關聯規則,並且也提供導 入使用者自己撰寫的演算法進入軟體中使用[16]。WEKA 已得到了學術領域廣泛 的認可,在第11 屆 ACM SIGKDD 國際會議上獲了資料探勘與知識探索的最高 服務獎,被譽為資料探勘和機器學習歷史上的里程碑,是現今最完備的資料探勘 工具之一,本研究主要利用WEKA 圖形化介面,即 WEKA Explorer 來做分析,

藉此了解在各分類方法下,其分類結果之準確率。

aïve Bayes

Logistic ndom Forest Adaboost 7~2013 train 7~2013 91.0803 % 63.3043 % 66.6629 % 93.9110 % 62.8619 % 68.8455 %

出三種實驗

~2013 為訓練 用J48 的分

EKA Explor

or 求職者& 67~2009 tra 10~2013

72.7753 % 54.7433 % 55.5400 % 75.4162 % 59.2135 % 62.5730 %

是Random 為測試資料的

準確率也可 面

大類&不限 aining

test

Forest 的分 的情況下,

可以達到90 限職類

5-fold cross valid 87.2337 dation 7 %

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.34 轉職預測結果 for 求職者&資訊產業大類&資訊職類 求職(資訊職類) 1967~2013 training

1967~2013 test

1967~2009 training 2010~2013 test

5-fold cross validation J48 88.7648 % 73.6988 % 85.0843 % Naïve Bayes 64.2684 % 53.6372 % 64.2836 % Logistic 67.1530 % 57.1677 % 67.5660 % Random Forest 91.6002 % 77.0239 % 87.7632 % Adaboost 62.1849 % 58.1313 % 62.4191 % SVM 69.6613 % 62.3647 % 69.2270 %

由表4.33 與表 4.34 比較,可以看出表 4.34 的實驗把職類大類限定在資訊軟 體系統類,但準確率卻沒有比不限定職類來的高,而且用J48 和 Random Forest 分類方法所得到的準確率,都下降2%左右。

表 4.35 轉職預測結果 for 求職者&軟體產業中類&不限職類 求職(不限職類) 1967~2013 training

1967~2013 test

1967~2009 training 2010~2013 test

5-fold cross validation J48 91.3153 % 75.3574 % 87.4868 % Naïve Bayes 64.7031 % 55.2958 % 64.5912 % Logistic 67.9803 % 58.4235 % 68.3330 % Random Forest 94.4938 % 78.8958 % 90.4942 % Adaboost 63.2691 % 60.6192 % 62.9998 % SVM 71.0683 % 64.6157 % 70.6573 %

由上表4.35 可以看出三種實驗結果,都是 Random Forest 的分類方法可以得 出最高的準確率,1967~2013 為訓練資料也為測試資料的情況下,準確率可以高 達91.6002%;其次則是用 J48 的分類方法,準確率也可以達到 88.7648%。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.36 J48 轉職分類符合條件表 for 求職者&軟體產業中類&不限職類

分類結果 符合條件

337 筆符合條件 329 筆分類正確

80 年代 & 男性 & 學歷大學 & 商業及管理學科 &

新舊職類中類皆為:客戶服務類 & 新舊公司皆為:30~500 人 227 筆符合條件

220 筆分類正確

80 年代 & 男性 & 學歷大學 & 數學及電算機科學 &

轉職同產業(大類)& 新舊職類大類:資訊軟體系統類 &

新舊公司皆為:30~500 人 & 舊公司任職不到 3 個月 220 筆符合條件

213 筆分類正確

80 年代 & 年齡 25~29 & 男性 & 學歷大學 & 商業及管理學科 &

新舊職類中類:業務銷售類 & 舊公司規模:30 人小公司 268 筆符合條件

258 筆分類正確 90 年代 & 舊公司規模:30 人小公司 309 筆符合條件

295 筆分類正確

70 年代 & 男性 & 商業及管理學科 & 累計年資小於等於 3 個月 &

新舊職類中類:軟體/工程類 & 新公司規模:30 人小公司

由上表4.36 的 J48 分析結果來看,在軟體產業中、不限制職類的這個條件 下,對於轉職者是否會在3 個月內離職,這邊列出了 5 個符合條件的分類規則。

以第一條規則為例,共有337 筆轉職資料符合條件,並且其中有 329 筆分類正確,

由此可以得知:屬於80 年代的轉職者,最高學歷為大學學歷,畢業於商業及管 理學科相關學系,新舊任職的職類中類都屬於客戶服務類,且新舊公司的規模都屬於 30~500 人的中型企業,符合這樣條件的轉職者,有很高的機會在到職新公司後,3 個月 內就會立即離職。

表 4.37 轉職預測結果 for 求職者&軟體產業中類&資訊職類 求職(資訊職類) 1967~2013 training

1967~2103 test

1967~2009 training 2010~2013 test

5-fold cross validation J48 87.8074 % 73.6194 % 84.9777 % Naïve Bayes 65.7402 % 55.8877 % 65.7063 % Logistic 68.9378 % 60.0867 % 68.2274 % Random Forest 90.0727 % 75.9699 % 86.9629 % Adaboost 63.7834 % 47.9761 % 63.7928 % SVM 70.4467 % 65.6093 % 69.9379 %

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

由表4.35 與表 4.37 做比較,可以看出表 4.37 的實驗把職類大類限定在資訊 軟體系統類,但準確率卻沒有比不限定職類來的高,而且用J48 和 Random Forest 分類方法所得到的準確率,都下滑超過4%左右。

表 4.38 J48 轉職分類符合條件表 for 求職者&軟體產業中類&資訊職類

分類結果 符合條件

223 筆符合條件 213 筆分類正確

70 年代 & 男性 & 商業及管理學科 & 年資大於 2 年 &

舊職類中類:軟體/工程類 & 新職類中類:行政/總務類 227 筆符合條件

220 筆分類正確

80 年代 & 男性 & 學歷大學 & 數學及電算機科學 &

轉職同產業(大類)& 舊公司:30~500 人 & 舊公司任職不到 3 個月 578 筆符合條件

497 筆分類正確

80 年代 & 年齡 25~29 & 男性 & 學歷碩士 & 數學及電算機科學 &

轉職同產業(大類)& 年資大於 2 年 & 新職類中類:軟體/工程類 406 筆符合條件

346 筆分類正確

80 年代 & 男性 & 學歷大學 & 商業及管理學科 & 年資 4~12 月 轉職同產業(大類)& 新舊職類中類:軟體/工程類 & 小轉小 423 筆符合條件

339 筆分類正確

70 年代 & 年齡 25~29 & 男性 & 學歷專科 & 商業及管理學科 &

年資大於2 年 & 新舊職類中類:軟體/工程類 & 舊公司:30~500 人

由上表的J48 分析結果來看,在軟體產業中、限制資訊職類的這個條件下,

對於轉職者是否會在3 個月內離職,這邊列出了 5 個符合條件的分類規則。比例 最高的狀況為上表4.38 中第一種情況,共有 223 筆符合右邊條件,213 筆分類正 確;此種分類分對的條件為:70 年代、男性、畢業於商業及管理學科,工作年資 大於2 年,舊工作的職類中類為軟體工程類,新工作的職類中類為行政總務類,符合 以上條件的轉職者最容易發生3 個月內離職的情況。

相關文件