針對獨立訓練

第四章病歷紀錄特徵向量學習與預測

4.2 預測模型

4.2.1 針對獨立訓練

若使用的特徵不只一種時，由多個獨立訓練模型會產生多個疾病診斷碼向量表示法，因此必須先將這些向量表示法進行整合後再進行預測。

圖 4.3 獨立訓練與整合模型架構圖

如圖 4.3 所示，本論文設計了三種整合上述獨立訓練所得向量表示法的方式，

以下我們將分別介紹這三種整合方式：

1. 直接接合(Concatenation)

𝒙

_𝑖,𝑐

𝒗

_𝑖,𝑐

𝒗

_𝑖,𝑡

𝒗

_𝑖,𝑎

𝒗

_𝑖,𝑙

𝒗

_𝑖,𝑝

𝒗

_𝑖,𝑑

𝒉

_𝑖

𝒖

_𝑖

𝒙

_𝑖+1,𝑐

𝒗

_𝑖,𝑔

35

利用各特徵訓練模型獨立學習出不同的疾病診斷碼向量表示法後，我們以圖

4.4 所示方式進行接合。當採用所有 7 個向量表示法的時候，接合後的向量長度為 𝑑_𝑒× 7；若只採用部分特徵，例如 Code-Code 與 Code-Time 學習的向量表示法，則如圖 4.5 所示，接合後的向量長度為𝑑_𝑒× 2。

圖 4.4 整合模型之「直接接合」，以 7 個特徵全部使用為例

圖 4.5 「直接接合」的向量表示法接合方式，以採用特徵 Code 與 Code-Time 所得之向量表示法為例

如圖所示 4.4 的 Concatenation Layer，並採用以下方式產生整合結果𝒉_𝑡，關係式如公式 3：

𝒗

_𝑖,𝑐

𝒗

_𝑖,𝑡

𝒗

_𝑖,𝑎

𝒗

_𝑖,𝑙

𝒗

_𝑖,𝑝

𝒗

_𝑖,𝑑

𝒉

_𝑖

𝒗

_𝑖,𝑔

𝒗

_{𝑖,𝑐𝑜𝑛𝑐𝑎𝑡}

𝒗

_𝑖,𝑐

𝒗

_𝑖,𝑡

𝒗

_𝑖,𝑐

𝒗

𝑖,𝑡

𝒗

_{𝑖,𝑐𝑜𝑛𝑐𝑎𝑡}

=

36

𝒉_𝑖 = ReLU(𝒗_{𝑖,𝑐𝑜𝑛𝑐𝑎𝑡}𝑾_ℎ+ 𝒃_ℎ), 𝑾_ℎ ∈ ℝ^(𝑒^𝑐^×𝑁^𝑓^)×𝑑^ℎ (公式 3) 若只有使用 1 個特徵學習出的向量表示法，則沒有𝒗_{𝑖,𝑐𝑜𝑛𝑐𝑎𝑡}，直接以預先訓練的向量表示法當作𝒉_𝑖。

2. 以權重合成(Combination of Weights, CoW)

第二種方式是由加權值來整合獨立訓練所得向量表示法。如圖 4.6 與公式 10 所示，我們對各向量表示法都學習出一個權重，代表該對應特徵向量表示法的組合比重，也就是圖 4.6 中的所有 𝛼 (𝛼_𝑐、𝛼_𝑡、𝛼_𝑎等參數)，再將其與對應向量表示法相乘後相加得到𝒉_𝑖，如公式 4 所示。

圖 4.6 整合模型之「以權重合成」，以 7 個特徵全部使用為例

𝒉_𝑖 = 𝛼_𝑐𝒗_𝑖,𝑐+ 𝛼_𝑡𝒗_𝑖,𝑡+ 𝛼_𝑎𝒗_𝑖,𝑎 + 𝛼_𝑙𝒗_𝑖,𝑙 + 𝛼_𝑔𝒗_𝑖,𝑔+ 𝛼_𝑝𝒗_𝑖,𝑝 + 𝛼_𝑑𝒗_𝑖,𝑑 (公式 4)

𝒗

𝑖,𝑐

𝒗

𝑖,𝑡

𝒗

𝑖,𝑎

𝒗

𝑖,𝑙

𝒗

_𝑖,𝑔

𝒗

_𝑖,𝑝

𝛼

_𝑐

𝛼

_𝑡

𝛼

_𝑎

𝛼

_𝑙

𝛼

𝑔

𝛼

𝑝

* * * * * *

𝒉

_𝑖

𝛼

_𝑑

𝒗

𝑖,𝑑

37

其中 Ensemble Parameters (調和權重參數值)方面，將多種由不同特徵所額的的疾病診斷碼向量表示法透過預測模型學習出一個調和權重值，再將這些調和權重採用 Softmax 使其總和為 1。(𝛼_𝑐、𝛼_𝑡、𝛼_𝑎、𝛼_𝑙、𝛼_𝑔、𝛼_𝑝及𝛼_𝑑為經由 Softmax 計算之後的調和權重值)

3. 注意力機制 (Attention)

第三種方式是透過注意力機制(Attention Mechanism)，學習出各獨立訓練所得特徵向量表示法的相對重要性。

如圖 4.7 所示，𝒗_𝑖代表各為不同的疾病診斷碼向量表示法所組成的矩陣，其會先透過權重(𝑾_𝑄、𝑾_𝐾、𝑾_𝑉)投影計算出 Query (Q)、Key (K)及 Value (V)，其維 度分別為𝑑_𝑘、𝑑_𝑘、𝑑_𝑣，如公式 5。𝒁_𝑖表示由 Q 及 K 算出以各向量為基準計算相 互重要性加總 Value (V) 得到的向量矩陣，維度為𝑁_𝑓× 𝑑_𝑣。

𝑄 = 𝒗_𝑖𝑾^𝑄, 𝐾 = 𝒗_𝑖𝑾^𝐾, 𝑉 = 𝒗_𝑖𝑾^𝑉,

where 𝑾^𝑄 ∈ ℝ^𝑑^𝑒^×𝑑^𝑘, 𝑾^𝐾 ∈ ℝ^𝑑^𝑒^×𝑑^𝑘, 𝑾^𝑉 ∈ ℝ^𝑑^𝑒^×𝑑^𝑣. 𝒁_𝑖 = Attention(𝑄, 𝐾, 𝑉) = Softmax(^𝑄𝐾^𝑇

√𝑑𝑘)𝑉. (公式 5)

38

圖 4.7 整合模型之「注意力機制」以產生權重參數值之架構圖

當𝒁_𝑖產生之後，我們使用一層平坦層(Flatten Layer)以產生整合後的結果向量 𝒉_𝑖，再透過兩層全連接層的學習，以得到預期的輸出，也就是下一筆看診的疾病

𝒗_𝑖 =

𝒁

_𝑖

× 𝑾

_𝑄

× 𝑾

_𝐾

× 𝑾

_𝑉

𝒗

_𝑖,𝑐^𝑇

𝒗

_𝑖,𝛿^𝑇

𝒗

_𝑖,𝑎^𝑇

𝒗

_𝑖,𝑙^𝑇

𝒗

_𝑖,𝑑^𝑇

𝒗

_𝑖,𝑝^𝑇

𝒗

_𝑖,𝑔^𝑇

𝒉

𝑖

39

診斷碼𝒙_𝑖+1,𝑐分布機率值。兩層全連接層的說明如下：

 第一層為隱藏層(從𝒉_𝑖到𝒖_𝑖)，將維度從𝑁_𝑓× 𝑑_𝑣投影到𝑑_𝑢，以 ReLU 為激

活函數。

 第二層為輸出層(從𝒖_𝑖到𝒙_𝑖+1,𝑐)，用來做最後的預測，其激活函數為

Softmax。

訓練時的損失函數採用 Categorical Cross Entropy。

在文檔中以異質關係進行疾病診斷碼表示法學習之研究 (頁 43-48)

第四章 病歷紀錄特徵向量學習與預測

4.2 預測模型

4.2.1 針對獨立訓練

𝒙

𝒗

𝒗

𝒗

𝒗

𝒗

𝒗

𝒉

𝒖

𝒙

𝒗

35

𝒗

𝒗

𝒗

𝒗

𝒗

𝒗

𝒉

𝒗

𝒗

𝒗

𝒗

𝒗

𝒗

𝒗

=

36

𝒗

𝒗

𝒗

𝒗

𝒗

𝒗

𝛼

𝛼

𝛼

𝛼

𝛼

𝛼

𝒉

𝛼

𝒗

37

38

𝒁

× 𝑾

× 𝑾

× 𝑾

𝒗

𝒗

𝒗

𝒗

𝒗

𝒗

𝒗

𝒉

39

第四章病歷紀錄特徵向量學習與預測