第四章 實驗過程語實驗結果
第四節 錯誤分析
可以從實驗數據中發現,文章 22529981 相較於其他文章 precision 低了 6%以 上,原因在於這篇文章中除了有許多沒有辦法辨識的基因外,還有許多的文字是 敘述實驗過程所使用的藥品、溶劑或是化學的專有名詞,這些東西在實驗所使用 的 GDep 剖析器(GENIA Dependency parser)中是沒有辦法辨識的,所以這一類的 指代問題並沒有辦法有效的進行指代消解,如圖 13 為文章 22529981 中的 170 到 172 句,所敘述的事情是細胞的孵育必頇使用 DNA-calcium 加速培養,清洗兩次 Dulbecco 改良 Eagle 的培養基並使用 7 毫升的 DMEM 進行培養。經過 24 小時以 後,收集這些培養基並將這些細胞一樣用 24 小時及使用 7 毫升的 DMEM 進行培
41
養。匯集這些培養基,將它們用 0.45 微米的過濾器過濾,將其等分成 2 毫升,儲 存在零下 80 度。
Cells were incubated overnight with DNA-calcium precipitates, washed twice with Dulbecco's modified Eagle's medium (DMEM, Invitrogen) and incubated with 7 mL of DMEM .
After 24 h, the conditioned medium was harvested and cells were incubated a second time with 7 mL of DMEM for 24 h .
Media were then pooled, passed through 0 .45 µm filter, and stored at −80°C as 2 mL aliquots until use .
圖 13:文章 22529981 中的句子片段
為了找出發生錯誤的原因,可以觀察在 170 到 172 這段句子中,可以使用候 選先行詞的句子為第 168 句到 174 句,由下圖可以發現這段句子中的 170 到 172 句,GDep 並沒有標記出任何基因名稱,所以沒有候選先行詞可以選擇,所以這 段句子中的指代詞只能指代到其他句子中並不相干的候選先行詞,並沒有辦法進 行指代消解。
圖 14:文章 22529981 中 168 到 174 句中的名詞片語
42
另外,從實驗數據中也可以發現文章 22523685 的 Recall 與 Precision 相比下 降了 15%,而其他文章只下降了 3%-4%,可以發現文章 22523685 的名詞片語總 數為 573 個,而由系統辨識需要進行指代消解的指代詞為 461 個,相差了 112 個,
經由觀察指代結果(如圖 15 所示,箭頭符號左邊為指代詞和所在的句子位置,箭 頭符號右邊為先行詞及所在的句子位置)文件發現,因為距離特徵取絕對值小於 3 以內的句子,所以從第 9 句到第 18 句,這 9 個句子之間的指代詞並沒有候選先 行詞可以使用,表示在文章 22523685 中經常出現在指代詞附近沒有任何的候選 先行詞可以選擇,所以造成了文章 22523685 的 Recall 值相較於其他文章來的低,
所以距離特徵對於 Recall 值的影響是很大的,這也表示 Precision 和 Recall 值的選 擇很難取得平衡,如果選擇數值較大的距離特徵則 Recall 值變大 Precision 值變小,
相反的,選擇數值較小的距離特徵則 Recall 值變小,Precision 值變大。
圖 15:文章 22523685 指代結果
43
除了上述所討論的 GDep 沒辦法辨識藥品、溶劑或是化學的專有名詞以外,
最主要造成 Precision 沒有辦法提高的原因,在於生物資訊領域辨識生物基因的剖 析器並沒辦法達到很高的效能,如第三章的表 1 所示,GDep 在辨識這些生物基 因的 Precision 只有 67%,這將造成在生物醫學文獻上進行指代消解的阻礙。
44