• 沒有找到結果。

資訊萃取技術在生物醫學文獻上的應用與探討(I)

N/A
N/A
Protected

Academic year: 2021

Share "資訊萃取技術在生物醫學文獻上的應用與探討(I)"

Copied!
19
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 期中進度報告

資訊萃取技術在生物醫學文獻上的應用與探討(1/2)

計畫類別: 個別型計畫 計畫編號: NSC93-2213-E-009-074- 執行期間: 93 年 08 月 01 日至 94 年 07 月 31 日 執行單位: 國立交通大學資訊科學學系(所) 計畫主持人: 梁婷 計畫參與人員: 吳典松、施並格、林裕祥、王怡嘉、龔自良、黃立泓、蘇傳堯、 施曉茹 報告類型: 精簡報告 報告附件: 出席國際會議研究心得報告及發表論文 處理方式: 本計畫可公開查詢

中 華 民 國 94 年 5 月 20 日

(2)

行政院國家科學委員會補助專題研究計畫

□ 成 果 報 告

ˇ期中進度報告

資 訊 萃 取 技 術 在 生 物 醫 學 文 獻 上 的 應 用 與 探 討 (1/2)

計畫類別:ˇ個別型計畫 □ 整合型計畫

計畫編號:NSC 93-2213-E-009 -074 -

執行期間: 93 年 8 月 1 日至 94 年 7 月 31 日

計畫主持人:梁 婷 副教授

共同主持人:

計畫參與人員:吳典松、施並格、林裕祥、王怡嘉、龔自良、黃立泓、

蘇傳堯、施曉茹

成果報告類型(依經費核定清單規定繳交):ˇ精簡報告 □完整報告

本成果報告包括以下應繳交之附件:

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式:除產學合作研究計畫、提升產業技術及人才培育研究計畫、

列管計畫及下列情形者外,得立即公開查詢

□涉及專利或其他智慧財產權,□一年□二年後可公開查詢

執行單位:國立交通大學資訊科學學系

中 華 民 國 94 年 5 月 20 日

(3)

資 訊 萃 取 技 術 在 生 物 醫 學 文 獻 上 的 應 用 與 探 討 (1/2)

在 本 計 畫 中 我 們 開 發 有 效 實 用 的 自 然 語 言 處 理 技 術 和 文 件 探 勘 技 術,進 而 建 製 一 個 可 應 用 在 生 物 文 獻 的 自 動 資 訊 萃 取 系 統 。 主 要 的 工 作 包 括 生 物 實 體 名 稱 辨 識 、 名 稱 指 代 處理、關 係 的 辨 識 與 萃 取。我 們 結 合 法 則 式 和 統 計 式 的 方 法 來 強 化 實 體 名 稱 辨 識 的 效 能。此 外 我 們 利 用 文 件 探 勘 技 術 來 解 決 語 句 中 指 式 型 指 代 間 題。同 時 我 們 也 探 討 生 物 訊 息 和 非 生 物 訊 息 在 實 體 關 係 的 辨 識 和 強 度 計 算 上 的 影 響 力,並 利 用 探 勘 技 術 建 立 關 聯 法 則 以 處 理 存 在 於 語 句 中 的 實 体 關 係 的 語 言 問 題 。 關 鍵 詞 : 自 然 語 言 處 理、資 訊 萃 取、文 件 探 勘、實 體 名 稱 、 指 代 處理、關 係 辨 識

(4)

II

英文摘要

Information Extraction In Biomedical Domain (1/2)

We p ro pos e to dev elop an effi ci ent in form atio n ex traction s yst em us eful fo r bio medi cal lit erat ure b y usin g n at ural l an gu age pro cessi n g an d t ex tual minin g t echni q ues . This s yst em will mainl y ad dres s t he task s su ch as n am ed entit y i denti fi cati on, an aph ora res olut ion , rel atio n id enti fi cati on an d ex tractio n. We will empl o y b oth st atisti cal and lin guis tic mo d els fo r n am ed entit ies id entificati o n. W e will us e tex tu al m inin g t o deal wi th thos e s ortal an aph ora p ro bl ems. M eanwhil e, th e propo s ed rel ati on reco gniti on mech anism will t ak e int o accou nt bot h t he biom edi cal in fo rm ati on en cod ed in t he ex istin g d atabases as well as th e in fo rm ation d i rectl y m in ed from t h e lit eratu re. Besid es the pro blems ass oci at ed with t h e lin guist ic v ari eti es wil l b e t ackl ed by using the proposed association rules.

Keywo rds : natu ral language processi ng, textual mining,

info rm atio n ex tracti on, named entit y id enti fi cation , an ap ho ra resolution, relation identification.

(5)

資 訊 萃 取 技 術 在 生 物 醫 學 文 獻 上 的 應 用 與 探 討

一、前言 近 年 生 物 醫 學 研 究 蓬 勃 發 展 , 相 關 文 獻 快 速 累 積 。 例 如 以 果 蠅 資 料 庫 參 考 文 獻 而 言 在 近 一 百 年 間 (1900-2000) 几 乎 是 呈 指 數 型 的 增 長 。 如 此 增 長 的 速 度 對 從 事 研 究 者 而 言 , 要 能 在 浩 瀚 的 資 料 中 全 備 追 蹤 掌 握 相 關 研 究 資 訊 是 一 項 不 容 易 的 事 情 。 另 一 方 面 , 多 數 的 生 物 資 料 庫 如 Protein Information Resource (P IR), SWISS-PROT, Database of In t eractin g Proteins (D IP), Mol ecul ar IN Teracti on d at ab as e (M INT )…等 多 仰 賴 生 物 醫 學 專 家 閱 讀 論 文,再 將 其 中 重 要 研 究 發 現 和 結 果,萃 取、 整 理 、 儲 存 到 結 構 化 資 料 庫 中 。 然 而 毫 無 疑 問 地 , 這 種 人 工 精 心 打 造 的 知 識 庫 , 其 建 立 、 更 新 與 資 訊 正 確 性 (integrit y)的 檢 查 , 實 在 是 一 件 耗 時 耗 力 的 工 作 。 因 此 極 需 資 訊 萃 取 工 具 的 開 發 來 協 助 生 物 專 家 , 以 加 速 生 物 知 識 的 萃 取 和 管 理 。 這 種 資 訊 萃 取 系 統 的 建 立 無 疑 地 將 可 促 進 資 訊 的 整 合 、 交 流 和 更 新 , 甚 至 帶 來 生 物 醫 學 技 術 的 突 破 。 二 、 研 究 目 的 本 計 劃 將 探 討 兩 個 議 題 分 別 是 萃 取 技 術 的 研 發 和 問 答 系 統 的 製 作 將 分 兩 年 來 進 行。在 本 年 度 我 們 將 開 發 有 效 實 用 的 自 然 語 言 處 理 技 術 和 文 件 探 勘 技 術,進 而 建 製 一 個 可 應 用 在 生 物 文 獻 的 自 動 資 訊 萃 取 系 統。主 要 的 工 作 將 包 括 生 物 實 體 名 稱 和 關 係 的 辨 識 與 擷 取。我 們 相 信 此 計 畫 的 執 行 不 僅 有 助 於 生 物 學 家 的 知 識 擷 取 和 整 理,進 而 促 進 生 物 研 究 的 新 發 現,同 時 亦 有 益 於 實 用 的 資 訊 萃 取 技 術 的 發 展,以 應 用 於 其 它 領 域 的 知 識 庫 建 構 的 自 動 化 。

(6)

2 三 、 文 獻 探 討 近 年 資 訊 萃 取 主 要 的 議 題 分 別 在 生 物 實 體 名 稱 和 實 體 之 間 的 關 係 辨 識 與 擷 取 。 在 實 體 名 稱 的 辨 識 上 如 同 新 聞 語 料 中 所 面 臨 的 挑 戰 包 括 詞 界 、 新 詞 、 命 名 的 不 規 則 與 不 一 致 性 、 語 義 的 多 樣 性 、 省 略 詞 彙 、 縮 寫 、 指 代 現 象 處 理 等 問 題 。 由 於 名 稱 的 組 成 往 往 包 含 了 兩 個 以 上 的 詞 , 是 以 詞 界 辨 識 的 問 題 在 名 稱 分 類 前 需 先 予 以 解 決 。 目 前 名 稱 的 辨 識 有 專 注 於 單 類 實 體 如 蛋 白 質 名 稱 到 多 種 類 實 體 的 辨 識 。 使 用 的 技 術 可 分 為 兩 種 。 第 一 種 是 利 用 實 體 名 稱 的 組 成 成 分 以 人 工 歸 納 的 法 則 作 為 辨 識 基 礎 。 一 般 而 言 這 種 方 法 相 較 於 統 計 法 可 以 達 到 較 高 的 正 確 率 , 然 而 手 建 的 規 則 需 要 專 家 知 識 的 輔 助 , 故 缺 乏 擴 充 性 (scalabilit y)和 可 移 植 性 (portabilit y)。 目 前 這 方 面 系 統 有 蛋 白 質 名 稱 的辨識工 具 KeX [Fukuda et al., ‘98] 和 Yapex [Olsson et al., ‘02]。在[Hou and Chen, ‘03]的文章中 Hou and Chen 則交叉利用這兩個系統結果和篩選法則來提高 蛋白質名稱的辨識率。

第 二 種 方 法 是 應 用 統 計 模 組 進 行 辨 識 , 如 Hidden Markov Model [Collier et al., ’00; Shen et al., ‘03], Maximum Estimation [Nobata et al., ’99; Kazama et al., ’01; Chieu and Ng, ‘03], Support Vector Machine [Kazama et al., ’02; Takeuchi and Collier, ’03; Yamanoto et al., ‘03], Naïve Bayes [Tsuruoka and Tsujii, ‘03]等等.。 然 而 此 種 機 器 學 習 為 主 的 辨 識 需 要 大 量 的 標 記 好 的 語 料 以 達 到 可 接 受 的 成 效 。 依 據 IdentiFinder S ystem 的 結 果 分 析 顯 示 新 聞 語 料 中 其 名 稱 辨 識 結 果 與 訓 練 語 料 量 成 對 數 (log)的 增 長 。 因 此 對 機 器 學 習 的 方 法 首 要 的 挑 戰 之 一 包 括 如 何 簡 易 地 產 生 足 夠 量 的 訓 練 語 料 。 目 前 廣 為 所 用 的 已 標 記 語 料 有 Bio1,它 包 含 有 100 篇 標 記 好 的 Medline 摘 要 以 及 所 用 的 taxonom y 是 由 Tateishi et al. 於 2000 年 所 建 的 和 GENIA project 的 GENIA corpus。

在 生 物 實 體 名 稱 邊 界 的 判 定 上 有 以 辭 典 作 比 對 或 使 用 BIO(Beginnin g/ In side/Outsi de of a named entit y) (或 其 變 異 體 如 BIO1, B IO2, IOE1, IOE2 )的 表 示 方 法 , 將 名 稱 邊 界 辨 識 問 題 轉 換 成 分 類 的 問 題 。 此 外 多 數 的 統 計 式 辨 識 方 法 的 成 效 (SVM 方 法 較 與 特 徵 無 關 )亦 有 賴 於 特 徵 的 挑 選 [Kazama et al., ‘02]。使用的特徵包括 Part-Of-Speech, Surface, Cue Word, Morphological, Contextual features。 目 前 的 結 果 在 實 體 名 稱 的 分 類 中 , 對 單 一 和 多 種 實 體 名 稱 分 類 上 , 以 GENIA 3.0 Corpus 所 做 的 實 驗 而 言,大 約 可 分 別 達 到 70%和 66%左 右 的 F-Score [Shen et al., ’03; Tsuruoka and Tsujii et al., ‘03]。這樣的結果相較於一般語料(如新聞語料中)的實 體 名 稱 辨 識 率 可 達 90%以 上 的 F-score,生 物 醫 學 的 實 體 名 稱 辨 識 技 術 仍 有 努 力 的 空 間 。 至 於 生 物 實 體 之 間 關 係 的 辨 識 與 抽 取 的 挑 戰 性 在 於 句 型 語 意 表 示 方 法 的 多 樣 性 和 關 係 存 在 的 複 雜 度 , 諸 如 肯 定 關 係 、 否 定 關 係 、 未 定 關 係、隱 藏 關 係、歧 異 關 係 的 確 認。再 者 生 物 文 件 中,如 Genia Corpus, 單 句 所 含 的 生 物 實 體 平 均 數 有 5.28 個。因 此 實 體 之 間 的 單 一 或 多 重 關 係 的 處 理 需 要 進 一 步 的 辨 識 。 在 關 係 辨 識 部 分 , 目 前 多 著 重 在 兩個生物實體間關 係 的 存 在 與 否 。 因 此 可利用統計式的方法,來進 行 大 量 的 辨 識 處 理。例如 Carven 與 Kumlien [‘99] 使用 Navie Bayes classification 技術將 關係辨識轉為 單 一 句 子 的 分 類 工 作 以進行蛋白質的子細胞位置及其子細胞結構之自動辨識。Stephens et al. [‘01] 利用傳統的詞頻加權技術,來計算基因之間關係的強度,做為判讀關 係 的 存 在 與 否 。此外在[Ding et al. ‘02]的文章中也討論到關係的存在與兩實體在文章中距 離有關,距離越近,關係辨識的正確率越高,但召回率越低。一般而言,統計式

(7)

方法因缺少語法的分析,所以無法界定實體在關係之間的角色,同時統計式方法 的辨識成效也有賴於語料庫收集的完備 與 否 。

目前多數關 係 萃取取 系統多 倚 賴 語 法 剖 析 器 的 協 助 和 主 要 動 詞 為 主 的 語 法 模 型 比 對 來進行。如早期 Blaschke et al. [‘99 ] 使用些許手動建立的規 則,半自動的辨識兩蛋白質間的交互作用。Sekimizu et al. [‘98] 利用在 Medline 摘要中的常見動詞,辨識基因與基因產物間的交互作用。Proux et al. [‘00] 以 finite-state machine 為基礎的語言工具和知識概念圖,自動地從 Flybase 的 1200 個 句子中,萃取出基因的交互作用。Yakushiji et al. [‘00] 使用 full parser,以輔助生 物事件萃取。Ono et al. [‘01] 使用蛋白質詞彙、提示詞、以及簡單的詞性標記, 萃取出兩蛋白質間的交互作用。雖然這個方法得到高於 80%的召回率、精確率, 但交互作用只限於少許的關鍵詞。 至於跨語句的關係萃取則有賴於指代現象的處理機制。在[Castano et al. ‘02] 考量名詞片語的相似性,語意類別,語法角色做為先行詞的挑選依據。Hahn et al. [‘02] 則定義所謂的 ”Center Lists”,將每一個名詞依據一些特徵往前找尋最相關 名詞。[Gaizauskas et al. ‘03] 使用事先定義的語意法則,藉以串聯語句之間的生物 實體,處理同指現象。上述大部分的方法都只在少量的文章作實驗且多侷限於簡 單關係的萃取。對於單、多句子隱含的多重關係,事實上,仍需進一步的探勘處 理技術,方能有效的解析出來。 二十一世紀可以說是資訊網路與生物科技產業的世紀,其中生物科技又被譽 為希望工程,許多學術研究機構莫不積極發展。近 幾 年 中 , 我 們 也 在 本 校 的 跨 系 所 的 重 點 計 劃 推 動 下 , 應 用 資 訊 擷 取 技 術 建 立 一 個 整 合 型 的 網 路 微 生 物 文 獻 自 動 化 處 理 和 查 詢 系 統 [Liang, et al. 03]。 此 外 我 們 也 初 步 探 討 資 訊 萃取在 實 體 名 稱 和 關 係 辨 識 上 的 應用,包 括 利 用 機 器 學 習 方 法 製 作 一 個 無 需 辭 典 協 助 的 生 物 實 體 名 稱 辨 識 與 分 類 工 具 Bio-tagger Versi on 1[Chen, ‘03]。 此 標 記 工 具 可 處 理 省 略 詞 彙 還 原 , 並 可 進 行 多 種 生 物 實 體 名 稱 辨 識 (Protein、DNA、RNA、 Source 和 其 他 生 物 體 名 稱 ), 在 GENIA 3.01 Corpus 的 實 驗 上 整 體 名 稱 辨 識 和 分 類 的 F-Score 分 別 達 到 69%和 60%,與 一 般 knowledge-poor 的 方 法 相 當。此 外 我們也提出一 個權重式 Navie Bayes 分類模型對單句中肯 定 、 否 定 、 未 定 關 係 進 行 辨識, 再以 pattern rules 作多重關係的萃取 [You, 2003]。然而如同多數前述所提到的資 訊萃取系統,在這些初步的辨識和萃取方法設計上,我們在使用生物方面的領域 知識的研究上仍有待努力。因此在本計畫中我們將加強這方面的能力,希望結合 文件探勘技術探勘出存在於資料庫中的生物訊息,以強化並驗證我們所提的資訊 萃取系統和生物知識問答系統。 四、

研究方法

在 本 年 度 我 們 開 發 有 效 實 用 的 自 然 語 言 處 理 技 術 和 文 件 探 勘 技 術 , 進 而 建 製 一 個 可 應 用 在 生 物 文 獻 的 自 動 資 訊 萃 取 系 統 。 主 要 的 工 作 將 包 括 生 物 實 體 名 稱 和 關 係 的 辨 識 與 擷 取 及 實 體 名 稱 指 代 處理。 有別於多人使用的 GENIA 3.01 語料,其所涵蓋的範圍較廣泛,在本計畫中, 我們以 SWISS-Prot 資料庫的參考文獻收集成為訓練語料。由於這是蛋白質相關資 訊的語料,對於蛋白質名稱的辨識和關係的資訊探勘上將有較丰富的資訊以達到 較高正確的辨識率。另外我們也收集、整合各生物實體名稱,及蛋白質之間的關 係,做為日後的實体與關係的比對、檢驗用。文章前置處理包括斷句處理和斷詞 處理。我們用 Sentence Splitter 來處理斷句部分。斷詞處理是使用 Penn Treebank tokenization。我們修改這兩個前置處理工具以適合所使用的語料。

實 體 名 稱 辨 識 處理

有 別 多 數 實 體 名 稱 辨 識 系 統 中 几 乎 都 沒 有 處 理 到 詞 彙 省 略 和 變 異 現 象 ,我 們 發現這個問題在建構一個實際有效的名 稱 辨 識 器 上 仍 有 其 探 討

(8)

4 的 必 要 性 。 以 GENIA 3.01 Corpus 而 言 , 人 工 標 記 的 省 略 詞 就 有 1,595 個 ,略可分成四種不同的型式。 因 此 在 這 本 計 畫 中 我 們 改良先前建構的省略 回復處理器,利 用 詞 群 技 術 以 導 引 自 動 機 的 途 徑 以提升其正確率。就文獻探 討,我們是第一位有提出解決 coordination variants 現象的研究。我們改良我 們之前所設計的方法加入了詞群的機制以導引辨識器途徑,F-score 可提升 12%。 此外針對常見的縮寫現 象,我們利用法則並以 Park and Byrd [‘01] 所提的策略來 決定 window size,以辨識縮寫和原型,F-score 可達 93%。

另一方面從前 述 的文獻研究中,我們也發現法則式或統計式的辨 識 處理都各 有其優缺點。因 此 在 本 計 劃 中 我 們以混合式的策略來建構實體名詞辨識器。其 中規則式的部分我們使用先前所開發適用於生物醫學文獻的 HMM-based POS tagger (目前此 tagger 在 GENIA 3.02p 對 65 種標記可達到 94%的正確率) 來做詞 性標記,並利用文件探勘技術探勘出文獻庫中實体名稱的組成詞段模型,以產生 候選實體名稱。在統計式的部分,我們改良之前所設計的 HMM-based 的辨識器, 加入從 SWISS-Prot corpus 中所探勘出耒的蛋白質各生物屬性之重要資訊,以得到 候選實體名稱。我們將利用收集到的實体名稱建立所需的標記訓練語料耒訓練所 建的辨識器。我們再合併從法則式和統計式辨 識 中 所 得 到 的 候選實體名稱,並 藉由篩選機制進行最後的檢驗。在沒有 dictionary 輔助下,我們的 F-score 可達 76% 與現今有 dictionary 輔助的結果接近。 實 體 名 稱 指 代 處理 文句中的指代現象處理是自動辨識實 體 關係的重要一環。因此除 了 加 以 修 改 先 前 所 設 計 的 虛 詞 和 代 名 詞 的 指 代 處 理 模 組 [Liang and Wu, ‘03], 使 之 適 用 於 生 物 醫 學 語 料 處 理 。 在 本 計 畫 當 中 , 我 們 還 將 加 強 指 示 型 指 代 處 理 模 組 , 以建構一個概念式的指代還原器,有效處理跨語句的關係萃 取。此指 示 型 指 代 處 理 模 組 將 利 用 指代詞和先行詞之間的語意標記訊息和詞 彙共現等特徵的一致性作挑選依據。同時我們也進一步藉助探勘技術來萃取出指 代詞的概念功能詞 (如酵素, receptor 之於蛋白質),以有效找出先行詞和指代詞的 配對,進而達到 UMLS 中生物概念的分類自動擴充。這方面困難度在於有此標記 的訓練語料很少。目前我們借助專家手工標記的 Medtract Corpus 整理出的先行詞 和指代詞的配對及從 PubMed 所得的 patterns 建立關連法則。所提的方法在指代 詞指代消解,F-score 可達 92%;在名詞指代消解,F-score 可達 78%。 實 體 關 係 辨 識 與 萃 取 如前所述大多數的實 體 關 係 辨 識 到 目 前 為 止 都 僅 限 於 少 量 的 語 句 測 驗 並 且 很 少 用 到 生 物 實 体 屬 性 訊 息 。 因 此 在本計劃中我們嚐試從已知的部 份實 體 關 係 (以 DIP 資 料 庫 中 有 關 果 蠅 的 部 份 ), 利 用 SWISS-Prot 所 存 的 生 物 語 意 資 訊 (如 是 否 出 自 同一個生物、具有相近的功能表現、••等), 以強化我們所提的辨 識 機 置 。 我 們 以 蛋 白質的交互關 係 為 主 要 處 理 項 目 , 再 擴 展 到 其 它 關 連 的 辨 識 。 利 用 部 份 具 闊 係 的 蛋 白 質 配 對 做 為 搜 尋 詞 組 進 行 對 所 整 理 出 的 SWISS-Prot 語 料 做 文 件 探 勘,以 取 出 可 用 的 關 係 辨 識 訊 息 並 藉 此 產 生 可 用 的 標 記 訓 練 語 料。在 關係確認的 處 理 上,除 了 利 用 生 物 資 料 庫 如 SWISS-Prot database 所 探 勘 到 的 生 物 語 意 資 訊,我 們 也 考 量 耒 自 文 獻 中 所 探 勘 到 的 非 生 物 訊 息 (如 距 離、頻 率、共 現 率•• 等 )和 語 言 的 訊 息 ( 如 否 定 訊 息 、 語 法 角 色 、 與動詞關係、 相 鄰 詞 • • 等 )。 對於同義詞組我們將事先予以群集以增強關係的辨 識 程度。我 們 分 別 以 統 計 式 的 模 組 和 權 重 計 算 耒 探 討 不 同 的 特 徵 在 已 知 的 關 係 辦 識 上 的 影 響 力 , 最 後 再 另 拿 部 份 的 關 連 做 測 試 以 檢驗我們的辨 識 機 置 。

(9)

計劃成果自評

本 計 畫 中 , 我 們 開 發 有 效 實 用 的 自 然 語 言 處 理 技 術 和 文 件 探 勘 技 術 , 進 而 建 製 一 個 可 應 用 在 生 物 文 獻 的 自 動 資 訊 萃 取 系 統。目 前 完成的工作 項目及成果如下: 1. 相關語料和相關資料庫整合 2. 訓練語料標記程序建構: 我們建立一個新的標記語料庫 SRC 較之一般所用 的 GENIA Corpus ( 束 京 大 學 所 建 ) 更 適 合 作 為 Protein 文 獻 探 勘 技 術 的 evaluation corpus. 3. 適用於生物文獻的詞類標記器建構:正確率可達 94%. 4. 省 略 回 復 處 理 器 建 構 : 就 文 獻 探 討 , 我 們 是 第 一 位 有 提 出 解 決 coordination variants 現象的研究。我們改良我們之前所設計的方法加 入了詞群的機制以導引辨識器途徑,F-score 可提升 12% 5. 混合式實 體 名 稱 辨 識 器建構: 在沒有 dictionary 輔助下,我們的 F-score 可達 76% 與現今有 dictionary 輔助的結果接近。 6. 實 體 名 稱 指 代 處理器建構: 我們處理虛 詞 、 代 名 詞 和指 示 型 指 代 消 解及縮寫。所提的方法較之以往的方法在相同的測試語料下可達較高的 F-score. 7. 實 體 關 係 探 勘 器 和 辨 識 器建構: 生 物 語 意 特 徵 和 生 物 語 意 特 徵 探 勘 。尚 未 完 成 的 部 份 為 關係處理上關 係 強 度 權 重 計 算 分 析 ,預 計 七 月 底 前 應 可 完 成 。 目 前 完成計劃的成果包括完成三篇相關碩士論文 (參考文獻 1, 2, 3),和三 篇會議論文(4, 5, 6)。其中一篇如附件將於六月在西班牙第 10 屆 International Conference on Application of Natural Languages to Database Systems 發表。 另兩篇亦在 16th 計算語言學會議發表。

參考文獻

1. Ping-ke ShiH, 2004, “Automatic Protein Entities Recognition from PubMed Corpus”, Master Thesis, National Chiao Tung University.

2. Yu-Hsiang Lin, 2004, “Coreference Resolution in Biomedical Literature,” Master Thesis, National Chiao Tung University.

3. Yi-Chia Wang, 2004,“Web-based Unsupervised Learning to Query Formulation for Question Answering,” Master Thesis, National Chiao Tung University.

4. Tyne Liang and Ping-ke Shih, 2005, “Empirical Textual Mining to Protein Entities Recognition From PubMed Corpus,” NLDB 2005, Lecture Notes in Computer Science, 3513, pp. 56-66.

5. Yu-Hsiang Lin and Tyne Liang, 2004, Pronominal and Sortal Anaphora Resolution for Biomedical Literature, Proceedings of ROCLING XVI, Taipei, Taiwan, pp. 101-110.

6. Yi-Chia Wang, Jian-Cheng Wu, Tyne Liang, and Jason S. Chang, 2004, Using the Web as Corpus for Unsupervised Learning in Question Answering, Proceedings of ROCLING XVI, Taipei, Taiwan, pp. 191-198.

(10)
(11)
(12)
(13)
(14)
(15)
(16)
(17)
(18)
(19)

參考文獻

相關文件

Menou, M.著(2002)。《在國家資訊通訊技術政策中的資訊素養:遺漏的層 面,資訊文化》 (Information Literacy in National Information and Communications Technology (ICT)

õT¤_ .â·<íËju, Data Access Component Module 2FíŠ?. âÀÓ“, ©ø_ method úk’eé query v,

 培養具有檔案學基礎知識與文化知識,掌握現代資訊技術的基 本技能,能在檔案館、國家機關和企事業單位的檔案機構、資

Natural Terrain Landslide Risk Mitigation Measures at Yu Tung Road, Tung Chung.. Natural Terrain Landslide Risk Mitigation Measures at Yu Tung Road,

資料來源:吳楚文 菩提道上:2004 年至 2005 年佛法活用徵文比賽得獎作品

數學桌遊用品 數學、資訊 聲音的表演藝術 英文、日文、多媒體 生活科技好好玩 物理、化學、生物、資訊 記錄片探索 英文、公民、多媒體 高分子好好玩 物理、化學、生物

4.選修學分至少須修習 40 學分,其中「第二外國語文」、「藝術與人 文」 、 「生活、科技與資訊」 、 「健康與休閒」 、 「全民國防教育」 、

張庭瑄 華夏技術學院 數位媒體設計系 廖怡安 華夏技術學院 化妝品應用系 胡智發 華夏技術學院 資訊工程系 李志明 華夏技術學院 電子工程系 李柏叡 德霖技術學院