• 沒有找到結果。

第一章 緒論

1.2 研究目的

一篇報導流行疾病的新聞文章,內容中可能會陳述多種面向事實。舉例來說,

表 1.1 和 1.2 中分別為兩篇有關流行疾病登革熱的新聞文章,其中表 1.1 的新聞 中標陰影的四個句子中分別提到疫情面向或症狀面向的概要資訊。包括事實資訊 句欄位中的 S1「台北市衛生局今公布新增 1 例本土登革熱確診個案」與 S3「北 市共累計確診 79 例本土登革熱個案及 62 例境外移入個案」,這兩個句子在談論 疾病疫情面向。而 S2「本周三(12/2)出現發燒症狀至診所就醫」與 S4「提醒 若出現發燒、四肢痠痛、頭痛、後眼窩痛、肌肉痛、骨骼關節痛及皮膚紅疹等疑 似登革熱症狀」這兩個句子則屬於說明疾病症狀面向,其他句子則是病例的發病 細節描述及衛生局處置的說明。表 1.2 的文章中則有兩句提到疫情面向,包括:

事實資訊句欄位中 S5「臺北市內湖區於 11 月 24 日陸續發生入夏以來 3 例登革

表 1.1 流行疾病新聞文章 A1 之範例 新聞標題 北市新增 1 登革熱 患者發病前曾至南部出差

新聞內容 台北市衛生局今公布新增 1 例本土登革熱確診個案,個案為一 名居住於萬華區的 29 歲女子,上周五(11/27)至南部出差,

本周三(12/2)出現發燒症狀至診所就醫,但症狀未緩解,再 次至醫院採檢送驗,目前住院治療中,因女子有南部旅遊史,

故判定為本土登革熱個案,初步排除感染地為台北市。台北市 衛生局疾病管制處長陳少卿表示,今年至今,北市共累計確診 79 例本土登革熱個案及 62 例境外移入個案,衛生局接獲確診 訊息後,立即啟動登革熱緊急防治措施,針對本土個案居住地 及病毒血症期停留大於 2 小時的活動地及周邊半徑 100 公尺範 圍,進行病媒蚊密度調查及清除孳生源,持續監測個案及接觸 者狀況。陳少卿說,登革熱發病症狀及嚴重程度因人而異,有 些病例可能因症狀不明顯而未就醫,提醒若出現發燒、四肢痠 痛、頭痛、後眼窩痛、肌肉痛、骨骼關節痛及皮膚紅疹等疑似 登革熱症狀,應盡速就醫。(註)蘋果新聞

事實資訊句 S1. 台北市衛生局今公布新增 1 例本土登革熱確診個案 S2. 本周三(12/2)出現發燒症狀至診所就醫

S3. 北市共累計確診 79 例本土登革熱個案及 62 例境外移入個 案

S4. 提醒若出現發燒、四肢痠痛、頭痛、後眼窩痛、肌肉痛、

骨骼關節痛及皮膚紅疹等疑似登革熱症狀

表 1.2 流行疾病新聞文章 A2 之範例 2375-3782 或臺北市民當家熱線 1999。(註)EToday 新聞雲 事實資訊句 S5. 臺北市內湖區於 11 月 24 日陸續發生入夏以來 3 例登革熱

訪問內容等。由於在流行疾病新聞中,疫情面向與症狀面向事實通常是使用者們 最感興趣的資訊。因此,如何從新聞文章自動擷取出這些文字片段,為本論文研 究第一部分的工作。

此外,自動擷取出來的症狀面向事實中,可以區分為一般症狀描述與病例症 狀描述,例如表 1.1 中 S4「提醒若出現發燒、四肢痠痛、頭痛、後眼窩痛、肌 肉痛、骨骼關節痛及皮膚紅疹等疑似登革熱症狀」,屬於一般症狀的描述資訊,

S2「本周三(12/2)出現發燒症狀至診所就醫」,屬於病例症狀的描述資訊。通 常一般症狀的描述資訊可以透過網路查詢得知,因此,病例症狀的描述句才是流 行疾病新聞資訊中更為重要的部分,也是本論文認為需要擷取出來的重要事實。

而對一句包含疫情或症狀的事實文字片段進行結構化表示,取出句子中的主 詞、關聯詞以及描述詞,可表達出主要事實資訊,並作為自動建立知識庫的基礎。

例如表 1.1 中的句子 S1「台北市衛生局今公布新增 1 例本土登革熱確診個案」,

其主詞、關聯詞、描述詞分別為「台北市」、「新增」、「一例本土登革熱確診個案」, 可以組成一個三元詞組表達出事實資訊。若對表 1.1 及表 1.2 新聞中的疫情/病 例症狀面向事實句分別擷取出三元詞組,可結構化成如表 1.3 及 1.4 所示結果。

除了基本的三元詞組關係,在流行疾病的面向事實中,發生時間與地點資訊為疫 情事實與案例症狀描述的重要屬性,因此,面向事實句中若提到上述兩項重要資 訊,亦需要擷取出來。將面向事實句自動擷取出語意三元詞組,以結構化呈現如 表 1.3 和 1.4 之結果,為本論文第二部分的工作。

表 1.3 疫情面向事實句之結構化範例

相關文件