• 沒有找到結果。

第四章 實驗與結果

第三節 文章作者意見辨識實驗

我們分析並擷取語料庫中屬於文章作者的特徵向量,目的為解決意見持有者 不以單詞或詞組形式出現的情況。主要可以分為詞彙相關資訊、詞性相關資訊、

標點符號相關資訊、具名實體相關資訊、句法相關資訊、意見詞資訊等六種特徵 值類別,其中詞彙相關資訊中的轉折詞、句法相關資訊中的複合句和被動語態為 本研究提出的做法,其他則為參考[22]之特徵值,表 3.3.1 列出文章作者意見辨 識使用的特徵值。

表3.3.1 文章作者意見辨識特徵值

特徵值類別 特徵值代號 特徵值說明

詞彙相關資訊

ifHasI 本句是否有 I 或 i ifHasWe 本句是否有 We 或 we

ifHasTransword 本句是否有轉折詞,例如 however 詞性相關資訊 ifHasPersPronoun 本句是否有人稱代名詞

標點符號相關資訊 ifHasQuotation 本句是否有雙引號,例如

【" "】、【「 」】或【“ ”】

具名實體相關資訊 ifHasPerson 本句是否有人名 ifHasOrganization 本句是否有組織名 句法相關資訊 isPassiveVoice 本句是否為被動語態

isCompoundSentence 本句是否為複合句

意見詞資訊 ifHasOperator 本句是否有某個指示動詞

˙詞彙相關資訊

我們以反向思考文章作者意見句,幾乎不會出現的詞彙,例如:「I」和「we」,

在新聞語料庫裡,「I」和「we」常伴隨著某個意見持有者候選詞出現,因此不會 有無法標記出單詞或詞組,視為文章作者意見句的情況發生,如以下例句:

例句3.3.1:"In June 2014, when I announced my bid for reelection as New Taipei mayor, I promised the city's 4 million people that I would serve well and complete my full term," he said.

在例句3.3.1 中,以代名詞「he」指代到前面的「I」。

例句3.3.2:"I am sincerely grateful to all of the legislative members for their guidance and support, " Su said during a post press conference in the morning.

在例句3.3.2 中,以單詞人名「Su」代表前面的「I」。

假設出現「I」和「we」這兩個字彙,幾乎可以判定不為文章作者,但不考 慮「me」和「us」的情況,因為這樣就像是站在報導人物的角度去敘說新聞,

並不會以這種奇怪的方式撰寫新聞。使用「I」和「we」搭配雙引號的方式,足 以表達某意見持有人的說法,如以下例句3.3.3, 3.3.4 及 3.3.5 所示。為了增加訓

練可靠度,因此將詞彙相關資訊的權重列成兩項特徵。

例句3.3.3:"We hope to end cross-strait hostility, " Chu said, calling on both sides of the strait to create a win-win situation that benefits the people.

上句中以單詞人名「Chu」代表前面的「We」。

例句3.3.4:"We encourage both sides to continue their constructive dialogue on the basis of dignity and respect," Sonia Urbom, spokesperson of the American Institute in Taiwan said Wednesday.

上句以詞組人名「Sonia Urbom」代表前面的「We」。

例句3.3.5:Trudeau said "we look forward to discussing a wide range of issues with him, just as we did with Democratic Progressive Party candidate Tsai Ing-wen in June."

例句3.3.5 以單詞人名「Trudeau」代表前面的「We」。

將詞彙相關資訊中的轉折詞列為特徵的動機如下:經由觀察訓練集所得到的 標記,我們將標記為文章作者意見句加以分析,發現新聞撰寫的用字會顯示作者 的情感表達,文章作者意見句經常帶有轉折語氣的字眼,我們將標記為文章作者 意見的句子,並收集這些共同重複出現的詞,從而得到表 3.3.2,這些都是透過 文本情感分析步驟所得到的主觀性句子,如:however、as a result、in addition to、

whether…等為轉折詞。具有轉折詞的文章作者意見例句如:To a political party, however, there cannot be a common goal without unity, and without unity it is impossible to win people's support.

表3.3.2 文章作者意見轉折語氣詞彙表 表達文章作者意見的轉折語氣詞彙

單字詞

although、but、currently、despite、especially、furthermore、frankly、

first、finally、however、instead、meanwhile、nevertheless、

otherwise、whenever、yet、previously、similarly、second、therefore、

unless、whether、while、whatever

雙字詞

according to、as to、as for、but if、even though、even if、for now、

most importantly、so that、so if、such as 三字詞 as a result、in addition to、in other words

三字詞以上 as a matter of fact、for a long time、in the long run、on the other hand

˙詞性相關資訊

擷取除了「I」和「we」的人稱代名詞,也考慮人稱代名詞為受格的情形,

如:「him」、「her」、「them」等,人稱代名詞的使用讓意見句為文章作者的機會 增大,總是代表前面被提及的名詞實體,因此包含人稱代名詞的意見句極有可能 是以作者角度去撰寫的句子,雖然人稱代名詞的出現也有可能指代為某一意見持 有者,此項特徵值與具名實體特徵有著關聯性。

˙標點符號相關資訊

英語新聞文章的撰寫方式,讓我們可以很確切的認定,附有雙引號內的句子 為某意見持有者所表達的意見,引號的出現幾乎可以排除本句不為文章作者意見 句,而能夠在引號附近的位置找到代表意見持有者的單詞或詞組,此特徵幫助我 們找出引號附近的意見持有者,能夠減少標記錯誤的意見持有者候選詞。

˙具名實體相關資訊

只考慮人名和組織名,而不考慮地名,因為此階段目的為判斷是否為文章作 者,假如專注於地名對整體辨識率並沒有幫助。假設一個句子中出現人名或組織 名,則表示此句極有可能為包含意見持有者的意見句,進一步排除為文章作者意

見的可能性,並考量地名不常被當作意見持有者,因此也是去除此特徵的一大重 要原因。

˙句法相關資訊

被動語態特徵值,可用以檢視是否為作者意見,因為以站在文章作者角度而 撰寫的意見句子,常常使用was/were + verb + by、is/are + being verb + by…等語 法,這些例句的動詞都是:助動詞+過去分詞,或加上介系詞 by,這是被動語 態的基本結構,以例句3.3.6 所示。

例句3.3.6:An analysis of viewpoints expressed by expatriates in Taiwan shows they have little difficulty settling in, while two thirds enjoy immersing themselves in Taiwan's rich culture.

被動語態表示,且標記為文章作者意見,少有能夠做為意見持有者候選詞的 實體。

例句3.3.7:At Qingshui District, Taichung, the residents of Haibinli village were infuriated by certain company’s careless and inconsiderate waste dumping in early November.

在例句3.3.7 中,雖然不同的標記者可能會將「the residents」視為意見持有 者,但本句更像是作者的角度描寫,詳細地述說事件發生時間和地區與意見主題

「waste dumping」,且有被動語態表示,且標記為文章作者意見。但是也並非所 有被動語態均為文章作者意見,如下例:

例句3.3.8:An analysis of viewpoints expressed by expatriates in Taiwan shows they have little difficulty settling in, while two thirds enjoy immersing themselves in Taiwan's rich culture.

在上例句中,使用被動語態表示,且無標記出意見持有者的文章作者意見句。

我們定義複合句為包含一個子句以上的句子,兩個子句之間以逗號劃分,目 的在於有效地擷取文章作者意見句。我們觀察到文章作者意見句的表示通常為簡 短的一句話,因此包含的意見持有者候選詞也較少。

˙意見詞資訊

包含我們從訓練資料集收集的 112 個指示動詞或稱謂語動詞(Predicate Verb) 關鍵字,統計所有訓練集中潛在意見句的意見持有者所支配動詞的頻率,藉此來 決定一個句子中的何項動詞做為該句的指示動詞,希望了解文章作者發表意見時

,是否常使用特定的動詞關鍵字,例如:「say」、「express」、「add」等,英語新 聞常用的動詞是「say」,通常以一般過去時式出現,即「said」。

當同一則新聞中出現多次的動詞「say」或「said」時,可以選用其他的詞,

以避免單調,例如:「claim/state 聲稱」、「call/ appeal 呼籲」、「add 補充」等。表 3.3.3 列出一些經常可以用來替代 say 的動詞,它們在含意和用法上存在著些微差 emphasize 強調 exclaim 驚嘆 brainstorm 集思廣益 condemn 譴責

相關文件