第四章 實驗與結果
第三節 文章作者意見辨識實驗
我們分析並擷取語料庫中屬於文章作者的特徵向量,目的為解決意見持有者 不以單詞或詞組形式出現的情況。主要可以分為詞彙相關資訊、詞性相關資訊、
標點符號相關資訊、具名實體相關資訊、句法相關資訊、意見詞資訊等六種特徵 值類別,其中詞彙相關資訊中的轉折詞、句法相關資訊中的複合句和被動語態為 本研究提出的做法,其他則為參考[22]之特徵值,表 3.3.1 列出文章作者意見辨 識使用的特徵值。
表3.3.1 文章作者意見辨識特徵值
特徵值類別 特徵值代號 特徵值說明
詞彙相關資訊
ifHasI 本句是否有 I 或 i ifHasWe 本句是否有 We 或 we
ifHasTransword 本句是否有轉折詞,例如 however 詞性相關資訊 ifHasPersPronoun 本句是否有人稱代名詞
標點符號相關資訊 ifHasQuotation 本句是否有雙引號,例如
【" "】、【「 」】或【“ ”】
具名實體相關資訊 ifHasPerson 本句是否有人名 ifHasOrganization 本句是否有組織名 句法相關資訊 isPassiveVoice 本句是否為被動語態
isCompoundSentence 本句是否為複合句
意見詞資訊 ifHasOperator 本句是否有某個指示動詞
˙詞彙相關資訊
我們以反向思考文章作者意見句,幾乎不會出現的詞彙,例如:「I」和「we」,
在新聞語料庫裡,「I」和「we」常伴隨著某個意見持有者候選詞出現,因此不會 有無法標記出單詞或詞組,視為文章作者意見句的情況發生,如以下例句:
例句3.3.1:"In June 2014, when I announced my bid for reelection as New Taipei mayor, I promised the city's 4 million people that I would serve well and complete my full term," he said.
在例句3.3.1 中,以代名詞「he」指代到前面的「I」。
例句3.3.2:"I am sincerely grateful to all of the legislative members for their guidance and support, " Su said during a post press conference in the morning.
在例句3.3.2 中,以單詞人名「Su」代表前面的「I」。
假設出現「I」和「we」這兩個字彙,幾乎可以判定不為文章作者,但不考 慮「me」和「us」的情況,因為這樣就像是站在報導人物的角度去敘說新聞,
並不會以這種奇怪的方式撰寫新聞。使用「I」和「we」搭配雙引號的方式,足 以表達某意見持有人的說法,如以下例句3.3.3, 3.3.4 及 3.3.5 所示。為了增加訓
練可靠度,因此將詞彙相關資訊的權重列成兩項特徵。
例句3.3.3:"We hope to end cross-strait hostility, " Chu said, calling on both sides of the strait to create a win-win situation that benefits the people.
上句中以單詞人名「Chu」代表前面的「We」。
例句3.3.4:"We encourage both sides to continue their constructive dialogue on the basis of dignity and respect," Sonia Urbom, spokesperson of the American Institute in Taiwan said Wednesday.
上句以詞組人名「Sonia Urbom」代表前面的「We」。
例句3.3.5:Trudeau said "we look forward to discussing a wide range of issues with him, just as we did with Democratic Progressive Party candidate Tsai Ing-wen in June."
例句3.3.5 以單詞人名「Trudeau」代表前面的「We」。
將詞彙相關資訊中的轉折詞列為特徵的動機如下:經由觀察訓練集所得到的 標記,我們將標記為文章作者意見句加以分析,發現新聞撰寫的用字會顯示作者 的情感表達,文章作者意見句經常帶有轉折語氣的字眼,我們將標記為文章作者 意見的句子,並收集這些共同重複出現的詞,從而得到表 3.3.2,這些都是透過 文本情感分析步驟所得到的主觀性句子,如:however、as a result、in addition to、
whether…等為轉折詞。具有轉折詞的文章作者意見例句如:To a political party, however, there cannot be a common goal without unity, and without unity it is impossible to win people's support.
表3.3.2 文章作者意見轉折語氣詞彙表 表達文章作者意見的轉折語氣詞彙
單字詞
although、but、currently、despite、especially、furthermore、frankly、
first、finally、however、instead、meanwhile、nevertheless、
otherwise、whenever、yet、previously、similarly、second、therefore、
unless、whether、while、whatever
雙字詞
according to、as to、as for、but if、even though、even if、for now、
most importantly、so that、so if、such as 三字詞 as a result、in addition to、in other words
三字詞以上 as a matter of fact、for a long time、in the long run、on the other hand
˙詞性相關資訊
擷取除了「I」和「we」的人稱代名詞,也考慮人稱代名詞為受格的情形,
如:「him」、「her」、「them」等,人稱代名詞的使用讓意見句為文章作者的機會 增大,總是代表前面被提及的名詞實體,因此包含人稱代名詞的意見句極有可能 是以作者角度去撰寫的句子,雖然人稱代名詞的出現也有可能指代為某一意見持 有者,此項特徵值與具名實體特徵有著關聯性。
˙標點符號相關資訊
英語新聞文章的撰寫方式,讓我們可以很確切的認定,附有雙引號內的句子 為某意見持有者所表達的意見,引號的出現幾乎可以排除本句不為文章作者意見 句,而能夠在引號附近的位置找到代表意見持有者的單詞或詞組,此特徵幫助我 們找出引號附近的意見持有者,能夠減少標記錯誤的意見持有者候選詞。
˙具名實體相關資訊
只考慮人名和組織名,而不考慮地名,因為此階段目的為判斷是否為文章作 者,假如專注於地名對整體辨識率並沒有幫助。假設一個句子中出現人名或組織 名,則表示此句極有可能為包含意見持有者的意見句,進一步排除為文章作者意
見的可能性,並考量地名不常被當作意見持有者,因此也是去除此特徵的一大重 要原因。
˙句法相關資訊
被動語態特徵值,可用以檢視是否為作者意見,因為以站在文章作者角度而 撰寫的意見句子,常常使用was/were + verb + by、is/are + being verb + by…等語 法,這些例句的動詞都是:助動詞+過去分詞,或加上介系詞 by,這是被動語 態的基本結構,以例句3.3.6 所示。
例句3.3.6:An analysis of viewpoints expressed by expatriates in Taiwan shows they have little difficulty settling in, while two thirds enjoy immersing themselves in Taiwan's rich culture.
被動語態表示,且標記為文章作者意見,少有能夠做為意見持有者候選詞的 實體。
例句3.3.7:At Qingshui District, Taichung, the residents of Haibinli village were infuriated by certain company’s careless and inconsiderate waste dumping in early November.
在例句3.3.7 中,雖然不同的標記者可能會將「the residents」視為意見持有 者,但本句更像是作者的角度描寫,詳細地述說事件發生時間和地區與意見主題
「waste dumping」,且有被動語態表示,且標記為文章作者意見。但是也並非所 有被動語態均為文章作者意見,如下例:
例句3.3.8:An analysis of viewpoints expressed by expatriates in Taiwan shows they have little difficulty settling in, while two thirds enjoy immersing themselves in Taiwan's rich culture.
在上例句中,使用被動語態表示,且無標記出意見持有者的文章作者意見句。
我們定義複合句為包含一個子句以上的句子,兩個子句之間以逗號劃分,目 的在於有效地擷取文章作者意見句。我們觀察到文章作者意見句的表示通常為簡 短的一句話,因此包含的意見持有者候選詞也較少。
˙意見詞資訊
包含我們從訓練資料集收集的 112 個指示動詞或稱謂語動詞(Predicate Verb) 關鍵字,統計所有訓練集中潛在意見句的意見持有者所支配動詞的頻率,藉此來 決定一個句子中的何項動詞做為該句的指示動詞,希望了解文章作者發表意見時
,是否常使用特定的動詞關鍵字,例如:「say」、「express」、「add」等,英語新 聞常用的動詞是「say」,通常以一般過去時式出現,即「said」。
當同一則新聞中出現多次的動詞「say」或「said」時,可以選用其他的詞,
以避免單調,例如:「claim/state 聲稱」、「call/ appeal 呼籲」、「add 補充」等。表 3.3.3 列出一些經常可以用來替代 say 的動詞,它們在含意和用法上存在著些微差 emphasize 強調 exclaim 驚嘆 brainstorm 集思廣益 condemn 譴責