• 沒有找到結果。

第三章 研究方法

第四節 意見持有者辨識

在意見持有者辨識階段,我們擷取新的特徵向量集,建立另一個訓練模型,

再將測試資料輸入訓練好的模型,判斷句子中的某個候選詞是否為代表意見持有 者的詞彙,針對意見持有者為單詞或詞組的形式出現,目的為從序列標記中,能 夠正確標示出意見持有者實體名稱。意見持有者與表達的意見形式,從句子組成 的結構上,大致可分成五類,意見持有者結合短語的表達方式,短語又可分為動 詞短語、形容詞短語、副詞短語等形式,而我們著重在動詞短語的處理,藉此標 記初步的意見持有者代表詞,如表3.4.1 所示。

表3.4.1 意見表達形式範例 holder say ... 意見持有者+意見表達句

holder told(to) reporter ... 意見持有者+介詞短語+意見表達句 holder commend people ... 意見持有者+動詞短語+意見表達句 holder said happily ... 意見持有者+副詞短語+意見表達句 holder not agree ... 意見持有者+否定副詞短語+意見表達句

經過文章作者意見句辨識作業後,過濾掉不具有意見持有者的意見句,為了 重新建立新的模型,我們分析並擷取語料庫中屬於意見持有者代表詞的特徵向量

,目的為辨識出意見持有者以單詞或詞組形式出現的情況,把每一句中的名詞實 體依照特徵值進行模型訓練。主要可以分為詞性相關資訊、詞彙相關資訊、具名 實體相關資訊、文句組成相關資訊、標點符號相關資訊等五種特徵值類別,其中 詞彙相關資訊中的前後文是否出現過、文句組成相關資訊中是否靠近指示動詞和 是否靠近連接詞、標點符號相關資訊中是否靠近逗號為本研究提出的做法,其他 則參考[22]提出的特徵值,表 3.4.2 列出意見持有者辨識使用的特徵值。

表3.4.2 意見持有者辨識特徵值 isOrganization 本詞是否為組織名 isCareer 本詞是否為職稱詞 文句組成相關資訊

isNearStartOrEnd 本詞是否靠近句首或句尾 25%

isNearOperator 本詞是否靠近指示動詞三個字距 isNearConjunction 本詞是否靠近連接詞三個字距 標點符號相關資訊 isNearComma 本詞是否靠近逗號三個字距

isNearQuotation 本詞是否靠近引號三個字距

˙詞性相關資訊

例句3.4.1:"It was no surprise that selling in these two major DRAM stocks emerged soon after the local equity market opened today," Ta Ching Securities Investment Consulting analyst Eric Lai said.

例句 3.4.1:"這不足為奇,在本地股市今日開盤後,這兩個主要的 DRAM 庫存 銷售很快上升",大慶證券投資諮詢公司分析師 Eric Lai 說。

如例句3.4.1,文中清楚地交代提供消息的人是 Eric Lai,毫不含糊的指名道 姓。第二種如例句3.4.2:Whales can become stranded for many reasons, including illness, injury, weather conditions, and sonar disruption of their ability to communicate with others in their pod, according to marine experts.

例句 3.4.2:根據海洋專家報導,鯨魚擱淺有很多的原因,包括疾病、受傷、天

事實上,由於新聞報導中經常遇到提供消息人士不願透露姓名的情況,或有 時候根本無需具體指出提供消息的人,所以記者常採用這種略帶含糊的方法表示 消息來源。本研究之後將結合定冠詞、形容詞補語、頭銜名稱詞等進行詞組修復 動作,將這些代表詞標記為更完整的意見持有者的單詞或詞組,詞組修復將於後 置處理程序章節討論。

˙文句組成相關資訊

在文句組成相關資訊部分,特徵值考慮某詞是否靠近句首或句尾、指示動詞 和連接詞,我們發現意見持有者經常出現在句首或句尾的地方,本論文定義句首 和句尾的範圍為整句全部實體的前後四分之一部分。假設只分為兩部分,是毫無 意義的劃分,分成五個部分以上,則是擷取中心實體的做法,本研究並無此運用,

因此將句子劃分成四等份,嚴格判定前後整數個實體個數的距離。

指示動詞的位置一般接近名詞實體、逗號、冒號和雙引號,我們原先擷取靠 近指示動詞四分之一句子距離內的名詞實體,但分類結果過度偏移(Bias),使得 分類結果只趨近某一類,所以改為三個實體距離範圍內的名詞。其他設定的原因,

意見持有者常以冠詞+形容詞+名詞的組合形式,名詞包含人名、組織名、職稱 名,例如:職稱名+人名,「analyst Alex Huang」、「Mayor Ko Wen-je」,人名又包 含幾種表示,只有姓氏「Huang」、「Chen」,姓氏+英文名字「Eric Chu」、「James Soong」,完整中文音譯姓名「Ma Ying-jeou」、「Tsai Ing-wen」。本研究制定新增 的特徵值擷取規則:

規則(五) :只考慮屬於名詞、代名詞和人稱代名詞的實體。

規則(六) :從原本四分之一句長的實體距離,改為指示動詞左右兩邊各三個實 體距離。

規則(七):基於規則六的名詞實體個數,假設超過整句名詞實體總數量的一半,

則刪除不屬於具名實體相關資訊特徵的名詞實體(即人名、地名、組織名及職稱 名)。

但離指示動詞太遠的實體,可能造成抓不到代表意見持有者的候選詞,此問 題本研究提出短語擴展方法解決,將在下一節詳述,如例句3.4.3 和 3.4.4:

例句3.4.3:Holding a similar upbeat attitude, Chang Chih-yuan, secretary general of the Allied Association for Science Park Industries, said that he is delighted by the announcement of the Ma-Xi meeting and hopes that Ma will bring back good news after meeting with Xi.

例句3.4.4:DPP Legislator Chao Tien-lin , who serves as the director of the DPP's China affairs department, said Ma should be clear on whether he has made any concessions on cross-Taiwan Strait relations.

連接詞有很多種類,我們採取以下兩類和名詞比較相關的連接詞,一種是對 等連接詞,例如:「and」、「but」、「or」、「nor」、「for」、「so」、「yet」。對等連接 詞(Coordinate Conjunction)是用來連接句子中的字、片語或子句。這種連接詞所 連接的兩端必須是對等的;「字」和「字」、「片語」和「片語」或「子句」和「子 句」,例如例句3.4.5:Tsai and Chu accused each other of having made unpractical promises about the issues during their respective visits to the US last year. 其中 Tsai 和Chu 是字,and 是對等連接詞。

另一種是相關連接詞,例如: 「either… or」、「neither… nor」、 「both … and 」、「with」。相關連接詞(Correlative Conjunctions)與對等連接詞類似,也是用 來連接兩端對等的元素,唯一不同的是相關連接詞必須成對使用。

˙標點符號相關資訊

標點符號相關資訊部分的特徵值,考慮實體與逗號和雙引號的距離,同文句 組成相關資訊的設定,距離三個實體的位置,其中雙引號包括" "、「 」或“ ”。

相關文件