• 沒有找到結果。

隔標籤「<div class=”single-post-content”>」內的第一個分隔標籤「<div>」內,

如圖 5。另外,現今以網頁為介面的網路論壇或社群網站多有提供由該網站自訂

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 5 Mobile01 網頁與部分原始碼

第一種斷句方法是針對正規寫作方式而設計,也就是依標點符號斷句。我們 在文章中出現全形及半形的句號、問號、驚嘆號、冒號,以及分號等五種符號的 位置斷句。

第二種斷句方法是針對批踢踢,以及少部分 Mobile01 的文章而設計。在批 踢踢上,即使作者在文章編寫時採用正規的寫作方式,但是在網頁呈現時,批踢 踢會自動將文章中過長的句子以<br>標籤斷行。另外,不論是在批踢踢或 Mobile01,也有一些作者會為了排版而自行換行。這些文章共同的特性是會有連 續多行在視覺上的長度相近。以批踢踢而言,批踢踢的字體採用等寬字體,也就 是每個全形或半形的字寬度相同,且 1 個全形字寬度剛好等於 2 個半形字。批踢 踢的版面寬度是每行最多可容納 79 個半形字元或 40 個全形字元。而 Mobile01 的字體為非等寬,版面寬度約為 90 個半形字元,也就是約 45 個全形字元。我們 將連續兩行以上,且寬度差距小於 3 的行合併為一行後,再依標點符號斷句。

最後一種斷句方法是針對非正規的文章寫作方式。在大多數的網路論壇,尤 其是批踢踢上,許多文章的作者並不會使用正規的標點符號,而是單純地以空白 作為逗號,以換行作為句號。對於這些文章,我們將每一行中,介於兩個中文字 之間的空白以逗號取代,並在每一行的最後一個字不是正規標點符號時,自動補

<brand name=”apple”>

<series name=”iphone”>

<product name=”4s”/>

這些名稱。以 Apple iPhone 4s 為例,除了以「Apple iPhone 4s」表示之外,也可 以用「iPhone 4s」表示,而型號也可用於表示特定產品,如「4s」通常也可以直 接指 iPhone 4s。我們將這些字串一律以標準格式「_apple_iphone_4s_」取代。但 是純數字或純英文的產品型號容易與數量詞或英文單字混淆,如「5」或「pro」

15 http://parser.iis.sinica.edu.tw/

16 http://ckipsvr.iis.sinica.edu.tw/

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(四) 意見目標辨識規則

我們在第二章曾經提到,對語句層次的分析而言,意見目標是一個相當重要 的因素。因為在網路文章中,許多人並不會自始至終都只撰寫同一個產品,而會 以舉例、比較等方式,指出和其他產品的不同之處。對於本研究要建立的情感分 類系統而言,當一個句子的意見目標與目前搜尋的搜尋目標不同時,其情感取向 也應有不同。比如當我們在搜尋「Xperia Z」時,一個意見目標為「Galaxy s3」

的句子,其意見不論是正面或負面,對我們而言可能是中立意見,因為這個句子 與我們的搜尋目標並無關聯,但這個句子也可能隱含著相反的意見。也就是說,

當一個句子對「Galaxy s3」為正面意見時,可能也隱含著對「Xperia Z」的負面 意見;同樣地,當一個句子對「Galaxy s3」為面向意見時,可能隱含著對「Xperia Z」的正面意見。因此,分析句子的意見目標對本研究而言是相當重要的。我們 觀察句法剖析系統後的結果,並結合 Lin 與 Chao(2010)、Lu(2010)以及 Ma 與 Wan(2010)的規則式方法及其概念,發展出一套用於本研究系統建置上的意 見目標辨識規則。這些規則將用於後續語句層次的特徵抽取。

首先,我們根據 Lin 與 Chao(2010)的方法定義可能的意見目標集合為本 章第二節蒐集的攜帶型智慧裝置廠牌、系列、型號的中英文與別稱,以下稱為候 選意見目標集合。

定義:候選意見目標集合為產品名稱資料庫中已蒐集的廠牌、系列、型號的 中英文與別稱。

接下來,當目前的句子含有候選意見目標時,Lin 與 Chao(2010)認為應選 擇最後出現者,而 Lu(2010)則認為應從句法結構著手。在第二章曾提到比較 句的問題。在經過簡單的測試後,我們發現 Lu(2010)的方法在比較句的處理 上表現較為優秀。因為不論是不對等的分級比較句(圖 6)、對等的比較句(圖 7),或是最高級比較句(圖 8),經過中文的剖析後都能找出其意見的受體。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 6 不對等分級比較句的測試結果

圖 7 對等比較句的測試結果

圖 8 最高級比較句的測試結果

個同等地位的意見目標。在圖 7 的例子中,「好」對「_Apple_iPad_mini_」與

「_Galaxy_note_3_」兩者都是正向意見。在只能取一個意見目標的情況下,自

在搜尋目標為「Galaxy Note 3」的情況下,此句因含有對等關係的關鍵詞彙

「一樣」,且句中有「iPad mini」和「Galaxy Note 3」兩個候選意見目標,因此

對於規則 3,我們的發現則和 Lu(2010)不同。Lu(2010)認為受詞也可 能作為意見目標。然而,如果我們將圖 6 的句子改寫為下面的句子:

「我覺得這支手機比 Galaxy s3 好。」

此時會發現「Galaxy s3」是作為介係詞「比」的受詞。但是「Galaxy s3」卻 不會是「好」這個意見詞的受體。又如: 目標的句子。Lin 與 Chao(2010)的方法是先往前五句,再往後五句尋找候選意

相關文件