自動獲得された言い換え表現を使った情報検索
海野 裕也
1宮尾 祐介
1辻井 潤一
1,2,31
東京大学大学院情報理工学系研究科コンピュータ科学専攻
2
英国マンチェスター大学
3英国国立テキストマイニングセンター {unno, yusuke, tsujii}@is.s.u-tokyo.ac.jp
1 はじめに
情報検索において文書とクエリで異なる語が現れる問 題は語彙の不一致として知られ,シソーラスを使った クエリ拡張によって対処されてきた.人手で作られた シソーラスを使う場合,その規模やドメインが問題に なることが多い.自動獲得されたシソーラスによるク エリ拡張は成功を納めてきたが,人手によるシソーラ スとは性質が異なり,意味的に等価な表現ではなくて 似たトピックへ拡張される傾向がある.一方で,近年 言い換え表現をコーパスから自動獲得する手法が数多 く提案されている.特に対訳コーパスから言い換え表 現を得る手法は,人手で辞書を整備する必要がない上,
言い換えらしさを示す言い換え確率付きで大量に言い 換え表現を得ることができる.
我々はこの自動獲得された言い換え表現を従来の情 報検索の枠組みに取り入れることによって,新しいク エリ拡張手法を提案する.本手法によって,ドメイン に特化したクエリ拡張を行うことができるようになる.
また獲得された言い換え表現は,その言い換えらしさ に応じてスコア付けされるので,誤った言い換え表現 による悪影響を小さく抑えることができる.
本 手 法 の 効 果 を 確 か め る た め に ,NTCIR-1 と NTCIR-3 PATENTを使用して評価実験を行った.そ の結果,本手法によってクエリ拡張を行わない手法に 比べて精度の高い検索結果を得られることが分かった.
2 背景
2.1
言語モデルに基づく情報検索Ponte & Craft [5]は言語モデルを情報検索に適用する 手法を提案している.彼らの手法は,文書 D から推定 される言語モデルの下で,クエリ Q が生成される確率
P (Q |D) を文書のランキング関数として使用するとい
うものである.この手法では言語モデルをどのように 設計するかによって検索性能が変わってくる.Millerら [4] は言語モデルとして,D から推定され る unigram 言語モデルと,文書集合全体 C から推定
される unigram 言語モデルの混合モデルを用いた:
P (Q |D) =
∏q∈Q
(λPUL(q
|D) + (1 − λ)P
UL(q|C))
この手法は非常に簡潔であり,また従来の TF/IDF 重 みによる検索に比べて高い性能を示している.
2.2
言い換えの自動獲得近年,言い換えの自動獲得に関する研究が盛んに行わ れている.我々は中でも Bannard & Callison-Burch の手法 [1] に着目した.彼らは,まずアライメントのと れた二言語対訳コーパスを用意して,同じ単語とアラ イメントのとれた単語を言い換え表現と見なした.例 えば日本語の「二酸化炭素」と「炭酸ガス」は,両方 とも英文中で「carbon dioxide」とアライメントがと られることが多い.このとき「carbon dioxide」をピ ボットとして,「二酸化炭素」と「炭酸ガス」が言い換 え表現になっていると見なせるのである.
具体的には,以下の式によってフレーズ wjがフレー ズ wi に言い換えられる言い換え確率を定義する:
P
para(wi|w
j) =∑e
P
trans(wi|e)P
trans(e|w
j)ただし Ptrans は翻訳確率で,アライメントの頻度から
P
trans(w|e) = count(w, e)/count(e) と推定される.
2.3
関連研究Qiu & Frei [7]や Sch¨utzeら [9] は,語の共起関係から シソーラスを構築してクエリ拡張する手法を提案して いる.これらの手法は一定の成功を収めているが,同意 語というよりは同一トピックの語によるクエリ拡張で あり,我々の手法とは意義が異なる.実際,Mandala ら [3]はこうした共起を元にしたクエリ拡張を,WordNet などの人手で構築したシソーラスによるクエリ拡張と 組み合わせることでより精度の高い検索結果を達成し ている.
Riezlerら [8] は我々と同様,自動獲得した言い換え 表現を使ってクエリ拡張する実験を行っているが,彼 らの手法では言い換え確率をクエリ拡張する単語の選
択にしか使っていない点,また TF/IDF 重みによる検 索と組み合わせている点で我々の手法と異なる.
3 手法
3.1
言語モデルとの組み合わせ言い換え確率を言語モデルの枠組みに取り入れるため に,言い換えに基づく言語モデルを定義する.本手法 でも,Miller ら [4] と同様,各単語は独立に生成すると 仮定して,これらのクエリ中の各単語の生成確率の積 としてクエリの生成確率を定義する.文書からは,まず 単語 w が生成されて,これが言い換え確率 Ppara(q
|w)
に従ってクエリ単語 q に書き換わると考える.我々は,このモデルを言い換え言語モデル PPLとして定義する.
P
PL(q|D) =
∑w
P
para(q|w)P
UL(w|D)
(1)ただし,PUL(w
|D) は文書から推定される unigram 言
語モデルで,最尤推定によって容易に推定される.この 言い換えに基づく言語モデルと unigram 言語モデルと の混合分布を作り,以下のように言語モデルを作った.P (Q |D) =
∏q∈Q
{λ(µP
UL(q|D) + (1 − µ)P
PL(q|D))+ (1
− λ)P
UL(q|C)}
(2)3.2
言い換え確率の正規化フレーズ wiから wj への言い換え確率,Ppara(wj
|w
i) は wj の出現頻度に大きく依存するため,直感に反す るスコアが割り当てられることがある.我々はこのス コアを正規化することで,より適切な言い換えのスコ アを割り振る方法を提案する.例えば,「炭酸ガス」は「二酸化炭素」に比べて文書 中に出現する頻度が少ないため,「carbon dioxide」と アライメントがとられる頻度も低くなる.これは,「炭 酸ガス」が「carbon dioxide」の正しい訳語であるか どうかとは関係なく起こり,そのため出現頻度の少な い単語には言い換え確率が低く見積もられる.そこで,
単語の出現確率 P (wj)で割ったスコアを使う.但し,
頻度の低すぎるフレーズはノイズと見なし 5 回以上出 現したもののみ使用した:
S(w
j, w
i) = Ppara(wj|w
i)/P (wj)このスコアを 0 から 1 に収まるように,各 wi に対 する最大値で割って,言い換えスコアとして使う:
S
para(wj, w
i) = S(wj, w
i)/ maxi
S(w
j, w
i) (3) 実 験 で は ,Spara(wj, w
i) を 式 (1) に お け るP
para(wj|w
i) の 代 わ り と し て 使った .た だ し , このスコアは j に関して足しあわせても 1 に成らな いため,確率モデルとしての解釈は持たないことには 注意しなければならない.表 1: テストデータの統計
名称 分野 文書数 サイズ クエリ数
NTCIR-1
論文332,918 512 MB 83
NTCIR-3
特許697,262 22 GB 31
表 2: 対訳コーパスの統計
名称 言語 分野 文対数
NTCIR-1 titles
日英 論文330,148 NTCIR-3 titles
日英 特許1,701,216
4 実験
4.1
実験設定検索用タスクとして NTCIR-1 と NTCIR-3 PATENT を用いた.それぞれの統計を表 1 に示す.NTCIR-1 の トピック 1 から 30 を開発用のテストセットに,残り を評価用に使用した.文書として各文書のタイトルと 本文のみを,またクエリとして各検索課題の短い説明
(Description)のみを使用した.この検索課題の説明 は「∼について述べた文献」などの冗長な表現を使っ ていたため,これらの文末表現を手動で取り除いた文 字列を使った.ただし,この前処理を行っても検索性 能に大きな性能変化がないことは予備実験で確かめた.
各文書とクエリは形態素解析器で単語に分解し,名詞,
動詞,形容詞,副詞のみを原型に直して使用した.ま た,単語単体のみではなく,複合名詞を精度良く検索 できるようにするために,隣接する名詞対も単語集合 に含めた.
対 訳 コ ー パ ス と し て , NTCIR-1 と NTCIR-3 PATENT の言語横断検索テスト用の文書のタイトル を用いた.このデータを使ったのは,文アライメント をとる必要がないことと,検索課題と同一ドメインの ため,似た語彙の言い換えを得られることが期待され たからである.それぞれの統計を表 2 に示した.
対訳コーパスには句アライメントがついていないた め,MOSES ツールキット [2] を用いてアライメント をつけた.形態素解析器には MeCab [10] を使用した.
対訳文対中の英語は PorterStemmer [6] によってステ ミングを施した.評価には 11 点平均精度を用いた.
言語モデル (2) における混合係数は開発用テストセッ トを使ってチューニングし,λ = 0.2,µ = 0.4 とした.
4.2
実験結果表 3 が,各検索課題と使用した対訳コーパス及び手法 の関係である.「LM」はベースラインとして使用した Millerら [4] の言語モデルを使った結果,「Para」は (1) の言い換え確率を使った手法,「Norm」が (3) で定義し た言い換えスコアを使った手法の結果である.これら の結果から 2 つのことがいえる.1 つは,同一ドメイ ンの対訳コーパスを使った方が,結果が良くなるとい
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
Precision
Recall
LM(baseline) Norm NTCIR-1
図 1: 再現率精度グラフ (NTCIR-1)
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
Precision
Recall
LM(baseline) Norm NTCIR-3
図 2: 再現率精度グラフ (NTCIR-3)
う点である.もう 1 つは正規化を施すことによってい ずれの場合も性能が良くなっている点である.両テス トセットで最も結果の向上した手法とベースラインの 再現率精度グラフを図 1 と図 2 に示した.グラフは交 差することなく,いずれの再現率においても精度が向 上していることがわかる.
各検索課題ごとの性能差を調べるために,NTCIR-1 に対して,正規化した言い換えスコアと NTCIR-1 の タイトルを使った結果を,ベースラインから性能差で 示したのが図 3 である.全 53 課題の内,33 課題で性 能が向上した.特に 5 ポイント以上性能改善した課題 は 14 件に及んだが,逆に 5 ポイント以上性能が悪化 したのは 2 件のみであった.
表 3: 各手法とテストセットの評価比較
NTCIR-1 NTCIR-3
LM (baseline) 27.90 23.76
Para NTCIR-1 28.65(+2.7%) 24.37(+2.6%) Norm NTCIR-1
29.71(+6.5%)25.28(+6.4%) Para NTCIR-3 27.58(-1.2%) 24.57(+3.4%) Norm NTCIR-3 28.14(+0.9%)
27.19(+14.4%)-20 -15 -10 -5 0 5 10 15
30 40 50 60 70 80 90
Diff. of 11pt. avg. prec.
Topic ID
図 3: 検索課題ごとの性能差 (NTCIR-1)
表 4: クエリ拡張の影響を受けた文書
クエリ 文書 ランク
· · · における特徴次元
リダクション
· · · 特徴空間の次
元縮小の· · ·
1609
→ 3 デジタル著作物の改変
および無断の· · · · · ·を通したディジ タル映像の· · ·
45
→ 6 日本語文におけるカタ
カナ外来語
片仮名表記の揺れ
誤りや· · ·
223
→ 21
4.3
改善した例我々の手法によって改善した検索例を表 4 に示した.
「クエリ」と「文書」はそれぞれ改善例のクエリと文書 の抜粋であり,「ランク」にはランクの変化を示した.
最初の例は同義語への拡張の例である.「縮小」や「低 減」といった単語が「リダクション」の同義語として 認識されるため,こうした単語を含む文書も検索でき るようになった.2 番目の例は異表記の例である.「デ ジタル」という単語は「ディジタル」とも表記される が,いずれも英語では「digital」になるため,言い換 えとして認識することができる.こうしたカタカナ語 の異表記は非常に多い上,人手で管理するには非常に コストがかかる.3 番目の例も異表記の例だが,こち らは漢字とカナの違いである.これらの表記揺れに対 しても,本手法は効率的に働くことが分かる.
4.4
悪化した例結果の悪くなった課題を調べたところ,期待通りのク エリ拡張が行われていることが多かった.NTCIR-1 で 最も結果が悪くなったクエリは「動画像圧縮を行う知 能化イメージセンサ」である.クエリ拡張によって,「知 的」あるいは「インテリジェント」などが「知能化」の 言い換えとして認識された.これは期待される挙動で あったものの,結果としてこれらの単語を含むが,ク エリ中の重要単語である「イメージセンサ」を含まな い文書が上位にランクしてしまったのが問題である.
これはクエリ拡張が正しく働かないためではなく,
ベースとなる重み関数が不適切なため,クエリ中でさ
表 5: 言い換えの例
既存手法 正規化後
デジタル ディジタル
: 0.77,
デ ジタル: 0.15,
数値: 0.01,
電子: 0.01,
デ ィジタル-
· : 0.01デジタル
: 1.0, Digital:
0.89,
ディジタル: 0.87,
ディジタル-
· 0.79, の-
ディジタル: 0.59
本 主: 0.11,本: 0.10,
単: 0.10, 永 久: 0.06,図書
: 0.06
ブック
: 1.0,
図 書: 0.54,
本: 0.44,
帳: 0.43,
書: 0.2
体 の: 0.50,体
: 0.10,
材料: 0.06, 物体: 0.02,
中: 0.01Body: 1.0,
ボ ディ: 1.0,
胴体: 0.67,
身体: 0.41,
体内: 0.25
ほど重要でない「知能化」に大きな重みが与えられた たためと考えられる.特に,重み付けは基本的に単語 頻度のみに基づいており,周辺単語とは独立に決定さ れる.このクエリにおいては,「イメージセンサ」が重 要語であったにもかかわらず,「知能化」に大きな重み が与えられてしまった.
4.5
正規化の効果言い換え確率の正規化の効果を示すために,獲得され た言い換え表現の例を表 5 に示した.それぞれ言い換 え確率の高い 5 つを,スコア付きで示している.
最初の例は頻度の少なすぎる語の例である.「Digital」
という単語は出現頻度が低すぎるため,正しい言い換 え表現にもかかわらず,既存手法では上位に現れない.
2番目と 3 番目の例は頻度の高い単語に誤ってアライ メントがとられた例である.特に「の」は出現頻度が 高い上,英語に直接対応する単語がないことが多いた め,間違ったアライメントができて言い換え確率が高 くなりやすい.こうしたアライメントの間違いの影響 も,正規化によって軽減できることがわかる.
4.6
曖昧な訳語による問題二言語対訳コーパスを使った言い換え表現の獲得は高 い精度で言い換えを抽出できる一方で,ピボットの言 語の性質を引き継いでしまう.特に,元の言語で曖昧 性のない語が,ピボット言語において意味に曖昧性が あると,その悪影響が言い換え確率に伝搬してしまう.
表 6 に例を示した.英語の「bank」には,「銀行」と
「堤防」の 2 つの意味がある.そのため,Ptrans(bank
| 銀
行) も Ptrans(堤防|bank) も高い値をもち,結果とし
て「銀行」と「堤防」が言い換えと認識されてしまう.特に英語には全く異なる意味を持った多義語が多いた め,こうした現象が多く発生する.
今回の実験では,クエリ中にこうした単語がなかっ たため,この問題による悪影響は確認されなかった.し かし,対象文書によっては問題になることが予想され る.改善策としては,別言語の対訳コーパスの結果を 組み合わせたり,周辺単語の類似度から曖昧性を解消 して,こうした間違いを減らす工夫が考えられる.
表 6: 曖昧な英単語による間違いの例 日本語 英語 言い換え
銀行
bank
河岸: 1.0,
銀行: 1.0,
バンク: 1.0,
堤防: 0.14,
護岸: 0.12
演奏
play
演奏: 1.0,
遊び: 0.89,
鳴り: 0.14,
音楽: 0.14, MUSIC: 0.10
粒子particle
助詞: 1.0,
粒子: 0.89,
態: 0.68,
粒子
-
の: 0.61,
微粒子: 0.44
5 結論
本研究は言い換え確率に基づく言語モデルを構築し,
対訳コーパスから自動獲得した言い換え表現を使って 情報検索に応用した.この際,検索課題のドメインと 同じ対訳コーパスから得た言い換え表現を用いた方が,
高い精度で検索できることが分かった.また,従来の 言い換え確率ではアライメントの間違いに弱かったが,
これを正規化することによってより精度の高い言い換 えを得ることが可能になり,また検索性能も向上した.
本手法で精度の下がった検索課題では,クエリは適 切に拡張されたものの,ベースとなる重み関数が不適 切なため精度向上に結びつかなかった.また,ピボット とする言語中での意味の曖昧性が言い換え表現獲得に 悪影響を及ぼすことが分かった.今後の課題としては,
係受け関係などのクエリ文字列中の他の単語との関係 を使った重み関数の開発,及び複数言語の対訳コーパ スや共起単語から,曖昧な語義に影響されない頑健な 言い換え表現の獲得を行う必要がある.
参考文献
[1] C. Bannard and C. Callison-Burch. Paraphrasing with bilingual parallel corpora. In Proc. of ACL ’05, 2005.
[2] P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Fed- erico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin, and E. Herbst. Moses:
Open source toolkit for statistical machine translation. In Proc. of. ACL ’07, Demo Sessions, 2007.
[3] R. Mandala, T. Tokunaga, and H. Tanaka. Combining multiple evidence from different types of thesaurus for query expansion. In Proc of SIGIR ’99, 1999.
[4] D. R. H. Miller, T. Leek, and R. M. Schwartz. A hidden markov model information retrieval system. In Proc. of SIGIR ’99, 1999.
[5] J. M. Ponte and W. B. Croft. A language modeling ap- proach to information retrieval. In Proc. of SIGIR ’98, 1998.
[6] M. F. Porter. An algorithm for suffix stripping. Program, Vol. 14, No. 3, 1980.
[7] Y. Qiu and H. P. Frei. Concept based query expansion.
In Proc. of SIGIR ’93, 1993.
[8] S. Riezler, A. Vasserman, I. Tsochantaridis, V. Mittal, and Y. Liu. Statistical machine translation for query ex- pansion in answer retrieval. In Proc. of ACL ’07, 2007.
[9] H. Sch¨utze and J.O. Pedersen. A cooccurrence-based the- saurus and two applications to information retrieval. In- formation Processing and Management, Vol. 33, No. 3, 1997.
[10] 工藤拓. MeCab: Yet Another Part-of-Speech and Morpho- logical Analyzer (http://mecab.sourceforge.net).