検索結果の表示

─データの収集および電子化と作成技術を中心に─

4.　インターフェイスの作成

4.4.1　検索結果の表示

なお、検索結果のインターフェイスは図 6 のようなものである。

「検索結果の表示」の画面は、KWIC¹⁷形式で検索対象が中央に赤¹⁸ で表示される。そして検索で表示された任意の文をクリックすると、その文の作文全体へと移行する。中央に赤く反転¹⁹し配置された文字は、検索語を表している。使用者の入力したキーワードにより、そのキーワードを含む全ての文章を検出する。文章は文単位で検出され、中心にキーワード、向かって左にキーワードの前方、

右にキーワードの後方と、三部分に区切って表示される。検索結果には、作文のテーマと作者番号も同時に表示される。

17 KWIC（Keyword in Context）は検索対象を中央に配置し、その前後の文脈も表示する。

18 インターネットのブラウザ上では文字が赤く表示されている。

19 ブラウザ上では文字が赤く反転して表示される。以下、反転部分については同様。

図6.　システムによる検出結果の表示例（「において」を例として）

4.4.2　作文の表示形式

また図 7 はリンク先の作文のインターフェイスであるが、画面の上方に項目選択のためのチェックがある。またその表示形式には①学習者による作文をテキスト化した「原文」、②教師による添削をタグとして付加した「修正文」、③タグを削除した「参考用正確文」の 3 つがある²⁰。これらの表示はチェックボタンを設定することにより、任意で単一、または複数での表示を可能とした。

20 作文の添削は人によって異なるが、本稿では研究経費の制限により、一つに作文に対して、一種類のみの「修正文」と「参考用正確文」を提供することにとどまる。

図7.　全文表示インターフェイス

（「原文」、「修正文」と「参考用正確文」の表示画面）

なお、「参考用正確文」を設定した理由としては、以下の 2 つがある。

まずこのコーパスは研究目的の利用だけではなく、学習者支援ツールとしても使用されることを期待した。つまり学習者が「参考用正確文」の利用することにより、学習面での参考にして欲しいと考えたからである。またもう一つの理由として、タグの削除された「参考用正確文」に形態素解析ツールである MeCab を組み込むことにより、確度の高い解析結果を出力して、研究に役立てて貰うことを期待したからである。

4.4.3　同一作者による複数の作文の表示機能

図 8 のように、「私の宝物」のほかに、「自己紹介」や「夏休みの生活」などの作文を指定して閲覧することができる。このように、

同一の作者による複数の作文がある場合、作文の表示画面に自動的にその他の作文のリンクが表示され、同一作者によるほかの作文を同時に閲覧することを可能にした。この機能が実現できたことにより、このコーパスを縦断的研究に利用する際、利便性が著しく向上する。

図8.　同一作者による作文

4.4.4　「修正文」を「参考用正確文」に変換する処理方法システムにおける「修正文」を「参考用正確文」に変換するには、上で示した「修正文」における九つのタグセットを用いるが、

その処理方法は下記の通りである。

（1）置換タグ

（例）< 昨日 > 昨天 </>

　　「昨日」が正確な書き方であり、「昨天」は間違った書き方である場合。

　　処理方法：システムがタグのついた間違い部分を摘出し、

次に「< 昨日 > 昨天 </>」を正確な表現である「昨日」

に置き換える。

（2）削除タグ

（例）おいしい <> の </> 料理

　　「の」が余計であり、削除が必要な場合。

　　処理方法：システムがタグのついた間違い部分を摘出し、「<>

の </>」を削除する。

（3）挿入タグ

（例）学校 < へ ></> 行く　　「へ」を挿入したい場合。

　　処理方法：システムがタグのついた間違い部分を摘出し、

次に「< へ ></>」を「へ」に置き換える。

（4）削除可タグ

（例）遠東 <de> という </> デパート

　　「という」が削除可能とみなし、それを削除する場合。

　　処理方法：システムがタグのついた間違い部分を摘出し、

「<de> という </>」を削除する。

（5）移動タグ

（例）<m1@> 髪が <m1> 先生は </m1> 長い。

　　 <m1></m1> の間の語句を <m1@> の位置に移動する場合。

　　処理方法：システムがタグのついた間違い部分を摘出し、

次に「先生は」を <m1@> に置き換え、「<m1> 先生は </m1>」を削除する。

（6）意味不明タグ

（例） <uk> テレビは面白くないから、今日はいい天気になるといい </>

　　<uk> と </> の間の語句が理解不能の場合。

　　処理方法：システムがタグのついた間違い部分を摘出し、

次に「テレビは面白くないから、今日はいい天気になるといい」の下に下線をひく。

（7）他候補タグ

（例）強 <pr そう > いよう </> です。

　　「いよう」の部分が「そう」の方が適当である場合。「いよう」

を「そう」に変えたい場合。

　　処理方法：システムがタグのついた間違い部分を摘出し、

次に「そう」を「<pr そう > いよう </>」に置き換える。

（8）複数提示タグ

（例）< いつも or 毎回 > 毎次 </>

　　「毎次」を「いつも」もしくは「毎回」に置き換えたい場合。

　　処理方法：システムがタグのついた間違い部分を摘出し、「いつも」を選び、「< いつも or 毎回 > 毎次 </>」を「いつも」

に置き換える。

（9）コメントタグ

（例）彼はもう結婚した <c1> よう </c1> です。

　　コメントの内容を文章の最後に移動したい場合。

　　処理方法：システムがタグのついた間違い部分を摘出し、

次に「よう」を文章の最後に表示する。

上にも述べたように、「参考用正確文」を作る目的は、一つには形態素解析ツールによって形態素を解析する際、精度の高い解析結果を出力させるためである。もう一つには、今後の課題である学習者のための学習支援ツールを開発する際、学習者にとって分かりにくいと思われるタグを取り除いたほうが学習者にとって理解しやすいからである。

「原文」と「修正文」がインターフェイスに入力されると、システムにより自動的に「参考用正確文」が表示されるようになっている。従って、添削が終わっていない作文に関しては、「修正文」が表示されていないため、「参考用正確文」の画面も空白となっている。

4.4.5　 MeCabでの解析機能

MeCab は、京都大学情報学研究科と日本電信電話株式会社コミュニケーション科学基礎研究所との共同研究ユニットプロジェクトを通じて開発された、オープンソースの形態素解析エンジンである。本コーパスにはこの解析ツールが組み込まれている。具体的には、図 9 と図 10 のように「顕示詞性（品詞を示す）」の「詞性（品詞）」あるいは「原形 + 詞性（原形 + 品詞）」をチェックすることにより、任意に選択した作文の「原文」や「参考用正確文」について形態素解析を行うことができる。

図9.　 MeCabでの解析結果例（品詞）

図10.　 MeCabでの解析結果例（原形+品詞）

ただし、MeCab による解析については、修正を加えなければならない点もある。例えば、図 9 の「上手に」というナ形容詞の形態素分析は、「上手（名詞）」と「に（助詞）」と表示されている。

MeCab の解析精度はかなり高いものの、このような誤った解析も見られるため、再度人の手によって確認する必要がある。これについては今後の課題としたい。

5.　おわりに

「台湾人日本語学習者コーパス」は、2009 年 6 月に 2008 学年度後期のデータ収集を終了したばかりである。ただし、既に収集された作文データについても、教師による添削や手書きデータの電子化、タグの付加、MeCab の解析結果の校正やシステムの修正など、データの処理は完全には終了していない。また将来的にはインデックスの中に索引語頻度の項目を増設し、クエリーの頻度順の集計およびその配置を可能としたい。これらの課題や改善をできるだけ早く完遂させることが今後の目標である。

第３章「台湾人日本語学習者コーパス」の量的分析

在文檔中 The Construction & Research of Multilingual Corpora (頁 180-189)

─データの収集および電子化と作成技術を中心に─

4. インターフェイスの作成

4.4.1 検索結果の表示

5. おわりに

第３章「台湾人日本語学習者コーパス」の量的分析

4.　インターフェイスの作成

4.4.1　検索結果の表示

5.　おわりに

第３章「台湾人日本語学習者コーパス」の量的分析