• 沒有找到結果。

検索結果の表示

─データの収集および電子化と作成技術を中心に─

4.  インターフェイスの作成

4.4.1  検索結果の表示

なお、検索結果のインターフェイスは図 6 のようなものである。

「検索結果の表示」の画面は、KWIC17形式で検索対象が中央に赤18 で表示される。そして検索で表示された任意の文をクリックする と、その文の作文全体へと移行する。中央に赤く反転19し配置され た文字は、検索語を表している。使用者の入力したキーワードに より、そのキーワードを含む全ての文章を検出する。文章は文単 位で検出され、中心にキーワード、向かって左にキーワードの前方、

右にキーワードの後方と、三部分に区切って表示される。検索結 果には、作文のテーマと作者番号も同時に表示される。

17 KWIC(Keyword in Context)は検索対象を中央に配置し、その前後の文脈も 表示する。

18 インターネットのブラウザ上では文字が赤く表示されている。

19 ブラウザ上では文字が赤く反転して表示される。以下、反転部分については 同様。

図6. システムによる検出結果の表示例(「において」を例として)

4.4.2 作文の表示形式

また図 7 はリンク先の作文のインターフェイスであるが、画面 の上方に項目選択のためのチェックがある。またその表示形式に は①学習者による作文をテキスト化した「原文」、②教師による添 削をタグとして付加した「修正文」、③タグを削除した「参考用正 確文」の 3 つがある20。これらの表示はチェックボタンを設定する ことにより、任意で単一、または複数での表示を可能とした。

20 作文の添削は人によって異なるが、本稿では研究経費の制限により、一つに 作文に対して、一種類のみの「修正文」と「参考用正確文」を提供することにと どまる。

図7. 全文表示インターフェイス

(「原文」、「修正文」と「参考用正確文」の表示画面)

なお、「参考用正確文」を設定した理由としては、以下の 2 つがある。

まずこのコーパスは研究目的の利用だけではなく、学習者支援ツー ルとしても使用されることを期待した。つまり学習者が「参考用正 確文」の利用することにより、学習面での参考にして欲しいと考え たからである。またもう一つの理由として、タグの削除された「参 考用正確文」に形態素解析ツールである MeCab を組み込むことに より、確度の高い解析結果を出力して、研究に役立てて貰うことを 期待したからである。

4.4.3 同一作者による複数の作文の表示機能

図 8 のように、「私の宝物」のほかに、「自己紹介」や「夏休み の生活」などの作文を指定して閲覧することができる。このように、

同一の作者による複数の作文がある場合、作文の表示画面に自動 的にその他の作文のリンクが表示され、同一作者によるほかの作 文を同時に閲覧することを可能にした。この機能が実現できたこ とにより、このコーパスを縦断的研究に利用する際、利便性が著 しく向上する。

図8. 同一作者による作文

4.4.4 「修正文」を「参考用正確文」に変換する処理方法 システムにおける「修正文」を「参考用正確文」に変換するに は、上で示した「修正文」における九つのタグセットを用いるが、

その処理方法は下記の通りである。

(1) 置換タグ

(例)< 昨日 > 昨天 </>

   「昨日」が正確な書き方であり、「昨天」は間違った書き方 である場合。

  処理方 法:システムがタグのついた間違い部分を摘出し、

次に「< 昨日 > 昨天 </>」を正確な表現である「昨日」

に置き換える。

(2) 削除タグ

(例)おいしい <> の </> 料理

  「の」が余計であり、削除が必要な場合。

  処理方 法:システムがタグのついた間違い部分を摘出し、「<>

の </>」を削除する。

(3) 挿入タグ

(例)学校 < へ ></> 行く   「へ」を挿入したい場合。

  処理方 法:システムがタグのついた間違い部分を摘出し、

次に「< へ ></>」を「へ」に置き換える。

(4) 削除可タグ

(例)遠東 <de> という </> デパート

  「という」が削除可能とみなし、それを削除する場合。

  処理方 法:システムがタグのついた間違い部分を摘出し、

「<de> という </>」を削除する。

(5) 移動タグ

(例)<m1@> 髪が <m1> 先生は </m1> 長い。

   <m1></m1> の間の語句を <m1@> の位置に移動する場合。

   処理方 法:システムがタグのついた間違い部分を摘出し、

次に「先生は」を <m1@> に置き換え、「<m1> 先生 は </m1>」を削除する。

(6) 意味不明タグ

(例) <uk> テレビは面白くないから、今日はいい天気になるとい い </>

  <uk> と </> の間の語句が理解不能の場合。

  処理方 法:システムがタグのついた間違い部分を摘出し、

次に「テレビは面白くないから、今日はいい天気に なるといい」の下に下線をひく。

(7) 他候補タグ

(例)強 <pr そう > いよう </> です。

   「いよう」の部分が「そう」の方が適当である場合。「いよう」

を「そう」に変えたい場合。

  処理方 法:システムがタグのついた間違い部分を摘出し、

次に「そう」を「<pr そう > いよう </>」に置き換える。

(8) 複数提示タグ

(例)< いつも or 毎回 > 毎次 </>

  「毎次」を「いつも」もしくは「毎回」に置き換えたい場合。

  処理方 法:システムがタグのついた間違い部分を摘出し、「い つも」を選び、「< いつも or 毎回 > 毎次 </>」を「いつも」

に置き換える。

(9) コメントタグ

(例)彼はもう結婚した <c1> よう </c1> です。

  コメントの内容を文章の最後に移動したい場合。

  処理方 法:システムがタグのついた間違い部分を摘出し、

次に「よう」を文章の最後に表示する。

上にも述べたように、「参考用正確文」を作る目的は、一つには 形態素解析ツールによって形態素を解析する際、精度の高い解析 結果を出力させるためである。もう一つには、今後の課題である 学習者のための学習支援ツールを開発する際、学習者にとって分 かりにくいと思われるタグを取り除いたほうが学習者にとって理 解しやすいからである。

「原文」と「修正文」がインターフェイスに入力されると、シス テムにより自動的に「参考用正確文」が表示されるようになってい る。従って、添削が終わっていない作文に関しては、「修正文」が 表示されていないため、「参考用正確文」の画面も空白となっている。

4.4.5  MeCabでの解析機能

MeCab は、京都大学情報学研究科と日本電信電話株式会社コミュ ニケーション科学基礎研究所との共同研究ユニットプロジェクト を通じて開発された、オープンソースの形態素解析エンジンであ る。本コーパスにはこの解析ツールが組み込まれている。具体的 には、図 9 と図 10 のように「顕示詞性(品詞を示す)」の「詞性(品 詞)」あるいは「原形 + 詞性(原形 + 品詞)」をチェックすること により、任意に選択した作文の「原文」や「参考用正確文」につ いて形態素解析を行うことができる。

図9.  MeCabでの解析結果例(品詞)

図10.  MeCabでの解析結果例(原形+品詞)

   

 

 

 

ただし、MeCab による解析については、修正を加えなければな らない点もある。例えば、図 9 の「上手に」というナ形容詞の形 態素分析は、「上手(名詞)」と「に(助詞)」と表示されている。

MeCab の解析精度はかなり高いものの、このような誤った解析も 見られるため、再度人の手によって確認する必要がある。これに ついては今後の課題としたい。

5. おわりに

「台湾人日本語学習者コーパス」は、2009 年 6 月に 2008 学年 度後期のデータ収集を終了したばかりである。ただし、既に収集 された作文データについても、教師による添削や手書きデータの 電子化、タグの付加、MeCab の解析結果の校正やシステムの修正 など、データの処理は完全には終了していない。また将来的には インデックスの中に索引語頻度の項目を増設し、クエリーの頻度 順の集計およびその配置を可能としたい。これらの課題や改善を できるだけ早く完遂させることが今後の目標である。

第3章「台湾人日本語学習者コーパス」の量的分析