─データの収集および電子化と作成技術を中心に─
4. インターフェイスの作成
4.4.1 検索結果の表示
なお、検索結果のインターフェイスは図 6 のようなものである。
「検索結果の表示」の画面は、KWIC17形式で検索対象が中央に赤18 で表示される。そして検索で表示された任意の文をクリックする と、その文の作文全体へと移行する。中央に赤く反転19し配置され た文字は、検索語を表している。使用者の入力したキーワードに より、そのキーワードを含む全ての文章を検出する。文章は文単 位で検出され、中心にキーワード、向かって左にキーワードの前方、
右にキーワードの後方と、三部分に区切って表示される。検索結 果には、作文のテーマと作者番号も同時に表示される。
17 KWIC(Keyword in Context)は検索対象を中央に配置し、その前後の文脈も 表示する。
18 インターネットのブラウザ上では文字が赤く表示されている。
19 ブラウザ上では文字が赤く反転して表示される。以下、反転部分については 同様。
図6. システムによる検出結果の表示例(「において」を例として)
4.4.2 作文の表示形式
また図 7 はリンク先の作文のインターフェイスであるが、画面 の上方に項目選択のためのチェックがある。またその表示形式に は①学習者による作文をテキスト化した「原文」、②教師による添 削をタグとして付加した「修正文」、③タグを削除した「参考用正 確文」の 3 つがある20。これらの表示はチェックボタンを設定する ことにより、任意で単一、または複数での表示を可能とした。
20 作文の添削は人によって異なるが、本稿では研究経費の制限により、一つに 作文に対して、一種類のみの「修正文」と「参考用正確文」を提供することにと どまる。
図7. 全文表示インターフェイス
(「原文」、「修正文」と「参考用正確文」の表示画面)
なお、「参考用正確文」を設定した理由としては、以下の 2 つがある。
まずこのコーパスは研究目的の利用だけではなく、学習者支援ツー ルとしても使用されることを期待した。つまり学習者が「参考用正 確文」の利用することにより、学習面での参考にして欲しいと考え たからである。またもう一つの理由として、タグの削除された「参 考用正確文」に形態素解析ツールである MeCab を組み込むことに より、確度の高い解析結果を出力して、研究に役立てて貰うことを 期待したからである。
4.4.3 同一作者による複数の作文の表示機能
図 8 のように、「私の宝物」のほかに、「自己紹介」や「夏休み の生活」などの作文を指定して閲覧することができる。このように、
同一の作者による複数の作文がある場合、作文の表示画面に自動 的にその他の作文のリンクが表示され、同一作者によるほかの作 文を同時に閲覧することを可能にした。この機能が実現できたこ とにより、このコーパスを縦断的研究に利用する際、利便性が著 しく向上する。
図8. 同一作者による作文
4.4.4 「修正文」を「参考用正確文」に変換する処理方法 システムにおける「修正文」を「参考用正確文」に変換するに は、上で示した「修正文」における九つのタグセットを用いるが、
その処理方法は下記の通りである。
(1) 置換タグ
(例)< 昨日 > 昨天 </>
「昨日」が正確な書き方であり、「昨天」は間違った書き方 である場合。
処理方 法:システムがタグのついた間違い部分を摘出し、
次に「< 昨日 > 昨天 </>」を正確な表現である「昨日」
に置き換える。
(2) 削除タグ
(例)おいしい <> の </> 料理
「の」が余計であり、削除が必要な場合。
処理方 法:システムがタグのついた間違い部分を摘出し、「<>
の </>」を削除する。
(3) 挿入タグ
(例)学校 < へ ></> 行く 「へ」を挿入したい場合。
処理方 法:システムがタグのついた間違い部分を摘出し、
次に「< へ ></>」を「へ」に置き換える。
(4) 削除可タグ
(例)遠東 <de> という </> デパート
「という」が削除可能とみなし、それを削除する場合。
処理方 法:システムがタグのついた間違い部分を摘出し、
「<de> という </>」を削除する。
(5) 移動タグ
(例)<m1@> 髪が <m1> 先生は </m1> 長い。
<m1></m1> の間の語句を <m1@> の位置に移動する場合。
処理方 法:システムがタグのついた間違い部分を摘出し、
次に「先生は」を <m1@> に置き換え、「<m1> 先生 は </m1>」を削除する。
(6) 意味不明タグ
(例) <uk> テレビは面白くないから、今日はいい天気になるとい い </>
<uk> と </> の間の語句が理解不能の場合。
処理方 法:システムがタグのついた間違い部分を摘出し、
次に「テレビは面白くないから、今日はいい天気に なるといい」の下に下線をひく。
(7) 他候補タグ
(例)強 <pr そう > いよう </> です。
「いよう」の部分が「そう」の方が適当である場合。「いよう」
を「そう」に変えたい場合。
処理方 法:システムがタグのついた間違い部分を摘出し、
次に「そう」を「<pr そう > いよう </>」に置き換える。
(8) 複数提示タグ
(例)< いつも or 毎回 > 毎次 </>
「毎次」を「いつも」もしくは「毎回」に置き換えたい場合。
処理方 法:システムがタグのついた間違い部分を摘出し、「い つも」を選び、「< いつも or 毎回 > 毎次 </>」を「いつも」
に置き換える。
(9) コメントタグ
(例)彼はもう結婚した <c1> よう </c1> です。
コメントの内容を文章の最後に移動したい場合。
処理方 法:システムがタグのついた間違い部分を摘出し、
次に「よう」を文章の最後に表示する。
上にも述べたように、「参考用正確文」を作る目的は、一つには 形態素解析ツールによって形態素を解析する際、精度の高い解析 結果を出力させるためである。もう一つには、今後の課題である 学習者のための学習支援ツールを開発する際、学習者にとって分 かりにくいと思われるタグを取り除いたほうが学習者にとって理 解しやすいからである。
「原文」と「修正文」がインターフェイスに入力されると、シス テムにより自動的に「参考用正確文」が表示されるようになってい る。従って、添削が終わっていない作文に関しては、「修正文」が 表示されていないため、「参考用正確文」の画面も空白となっている。
4.4.5 MeCabでの解析機能
MeCab は、京都大学情報学研究科と日本電信電話株式会社コミュ ニケーション科学基礎研究所との共同研究ユニットプロジェクト を通じて開発された、オープンソースの形態素解析エンジンであ る。本コーパスにはこの解析ツールが組み込まれている。具体的 には、図 9 と図 10 のように「顕示詞性(品詞を示す)」の「詞性(品 詞)」あるいは「原形 + 詞性(原形 + 品詞)」をチェックすること により、任意に選択した作文の「原文」や「参考用正確文」につ いて形態素解析を行うことができる。
図9. MeCabでの解析結果例(品詞)
図10. MeCabでの解析結果例(原形+品詞)
ただし、MeCab による解析については、修正を加えなければな らない点もある。例えば、図 9 の「上手に」というナ形容詞の形 態素分析は、「上手(名詞)」と「に(助詞)」と表示されている。
MeCab の解析精度はかなり高いものの、このような誤った解析も 見られるため、再度人の手によって確認する必要がある。これに ついては今後の課題としたい。
5. おわりに
「台湾人日本語学習者コーパス」は、2009 年 6 月に 2008 学年 度後期のデータ収集を終了したばかりである。ただし、既に収集 された作文データについても、教師による添削や手書きデータの 電子化、タグの付加、MeCab の解析結果の校正やシステムの修正 など、データの処理は完全には終了していない。また将来的には インデックスの中に索引語頻度の項目を増設し、クエリーの頻度 順の集計およびその配置を可能としたい。これらの課題や改善を できるだけ早く完遂させることが今後の目標である。