- タイトル: 母語話者と学習者の話ことばデータを使ったコーパスシステムCo-Chuの研究事例
- 発表者: 小森 早江子 (中部大学), ラニガン マシュー
- 要旨:
近年のコンピューターの発達に伴って、研究・教育の現場でもさまざまな利用法が提案されるようになった。しかし、言語の研究者や教師が言語データを分析可能な形式に整えて解析し結果を分析することは、容易であるとは言えない。そのためコンピューターに苦手意識がある人も平易に使えるツールとしてコーパスシステムCo-Chuの開発に取り組んでいる。Co-Chuはコーパス日本語学のためのウェブアプリケーションであり、研究者や教師が自分で収集したオリジナルデータをコーパス化して利用できる。【Build】【Import】【Edit】【Analyze】の4つの機能を一つのインターフェイスで使えるようにデザインされている。Co-Chuでは、語(表現)の検索、頻度、コロケーションの分析が可能である。検索、頻度分析では、話者の属性による表現の違いや、対話の相手による表現の使い分けの有無等を分析することができる。また日本語の発話データを文字化すると、笑い声や聞き取れなかった部分などに使用する記号などが含まれ、形態素解析には都合が悪い。そのため、記号を含まないデータを用いてMIスコアを算出する必要がある。Co-chuではこれらの処理を自動でおこない、MIスコアの算出に支障のないようにしている。コロケーション分析にあたっては、Wei and Li (2013)で提案されたNグラム解析とMIスコアの計算方法に基づいて日本語用に改良したものを利用している。本発表では、Co-Chuで構築したオリジナルデータのコーパスについて、記号を含んだコーパスと記号を除いたコーパスごとに高頻度表現のMIスコアを比較し、結果の質にどのような違いが見られるかを分析する。
- PDF ダウンロード: こちら