2015年3月10日 第7回コーパス日本語学ワークショップ

  • タイトル: コーパスシステム『Co-Chu』の開発 ―MeCab拡張データ処理機能について―
  • 発表者: ラニガン マシュー (中部大学大学院)
  • 要旨:

    本発表では、音声データを書き起こしたものを形態素解析にかける際に起こる問題点とその解決方法の一つとして、MeCab拡張データ処理システムについて報告する。コーパスシステム『Co-Chu』は、コーパス検索だけでなく、コーパス開発のツールとして開発された。『名大会話コーパス』『日本語学習者会話データベース』『BTSJによる日本語話し言葉コーパス』をシステムに入れたところ、音声書き起こしコーパスに現れる学習者の誤用、言いよどみやフィラーなど、形態素解析のエラーを及ぼすものが様々あった。それらを排除する手段もあるが、そうすると分析対象とならないため、それらの問題点を補うシステムが必要となる。そこで、『Co-Chu』の開発の際に、特定の読みや出現形を選定するタグや辞書エントリーを一時的に導入するタグを付け、MeCab拡張タグを開発した。本発表では、『Co-Chu』の MeCab拡張データ処理システムとその仕組みについて報告する。

  • PDF ダウンロード: こちら