概要説明

「名大会話コーパス」の作成手順、特徴、問題点

Ⅰ.ファイル作成手順

  1. 主として院生にテープレコーダーかMDプレーヤーと外付けのマイクを渡し、30分〜1時間ぐらいの雑談の収録を依頼する。
  2. 録音場所はどこでもいいが、なるべく静かな所で録音するように指示する。
  3. 文字化の際、発話者の特定が容易にできるように、会話参加人数は2名を原則とした。しかし、実際には3名、4名の会話もある。
  4. 会話参加者には、日本語・日本語教育研究のためにデータの使用を認める同意書に署名してもらった。(別紙参照)
  5. テープ/MDの文字おこしを業者に依頼した。文字化の方法についてはⅡで述べる。
  6. 文字化されたデータを院生に再度チェックしてもらう。
  7. プライバシーの問題、その他公開に問題ありと判断された部分はカットし、<中略>と記した。また、問題のある単語に関しては、聞き取り不能の印***を入れた。

Ⅱ.文字化について

文字おこしを依頼するにあたって、業者と交わした覚え書き、及びその他、文字化に関わる情報は次の通りである。
  1. できるだけ音声に忠実に文字化する。
  2. ヘッダーはで始まり、一会話の最後は@ENDとする。
  3. 聞き取れる声はすべて文字化し、聞き取れない部分には***を入れる。
  4. 相づちと思われる発話は(   )の中に入れる。
  5. 発話の重なりは示さない。重なった部分は別の発話として書く。
  6. 上昇調イントネーションはで示す。
  7. 笑いは<笑い>とする。相手の笑いは(<笑い>)とする。
  8. 各発話の初めには発話者のコードを入れる。
       ただし、 同一人物の発話が続く場合は、発話者を記さない。
  9. 一定の長さ以上の沈黙は<間>で示す。
  10. 漢字の発音が問題になりそうな時は【 】 の中に仮名を入れる。
  11. 補足情報は、%com:の後に入れる。
  12. アルファベット、数字、記号はすべて全角とする。
  13. 年齢に関しては次のように記載する。
15歳〜19歳  10代後半
20歳〜24歳  20代前半
25歳〜29歳  20代後半  以下同様。

Ⅲ.本コーパスの特徴

  1. 名古屋近辺で録音されたデータが最も多いが、東京近辺、北海道、新潟で録音されたものもある。
  2. 共通語による会話が大半を占めるが、方言も使われている。
  3. 参加者の年代は様々で10代〜90代までと幅広い。女性の方が多い。
  4. 日本語教育関係者、言語研究者が多いので、日本語のメタ言語的な使い方が多い。
  5. 親しい者同士の雑談が多いが、初対面同士、研究メンバー同士の会話も一部入っている。先輩--後輩の会話もある。
  6. 話題を一切制限していない雑談であるが、参加者は録音していることを知らされていた。

Ⅳ.データの問題点

  1. 「収集記録表」の記載方法に問題があり、方言の特定が難しい場合がある。
  2. 文字化に関係して次のような問題がある。
    1. 長さ、促音等の聞き取りとその文字化。
    2.  「ねー」「ね」
       「そうか」「そっか」
    3. あいづちの表記
    4.  「ん」「うん」など、ひらがな表記が非常に難しい相づちがある。
        
    5. 相づちの認定が難しい。
    6.   
    7. 業者には、音声に忠実な文字化を依頼したが、どうしても意味に影響されるところがある。
      (例)けれど→ けれども
      できるだけ修正を試みたが、まだ誤りの残っている可能性がある。
    8.   
    9. 発話者の意図と実際の発音がずれるところがある。
    10. (例)「そうよ」→「そうや」に聞こえる。
        
    11. 地名・人名・方言は聞き取りにくい。聞き慣れない若者語も同じである。
    12. (例)左が正しい表現であるが、右のように聞き取られている。
        かてきょー(家庭教師) → 結構
        ふところに入れる → 置くとこに入れる
        猪突猛進→ ととつもうし
        よめゃあみんな書いてるんです。→ いわやみんな書いてるんです
        
    13. フランス語、英語も出てくる。英語はそのままアルファベットで表記したが、フランス語は<フランス語>とした。
    14.   
    15. 漢字使用のため、実際の発音がはっきりしない部分がある。
    16. (例)私→わたし、わたくし?
        何か→なんか、なにか?
        
    17. 一発話の認定基準がはっきりしていないため、句点の位置はかなり恣意的である。
    18.   
    19. 発話の重なりは、表記に反映されていない。

Ⅴ.公開にあたって

テキストファイルによる全データの公開にあたり、プライバシー保護のため、参加者は次のようにコード化した。
女性:F+数字、男性:M+数字
(例)F001,F002,M001,M002
会話中に登場する固有名詞は、必要と思われる場合、アルファベットで示し、固有名詞が多い場合は、アルファベット+数字で示した。
(例)A2,B2 etc.