概要説明
「名大会話コーパス」の作成手順、特徴、問題点Ⅰ.ファイル作成手順
- 主として院生にテープレコーダーかMDプレーヤーと外付けのマイクを渡し、30分〜1時間ぐらいの雑談の収録を依頼する。
- 録音場所はどこでもいいが、なるべく静かな所で録音するように指示する。
- 文字化の際、発話者の特定が容易にできるように、会話参加人数は2名を原則とした。しかし、実際には3名、4名の会話もある。
- 会話参加者には、日本語・日本語教育研究のためにデータの使用を認める同意書に署名してもらった。(別紙参照)
- テープ/MDの文字おこしを業者に依頼した。文字化の方法についてはⅡで述べる。
- 文字化されたデータを院生に再度チェックしてもらう。
- プライバシーの問題、その他公開に問題ありと判断された部分はカットし、<中略>と記した。また、問題のある単語に関しては、聞き取り不能の印***を入れた。
Ⅱ.文字化について
文字おこしを依頼するにあたって、業者と交わした覚え書き、及びその他、文字化に関わる情報は次の通りである。- できるだけ音声に忠実に文字化する。
- ヘッダーは@で始まり、一会話の最後は@ENDとする。
- 聞き取れる声はすべて文字化し、聞き取れない部分には***を入れる。
- 相づちと思われる発話は( )の中に入れる。
- 発話の重なりは示さない。重なった部分は別の発話として書く。
- 上昇調イントネーションは?で示す。
- 笑いは<笑い>とする。相手の笑いは(<笑い>)とする。
- 各発話の初めには発話者のコードを入れる。
ただし、 同一人物の発話が続く場合は、発話者を記さない。 - 一定の長さ以上の沈黙は<間>で示す。
- 漢字の発音が問題になりそうな時は【 】 の中に仮名を入れる。
- 補足情報は、%com:の後に入れる。
- アルファベット、数字、記号はすべて全角とする。
- 年齢に関しては次のように記載する。
15歳〜19歳 10代後半
20歳〜24歳 20代前半
25歳〜29歳 20代後半 以下同様。
Ⅲ.本コーパスの特徴
- 名古屋近辺で録音されたデータが最も多いが、東京近辺、北海道、新潟で録音されたものもある。
- 共通語による会話が大半を占めるが、方言も使われている。
- 参加者の年代は様々で10代〜90代までと幅広い。女性の方が多い。
- 日本語教育関係者、言語研究者が多いので、日本語のメタ言語的な使い方が多い。
- 親しい者同士の雑談が多いが、初対面同士、研究メンバー同士の会話も一部入っている。先輩--後輩の会話もある。
- 話題を一切制限していない雑談であるが、参加者は録音していることを知らされていた。
Ⅳ.データの問題点
- 「収集記録表」の記載方法に問題があり、方言の特定が難しい場合がある。
- 文字化に関係して次のような問題がある。
- 長さ、促音等の聞き取りとその文字化。
- あいづちの表記
- 相づちの認定が難しい。
- 業者には、音声に忠実な文字化を依頼したが、どうしても意味に影響されるところがある。
(例)けれど→ けれども
できるだけ修正を試みたが、まだ誤りの残っている可能性がある。
- 発話者の意図と実際の発音がずれるところがある。
- 地名・人名・方言は聞き取りにくい。聞き慣れない若者語も同じである。
- フランス語、英語も出てくる。英語はそのままアルファベットで表記したが、フランス語は<フランス語>とした。
- 漢字使用のため、実際の発音がはっきりしない部分がある。
- 一発話の認定基準がはっきりしていないため、句点の位置はかなり恣意的である。
- 発話の重なりは、表記に反映されていない。
「ねー」「ね」
「そうか」「そっか」
「ん」「うん」など、ひらがな表記が非常に難しい相づちがある。
(例)「そうよ」→「そうや」に聞こえる。
(例)左が正しい表現であるが、右のように聞き取られている。
かてきょー(家庭教師) → 結構
ふところに入れる → 置くとこに入れる
猪突猛進→ ととつもうし
よめゃあみんな書いてるんです。→ いわやみんな書いてるんです
(例)私→わたし、わたくし?
何か→なんか、なにか?
Ⅴ.公開にあたって
テキストファイルによる全データの公開にあたり、プライバシー保護のため、参加者は次のようにコード化した。女性:F+数字、男性:M+数字
(例)F001,F002,M001,M002会話中に登場する固有名詞は、必要と思われる場合、アルファベットで示し、固有名詞が多い場合は、アルファベット+数字で示した。
(例)A2,B2 etc.