2009年 データベース改定による変更点
各データのファイル名が変わりました
この「作文対訳データベース」は,2001年にCD-ROM版として公開されたのち,2003年からはインターネット上での公開を開始し,その後も拡張・発展をしてきました。2009年にはデータ抽出システムを大幅に改定し,作文・添削情報について,条件を指定してのデータ抽出が可能となりましたが,その際データのファイル名も変更することとしました。 新しいファイル命名規則は,こちらをご覧ください。
従来のファイル名の問題点
従来,このデータベースに掲載された作文データのファイル名は,「作文収集国」を表す英字2文字と,執筆者個人を特定するための数字3文字を基本として名づけられていました(例えば,「韓国における協力者の3人目が,日本語で書いた作文」は「kr003j」という名前になっていました)。執筆者の「母語」や「対訳に使用した言語」ではなく「作文収集国」をファイル命名のキーとしたのは,母語認定が困難である場合がある(日常会話ではX語を使用しているが,文章を書く時にはY語のほうが得意,など)インドのような多言語国家では学習者の母語は多様であり,また実際にさまざまな言語が対訳言語として使用されてもいるため,母語または対訳使用言語をキーとすると煩雑になるという理由があったからでした。
しかしながら,今後海外だけでなく,日本国内でも学習者の作文データを収集していくことを考えると,「作文収集国」のみを命名のキーとすることは実際的ではありません(日本国内で収集したデータについては,執筆者の母語にかかわらずすべてjpのカテゴリに入ってしまうため)。一方で,同じZ語母語話者であっても,日本国内の学習者と海外の学習者とでは習得の条件が違うため,「どの国で収集した作文か」という情報も依然として重要であると考えられます。
またこれまでは,「添削情報の付与された日本語作文」のファイル名も,添削収集時期によって命名規則が異なっており,効率的なファイル抽出が難しい状況にありました。
ファイル名リネーム方針
そこで今回,データベースに収録されたデータ全体を整理しなおし,新しいファイル命名規則の下,全ファイルのリネームをおこなうことにいたしました。
新しいファイル名では,データ収集国だけでなく,「そのデータが何語で書かれているか」「執筆者が対訳言語として使用している言語はなにか」「どの作文課題で書かれているか」等の情報もファイル名内で表現されています。
新しいファイル命名規則は,こちらをご覧ください。