
このサイトでは大学共同利用機関法人人間文化研究機構国立国語研究所と文部科学省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で開発した『現代日本語書き言葉均衡コーパス』(BCCWJ:Balanced Corpus of Contemporary Written Japanese)のデータを検索できます。BCCWJには、現代の日本語の書き言葉の全体像を把握できるように集められたサンプルが約1億語収録されています。
本サイトで可能な検索は文字列検索(全文検索)だけですが、形態論情報を利用した検索サイト「中納言」も開設しています。詳しくは以下の URL をご覧下さい。なお、中納言の利用には申請が必要です。
https://chunagon.ninjal.ac.jp/
コーパスの構築にあたっては、全サンプルについて著作権処理を実施しており、その結果、権利者の方から利用を拒否されたサンプルは公開対象から除外してあります。
まず、現在表示されている画面下の「利用条件を読んで少納言を使う」ボタンをクリックして、利用条件に同意したうえで、検索条件指定画面に移動します。
次に検索したい文字列を「検索文字列」に全角文字で入力してください。本コーパスではアルファベット、数字、句読点もふくめてすべての文字が全角で入力されていますので、半角文字は使わないでください。
検索文字列指定画面ではテキストの「メディア/ジャンル」と「期間」を指定することができます。より細かいジャンルや年を指定する場合は をクリックして選択肢を開いたのち、指定したい条件をチェックしてください。
検索文字列を入力したら「検索」ボタンをクリックしてください。検索結果画面に検索結果が表示されます。
検索結果は検索結果画面に表示されます。左から順に「表示番号」「前文脈」「検索文字列」「後文脈」「執筆者」「生年代」「性別」「メディア/ジャンル」「タイトル」「副題」「巻号」「編著者等」「出版者」「出版年」が表示されます。
検索結果画面では表の見出しをクリックするとその列の文字列でソートすることができます。ソートを解除して検索結果の初期状態にもどすには、ブラウザの「表示」メニューから「最新の情報に更新」を選択してページを再度読み込んでください。
2012年3月現在、検索対象となっているのは、以下の11種のデータ、合計約1億500万語です。サンプルは、それぞれ無作為抽出によって抜き出しています。
書籍 (1971〜2005年、22,058件、約6,270万語)
雑誌 (2001〜2005年、1,996件、約440万語)
新聞 (2001〜2005年、1,473件、約140万語)
白書 (1976〜2005年、1,500件、約490万語)
教科書 (2005〜2007年、412件、約90万語)
広報紙 (2008年、354件、約380万語)
Yahoo!知恵袋 (2005年、91,445件、約1,030万語)
Yahoo!ブログ (2008年、52,680件、約1,020万語)
韻文 (1980〜2005年、252件、約20万語)
法律 (1976〜2005年、346件、約110万語)
国会会議録 (1976〜2005年、159件、約510万語)
()内は、それぞれのデータの発行年、サンプル数、句読点・記号を除いた推定語数です。
ひとつのテキストからは長さの異なる二種類のサンプルを採取しています。ひとつは長さを1000字に固定したサンプル (固定長サンプル)、もうひとつは、節や章など文章の意味上のまとまりに対応した単位の全体です (可変長サンプル)。これまでの調査によれば、可変長サンプルの平均長は新聞で約1000字、書籍で4000字弱です。
本コーパスに収録するサンプルの大部分は、公開されている各種出版データや東京都下の公共図書館の蔵書データを母集団として、そこから無作為に抽出されたものです。特定の本や雑誌の特定の一部分がサンプルとして選択されているのは、無作為抽出の結果、偶然そこが選択された結果です。語学ないし文学の立場からの価値判断は一切おこなっていません。本コーパスが現代日本語の書き言葉を代表するとみなされうるのは、新聞社などが実施する無作為抽出にもとづく世論調査が日本国民を代表するのと同じ意味においてです。