「神」が最も頻出した時代も一目瞭然-グーグルの書籍デジタル化で

世界の書籍で「神」という単語 が最も多く利用されたのは1830年ごろ。「女性」という単語の利用頻 度は1985年以降「男性」を上回っている。過去60年間に書籍に登場 した回数は、オーストリアの精神科医ジークムント・フロイトが英博物 学者チャールズ・ダーウィンやドイツ生まれの米理論物理学者アルバー ト・アインシュタインより多い-。

そんな結果が、米ハーバード大学とインターネット検索最大手の米 グーグルが実施したデジタル化された書籍520万冊を対象とした共同調 査で明らかになった。調査対象はあらゆる言語で出版された書籍の約 4%に相当。1800年から2000年までの言語のパターンや文化的トレン ドを数量化した。4年間にわたるプロジェクトの結果は米科学誌サイエ ンスで16日、発表された。

ハーバード大の研究者らはこの分野を、科学者が遺伝子を研究する ため数十億ビットに上る定量的データを利用するゲノミクス(ゲノム 学)を連想させる「カルチャロミクス」と名付けている。グーグルは世 界で出版された1億3000万冊のうち12%をデジタル化している。16日 には利用者が単語や熟語の利用頻度を追跡できるオンラインツールを発 表した。同社はこのプロジェクトに資金や人員を提供した。

研究リポートの共同執筆者でハーバード大レボルーショナリー・ダ イナミクス・プログラムの博士研究員、ジャン・バプティスト・ミシェ ル氏は電話インタビューで「このデータは人文学の新たなツールにな る」と説明。「人間社会に関する問題に取り組む際に利用できるパズル の一部分のようだ」と述べた。

研究者らはこのデータを英語の語彙(ごい)目録や社会の集合記 憶、文法の変化や検閲の影響について研究するために利用した。

ハーバード大の研究者で調査リポートの共同執筆者、エレズ・リー バーマン・エイデン氏は「このツールを利用すれば、長い年月の間の単 語や概念の利用のされ方に容易にアクセスできる」と指摘。「これを達 成するには単語がいかに利用されているかを数量化する必要があるた め、常に困難だと考えられてきた。極めて博学の人でも全ての書籍を 読破するのは不可能だ」と語る。

データベースのテキストの約72%は英語で、フランス語やスペイ ン語、ドイツ語、中国語、ロシア語、ヘブライ語がこれに続く。ミシェ ル氏によると、人文学の歴史上、最大規模のデータ公開でダウンロード も可能だ。

ミシェル氏によると、データベースの書籍データは1500年代にさ かのぼるが、科学的分析に利用する場合は1800-2000年の出版物に制 限されるべきだという。1800年以前の資料は不足しており、グーグル は、デジタル化が進められている2000年以降の書籍については基準を 変更した。

    最新の情報は、ブルームバーグ端末にて提供中
    LEARN MORE