Les archives de la presse sont toujours une mine d’informations pour les historiens. Alliées aux outils du big data, elles peuvent fournir une grille d’analyse très intéressante.
Ainsi, plus de 35 millions d’articles de la presse britannique parus entre 1800 et 1950 ont été numérisés, soigneusement indexés par leur date de publication et région d’origine.
L’enjeu est de les analyser à grande échelle avec les algorithmes du machine learning et révéler ou confirmer des tendances statistiques et historiques. Une des approches est d’évaluer la fréquence d’apparition d’un mot suivant sa date de publication. Et les résultats parlent d’eux-mêmes : par exemple, le mot « électricité » qui vient supplanter le mot « vapeur » au début des années 1900 avec la deuxième révolution industrielle, représentatif d’une époque technique.
Cette démarche n’apprend rien de neuf lorsqu’il s’agit des transformations sociales ou technologiques largement étudiées et commentées. Néanmoins, elle peut s’avérer utile pour étudier les phénomènes sociaux plus complexes, comme le sexisme ou l’évolution des opinions politiques. On peut aussi observer l’émergence de la pop culture qui explose dès les années 1890 avec les mentions à « acteur/actrice », « chanteur/chanteuse » ou encore le fait que le mot « football » était déjà mentionné plus souvent que le mot « cricket » en 1909.
« Tout ne peut pas être automatisé. L’étude des implications sociales est et restera du ressort des sciences humaines », développe Tom Lansdall-Welfare, ingénieur de recherche dans le département d’informatique de l’Université de Bristol. « Nous pensons que les approches data-driven peuvent utilement compléter les approches traditionnelles afin de détecter les ruptures culturelles dans de larges jeux de documents historique », écrit-il aussi.