Coaldigger est un logiciel libre, accessible sur mon Gitlab.

Toutes les 15 minutes : 1. Récupérer tous les liens pointant vers des articles à partir de Google News ou d'autres agrégateurs | Pour chaque lien : 2. Vérifier si l'article est déjà enregistré dans la base de données | Si pas : 3. Vérifier si le site web dont l'article provient est une source connue | Si la source est connue : 4. Extraire le titre, les images, le chapeau, le corps du texte en utilisant des sélecteurs css et des méthodes de traitement spécifiques (ex: conversion de dates, remplacement par regex, ...) liées à la source | 5. Enregistrer ces éléments dans la base de données | 6. Télécharger les images

Coaldigger est un extracteur de contenu web qui recherche et enregistre des articles d'actualité en partant d'aggrégateurs de contenu comme Google News. Les agrégateurs et les sites web qui hébergent les articles sont identifiés comme des "mines" dans le code de Coaldigger. Chaque mine connue contient des "extractors", qui sont des outils utilisés pour analyser le code source des pages provenant de la mine. Un extracteur peut extraire des liens vers d'autres mines (dans le cas d'un agrégateur) ou le contenu à enregistrer dans la base de données (dans le cas d'un article).

Outre la partie extraction de contenu, Coaldigger analyse et essaie de déduire d'autres informations à partir des articles téléchargés. Ces analyses ont lieu dans un processus distinct de l'extraction, qui utilise des petits modules appelés "refiners". Un "refiner" (par exemple une analyse particulière d'une image) peut être ajouté à Coaldigger sans redémarrer ou ré-initialiser Coaldigger. Lorsqu'il est ajouté, il s'appliquera d'abord à l'ensemble des données déjà enregistrées dans la base de données avant de s'appliquer à chaque session aux nouvelles données extraites.

Une instance de Coaldigger fonctionne depuis le mois de janvier 2014 à l'adresse http://coaldig.com. Elle a actuellement téléchargé environ 476.000 articles et 395.000 images.

Coaldigger | Diagrame de séquence