⌂ : Coaldigger :
Coaldigger est un logiciel libre, accessible sur mon Gitlab.
Coaldigger est un extracteur de contenu web qui recherche et enregistre des articles d'actualité en partant d'aggrégateurs de contenu comme Google News. Les agrégateurs et les sites web qui hébergent les articles sont identifiés comme des "mines" dans le code de Coaldigger. Chaque mine connue contient des "extractors", qui sont des outils utilisés pour analyser le code source des pages provenant de la mine. Un extracteur peut extraire des liens vers d'autres mines (dans le cas d'un agrégateur) ou le contenu à enregistrer dans la base de données (dans le cas d'un article).
Outre la partie extraction de contenu, Coaldigger analyse et essaie de déduire d'autres informations à partir des articles téléchargés. Ces analyses ont lieu dans un processus distinct de l'extraction, qui utilise des petits modules appelés "refiners". Un "refiner" (par exemple une analyse particulière d'une image) peut être ajouté à Coaldigger sans redémarrer ou ré-initialiser Coaldigger. Lorsqu'il est ajouté, il s'appliquera d'abord à l'ensemble des données déjà enregistrées dans la base de données avant de s'appliquer à chaque session aux nouvelles données extraites.
Une instance de Coaldigger fonctionne depuis le mois de janvier 2014 à l'adresse http://coaldig.com. Elle a actuellement téléchargé environ 476.000 articles et 395.000 images.