Accessibilité Contact Aller au menu Aller au texte

RetroWeb, un logiciel open­source pour l’extraction de données sur Internet

Intervenant(s) : Fabrice Estiévenart
Langue : Français Niveau : Confirmé Type d'événement : Conférence
Date : Jeudi 8 juillet 2010 Horaire : 15h00 Durée : 20 minutes
Lieu : ENSEIRB - Amphi A

Développé au CETIC (Centre d’Excellence en Technologies de l’Information et de la Communication), Retroweb est un logiciel open­source pour l’extraction de données sur Internet. Il permet de construire, rapidement et de façon visuelle, des extracteurs robustes et performants. Ces programmes, aussi appelés « wrappers », sont capables de convertir les données enfouies au sein des pages HTML en données structurées et interprétées (i.e. dont la sémantique est définie).

Les extracteurs peuvent ensuite être utilisés pour alimenter un outil de gestion documentaire ou toute autre base de données interne à l’entreprise. Retroweb peut être intégré dans des moteurs de recherche, des outils de veille technologique ou être utilisé pour la migration d’un site Web vers une base de données ou un outil de gestion de contenu (CMS).

L’architecture de Retroweb se compose de deux modules complémentaires :

  • Retroweb­Browser est une interface graphique pour la création des règles d’extraction.
  • Retroweb­Wrapper utilise les règles pour extraire les données vers un format XML structuré et interprété. Ce processus peut être répété de manière périodique dans le cadre d’un projet de veille, par exemple.

Sur le plan technique, Retroweb est une application Java 6 basée sur le framework Eclipse­RCP. Le moteur de rendu des pages Web est Gecko (notamment utilisé dans le navigateur Firefox) et les règles d’extraction sont basées sur le langage XPath, standard du W3C. L’architecture logicielle de Retroweb est de type Modèle­Vue­Contrôleur (MVC) afin de réduire la taille du code et faciliter le développement de nouvelles fonctionnalités. Retroweb est disponible sur la forge PALLAVI. Cette forge est déployée et maintenue par le CETIC dans le cadre du projet CELLaVI (Centre d’Expertise en Logiciel Libre à Vocation Industrielle) dont l’objectif est d’aider les entreprises wallonnes à choisir et à adopter le logiciel libre.

Dans cet exposé, j’expliquerai les motivations et les défis de l’extraction de données sur Internet. Je présenterai la méthode mise en place et implémentée dans Retroweb ainsi qu’une étude de cas visant à extraire des données structurées à partir de forum de discussion.

A propos de l’auteur

Licencié en informatique à l’Université de Namur (Belgique), Fabrice Estiévenart est actuellement ingénieur de recherche au CETIC (Centre d’Excellence en Technologies de l’Information et de la Communication) au sein de l’équipe « Traitement Sémantique de l’Information ».

Expert des technologies d’indexation et des moteurs de recherche, il est le développeur principal de Retroweb, un logiciel open­source pour l’extraction de données sur Internet. Son travail quotidien consiste à aider les entreprises à mieux gérer leur information non­structurée (texte, média, …). Il possède une bonne connaissance des technologies open­source existantes dans ce domaine (e.g. Lucene, Nutch ou Solr).

Documents joints

Support de présentation
Support de présentation (PDF - 1.6 Mo)