•  
  •  
 

Al Jinan الجنان

Al Jinan الجنان

Abstract

Cet article décrit un outil qui se sert de l’ingénierie de la langue pour l’extraction d’information à partir des sites web en arabe, Ces informations serviront aux documentalistes du Web poue créer des fches d’archivage pour les sites. Une fche d’archivage est proposée, l’objectif étant de remplir cette fche automatiquement. Pour la reconnaissance et la classifcation des segments textuels, la méthode d’exploration contextuelle proposée par Descles est utilisée, les marqueurs et règles linguistiques sont défnis en se basant sur une étude synthétique des spécifcités de la langue arabe. Un corpus de plus de 1300 sites Web en langue arabe a été construit, les résultats obtenus montrent l’intérêt de l’approche pour constituer des fches d’archivage des sites Web en langue arabe

Share

COinS