Al Jinan الجنان
Abstract
Cet article décrit un outil qui se sert de l’ingénierie de la langue pour l’extraction d’information à partir des sites web en arabe, Ces informations serviront aux documentalistes du Web poue créer des fches d’archivage pour les sites. Une fche d’archivage est proposée, l’objectif étant de remplir cette fche automatiquement. Pour la reconnaissance et la classifcation des segments textuels, la méthode d’exploration contextuelle proposée par Descles est utilisée, les marqueurs et règles linguistiques sont défnis en se basant sur une étude synthétique des spécifcités de la langue arabe. Un corpus de plus de 1300 sites Web en langue arabe a été construit, les résultats obtenus montrent l’intérêt de l’approche pour constituer des fches d’archivage des sites Web en langue arabe
Recommended Citation
Alhajj, Moustafa and Sabra, Amani
(2018)
"Extraction d’information à partir des sites Web en arabe basée sur une méthode à base des règles,"
Al Jinan الجنان: Vol. 10, Article 22.
Available at:
https://digitalcommons.aaru.edu.jo/aljinan/vol10/iss1/22