Apprentissage Automatique appliqué à la sélection des articles scientifiques pour les revues systématiques

1. A propos du cours

  1. Auteur : Abdelmokim Mahboubi
  2. Type : Mémoire de Master en Informatique — Université 8 Mai 1945 Guelma (2021)
  3. Langue : Français
  4. Licence : Dépôt institutionnel — Usage académique (Université de Guelma)

2. Courte description du cours

Ce mémoire aborde la problématique de l’automatisation du processus de sélection d’articles scientifiques dans le cadre des revues systématiques, en combinant des techniques d’apprentissage automatique et d’ontologie pour améliorer la pertinence et réduire la charge de tri manuel.

2. Longue description du cours

Le travail présenté par Abdelmokim Mahboubi s’inscrit dans la discipline de l’informatique documentaire et de l’ingénierie des connaissances. Il vise à automatiser une étape essentielle des revues systématiques : la sélection et la classification des articles scientifiques pertinents. Ces revues constituent un outil majeur pour synthétiser la littérature dans un domaine donné, mais elles exigent un tri manuel long et coûteux en ressources humaines.

Le mémoire propose une approche hybride alliant apprentissage supervisé et représentation sémantique basée sur les ontologies. L’auteur décrit comment les métadonnées bibliographiques (titres, résumés, mots-clés) peuvent être transformées en vecteurs de caractéristiques par le biais de techniques comme le TF-IDF et enrichies par un modèle ontologique décrivant les relations sémantiques entre concepts du domaine étudié.

Après avoir présenté un état de l’art complet sur les revues systématiques et les méthodes d’automatisation existantes, le document développe une architecture modulaire composée de plusieurs couches :

  • Extraction et prétraitement des métadonnées provenant de multiples sources (IEEE, ACM, Springer, Scopus, ScienceDirect).
  • Enrichissement sémantique grâce à une ontologie métier pour étendre les mots-clés et améliorer la compréhension contextuelle.
  • Classification automatique via des modèles d’apprentissage supervisé (SVM, régression logistique, Naive Bayes) afin de déterminer la pertinence des articles.
  • Évaluation à l’aide de métriques classiques (précision, rappel, F-mesure) pour juger la performance du système.

Le mémoire détaille aussi la conception d’un prototype logiciel qui automatise le flux de travail complet. L’application permet à un chercheur de soumettre des requêtes thématiques, de collecter des résultats depuis plusieurs bases de données, puis de visualiser la liste des articles retenus selon le score de pertinence calculé par le classifieur. L’auteur illustre également comment les ontologies améliorent la couverture des termes et réduisent les faux négatifs en détectant les synonymes et les relations hiérarchiques (par exemple, entre « machine learning » et « classification supervisée »).

L’expérimentation montre que l’intégration de l’ontologie à la phase de vectorisation améliore sensiblement les performances de classification, notamment en termes de rappel, ce qui est essentiel pour ne pas exclure des articles pertinents. L’étude propose aussi une analyse critique des limites de l’approche : qualité inégale des métadonnées, taille restreinte du jeu d’apprentissage, et dépendance au domaine de l’ontologie. L’auteur suggère plusieurs perspectives, telles que l’utilisation de modèles de langage modernes (Word2Vec, BERT) et la mise en place d’un apprentissage actif permettant à l’utilisateur d’affiner les prédictions du modèle par validation manuelle.

Le mémoire se conclut sur la valeur ajoutée de cette approche pour les chercheurs en ingénierie logicielle, en bibliométrie et en fouille de textes, soulignant que l’automatisation des revues systématiques peut considérablement réduire le temps d’analyse tout en améliorant la reproductibilité scientifique.

3. Aperçu du document

Voir ou télécharger le document sur le site d’origine

Ce document est hébergé par une source externe (Université 8 Mai 1945 Guelma). Nous ne revendiquons aucun droit sur son contenu. Pour toute demande de retrait, veuillez contacter l’auteur ou l’hébergeur officiel.

Leave a Reply

Your email address will not be published. Required fields are marked *