Introduction au Deep Learning (notes de cours)

1. A propos du cours

  1. Auteur : Romain Tavenard
  2. Type : Notes de cours universitaires (51 pages, PDF, v. 28 novembre 2023)
  3. Langue : Français
  4. Licence : Non spécifiée – diffusion pédagogique libre

:contentReference[oaicite:0]{index=0}

2. Courte description du cours

Ces notes francophones initient au Deep Learning : perceptron, MLP, fonctions de coût, optimisation et régularisation, CNN pour images et séries temporelles, RNN (LSTM, GRU). Illustrées de code Keras et d’exercices, elles couvrent l’essentiel pour débuter en apprentissage profond (≈ 240 caractères).:contentReference[oaicite:1]{index=1}

3. Longue description du cours

Origine et public : Rédigé pour les étudiants de l’Université de Rennes 2 et de l’EDHEC Lille, ce polycopié constitue un tremplin vers les méthodes modernes d’apprentissage automatique à grand échelle. Il suppose une bonne maîtrise de l’algèbre linéaire, du calcul différentiel et des fondamentaux de Python & NumPy, mais reste accessible grâce à une pédagogie pas-à-pas et de nombreux exemples exécutables. Le texte français est une traduction semi-automatique de la version anglaise, permettant aux lecteurs bilingues de naviguer entre les deux corpus.:contentReference[oaicite:2]{index=2}

Chapitre 1 – Introduction. Partant du perceptron à neurone unique, l’auteur pose les notions clés : fonction d’activation, marge de classification et descente de gradient. Un premier jeu de données (prix de maisons de Boston) sert de fil rouge pour visualiser la convergence et le rôle du taux d’apprentissage. Les illustrations matplotlib montrent comment un pas trop grand peut faire diverger l’optimisation, instaurant d’emblée une réflexion critique sur le choix des hyper-paramètres.:contentReference[oaicite:3]{index=3}

Chapitre 2 – Perceptrons multicouches (MLP). La puissance d’expression contextuelle est introduite via l’empilement de couches linéaires. La section compare ReLU, tanh et sigmoid, puis détaille la mise en œuvre de modèles denses avec keras.Sequential, y compris la définition du schéma d’input, la compilation avec optimizer='adam' et le suivi de la métrique accuracy. Des tableaux de recommandations aident à fixer la taille des couches cachées selon la complexité du jeu de données.:contentReference[oaicite:4]{index=4}

Chapitre 3 – Fonctions de coût. Erreur quadratique moyenne, entropie croisée et log-loss sont exposées côte à côte pour la régression et la classification. L’auteur insiste sur l’interprétation probabiliste de la log-loss comme négative log-vraisemblance et détaille comment le choix de la métrique influence la topologie du paysage de perte. Des fragments de code affichent le graphe de la fonction de perte et permettent au lecteur de comprendre la dynamique du gradient au voisinage du minimum.:contentReference[oaicite:5]{index=5}

Chapitre 4 – Optimisation. Au-delà de la descente de gradient stochastique (SGD), on trouve une comparaison empirique entre SGD, Momentum, RMSProp et Adam, avec des courbes de convergence chronométrées. L’auteur explique la « malédiction de la profondeur » et introduit l’astuce Glorot uniform pour l’initialisation ainsi que le scheduler ReduceLROnPlateau. Une section consacrée au prétraitement (standardisation, one-hot encoding) rappelle que l’ingénierie des données reste cruciale même à l’ère du deep learning.:contentReference[oaicite:6]{index=6}

Chapitre 5 – Régularisation. Early stopping, pénalisation L2, DropOut et data augmentation sont mis en perspective. L’auteur démontre, exemples chiffrés à l’appui, le compromis biais/variance et invite à monitorer la courbe val_loss plutôt que la seule loss. Les exercices demandent de reproduire les figures avec différentes tailles de Batch et valeurs de dropout_rate afin de quantifier l’effet de la régularisation sur l’erreur de généralisation.:contentReference[oaicite:7]{index=7}

Chapitre 6 – Réseaux neuronaux convolutifs (CNN). Après une introduction au filtrage spatial, la section sépare l’étude des séries temporelles (1D CNN) et des images (2D CNN). Sont abordés : padding, stride, pooling et transfert d’apprentissage avec MobileNetV2. Les figures illustrent la réduction de dimension au fil des couches et l’impact d’un fine-tuning partiel. Un tutoriel Keras complet charge CIFAR-10, entraîne un modèle VGG-like et affiche une matrice de confusion.:contentReference[oaicite:8]{index=8}

Chapitre 7 – Réseaux neuronaux récurrents (RNN). Les architectures classiques, LSTM et GRU sont décrites dans le cadre de la prévision de suites numériques et de la classification de sentiments. On y détaille le flux d’informations à travers les portes d’entrée, d’oubli et de sortie, avant de fournir un exemple sur la base IMDB. La conclusion montre comment assembler RNN et CNN au sein d’un même modèle hybride pour la prédiction de séries multivariées.:contentReference[oaicite:9]{index=9}

Ressources pratiques. Chaque chapitre inclut un notebook Python (lien GitHub) répliquant les exemples et invitant l’étudiant à modifier interactivement les paramètres. La bibliographie propose Goodfellow et al. (2016), Chollet (2018) et le Tuning Playbook de Google Research comme lectures complémentaires.

Valeur pédagogique. Le document brille par son équilibre entre théorie formelle et implémentation pragmatique. Les passages mathématiques (dérivation des gradients, démonstration de la back-propagation) sont immédiatement suivis d’une version « code » pour lever l’abstraction. Cette approche duale favorise une compréhension durable et prépare l’étudiant à des projets concrets tels que la classification d’images médicales, la reconnaissance vocale ou la prédiction boursière.

En résumé, « Introduction au Deep Learning » fournit en une cinquantaine de pages un panorama cohérent des méthodes et bonnes pratiques qui sous-tendent l’apprentissage profond moderne, depuis le perceptron historique jusqu’aux réseaux récurrents de dernière génération, avec une emphase constante sur la reproductibilité via Keras et Python.

4. Aperçu du document

Leave a Reply

Your email address will not be published. Required fields are marked *