Dans le cours Initiez-vous au machine learning, vous avez découvert les fondements de l'analyse de donnée automatisée. Dans ce deuxième cours, vous apprendrez à évaluer vos algorithmes pour les rendre plus performants.
De nombreux choix d'algorithmes d'apprentissage et de leurs hyperparamètres s'offrent aux Data Scientists. La nature du problème à résoudre permet en partie de guider ce choix. Par exemple, on n'appliquera pas un algorithme de classification à un problème de régression.
Néanmoins, il est nécessaire de savoir évaluer n'importe quel algorithme d'apprentissage sur son jeu de données, en évitant au mieux le biais de sur-apprentissage. Une évaluation rigoureuse des performances d'un algorithme est une étape indispensable à son déploiement.
Suivez ce cours pour apprendre à évaluer un modèle d'apprentissage supervisé afin de choisir le bon modèle pour votre problème, en évitant de tomber dans un des principaux pièges qui guettent les Data Scientists.
Prérequis :
Ce cours de Data Science se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :
- Python pour le calcul numérique que nous utiliserons dans la partie TP du cours (librairie numpy et création de graphes avec pyplot)
- Quelques notions d'algèbre linéaire, telles que manipulation de vecteurs, multiplications de matrices, normes
- Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance
- Le cours d'initiation au machine learning, afin d'avoir une meilleure idée du cycle global de travail d'un data scientist et comprendre où ce situe cette phase d'amélioration & mesure de performances