Dans le cours Initiez-vous au machine learning, vous avez découvert comment transformer une question que vous avez sur vos données en un problème d’apprentissage automatique non supervisé. Dans ce cours, vous apprendrez à choisir et utiliser les principaux algorithmes qui permettent de résoudre ces problèmes.
Vous découvrirez comment réduire la dimension de vos données grâce à des techniques linéaires comme l’analyse en composantes principales (ACP), ou des techniques non linéaires comme le très populaire t-SNE. Vous découvrirez aussi comment fonctionnent trois familles d’algorithmes de clustering : le clustering hiérarchique, k-means et le clustering par densité.
Suivez ce cours pour apprendre à réduire la dimension de vos données, mieux les visualiser ou pour rendre vos algorithmes plus efficaces, et pour découvrir comment segmenter automatiquement vos données, sans avoir à définir des classes a priori.
Prérequis:
Ce cours de Data Science se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :
- Python pour le calcul numérique (numpy) et la création de graphiques (pyplot), que nous utiliserons dans les parties TP du cours,
- Quelques notions d'algèbre linéaire : manipulation de vecteurs, multiplications de matrices, normes, et valeurs/vecteurs propres,
- Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance.
- Le cours d'initiation, qui vous permettra de situer les algorithmes non supervisées au sein de l'ensemble des méthodes de machine learning