Ce livre présente à des personnes non Data Scientists, et sans connaissances particulières en mathématiques, la méthodologie du Machine Learning, ses concepts, ses principaux algorithmes et l’implémentation de ceux-ci en Python avec Scikit-learn.
Il commence par une présentation du Machine Learning puis de la méthode CRISP où chaque phase est détaillée avec ses différentes étapes. Les premiers chapitres s’intéressent donc aux phases de Business Understanding (compréhension métier), Data Understanding (ou compréhension des données) et de Data Preparation (préparation des données). Dans ces chapitres sont présentées des analyses statistiques de datasets, que cela soit sous forme numérique ou graphique ainsi que les principales techniques utilisées pour la préparation des données, avec leur rôle et des conseils sur leur utilisation.
Ensuite, plusieurs chapitres sont dédiés chacun à une tâche de Machine Learning : la classification, la régression, avec le cas particulier de la prédiction, ainsi que le clustering et plus globalement l’apprentissage non supervisé. Pour chaque tâche qui est présentée sont successivement détaillés les critères d’évaluation, les concepts derrière les principaux algorithmes puis leur implémentation avec Scikit-learn.
Pour illustrer les différents chapitres, les techniques et algorithmes présentés sont appliqués sur des datasets souvent utilisés : Iris (classification de fleurs), Boston (prévision de prix de vente d’appartements) et Titanic (prévision de la chance de survie des passagers du bateau). Le code Python est commenté et disponible en téléchargement (sous la forme de notebooks Jupyter) sur le site www.editions-eni.fr.