Véritable manuel pratique, ce livre s’adresse à toute personne amenée à travailler avec les données (chefs de projets, CDO, Architectes, Ingénieurs Data ou même Data Scientists) qui souhaite étendre ses connaissances autour de la gestion de données ou qui rencontre des besoins ponctuels sur des opérations à réaliser. L’objectif est de présenter tous les concepts et notions utiles dès lors que l’on est impliqué dans un projet de données. Chaque chapitre peut être lu indépendamment des autres et des exemples viennent étayer les propos de l’auteur.
Le lecteur commence avec une clarification indispensable des différents concepts qui gravitent autour de la donnée. Cette entrée en matière permet de démontrer que la donnée est une notion plus complexe qu’on ne le pense. Le livre aborde ensuite le stockage des données ce qui amène naturellement à la notion d’intégration de ces données et à ses impacts sur le Système d’Information.
La donnée étant mouvante, l’auteur expose ensuite les moyens à mettre en place pour une gouvernance de données efficace mais aussi pour mieux gérer son cycle de vie de manière globale. Cela permet au lecteur de mieux comprendre comment définir un cadre qui sera contrôlé et maîtrisé et d’expliquer en quoi les entreprises qui mettent en œuvre le Data Fabric ou le Data Mesh sont à même de proposer des services de données pertinents. Le livre détaille ensuite les méthodes d’analyse et de visualisation de données qui permettent de déceler des problèmes de qualité de données nécessitant ensuite de les nettoyer, les transformer et les valoriser en information de confiance.
Le lecteur sera finalement invité à mettre un pied dans le monde de l’IA et de l’IA générative sur laquelle cette deuxième édition met un coup de projecteur. Les principes et grandes notions autour du Machine Learning et du Deep Learning sont expliqués avec simplicité afin que le lecteur puisse mieux comprendre comment les algorithmes fonctionnent grâce aux données. Pour terminer, l’auteur explique comment les grandes architectures de données (Data warehouse, Data Lake, Modern Data Stack, Data Hub et EDI) fonctionnent en détaillant leurs principes et leurs différences.