Le/la data scientist développe des algorithmes d’apprentissage automatique selon les besoins des équipes métiers. Ses compétences en statistiques lui permettent de construire des modèles de machine learning et ses connaissances en informatique l’aident à anticiper leur mise en production. En amont de ces deux missions, il/elle est également en charge de structurer et d’analyser les données qu’il/elle utilise.
Extraire les données nécessaires à l’analyse (Web scraping, API…).
Définir des règles de gestion de nettoyage des bases de données (formatage, suppression des doublons…).
Définir des règles de gestion de structuration des différentes bases de données entre elles.
Écrire et rédiger les spécifications d’automatisation des règles de gestion à la DSI ou à la maîtrise d’ouvrage.
Maîtriser la qualité des données tout au long de leur traitement.
Déterminer ou construire les variables importantes à introduire dans les modèles statistiques.
Extraire les données nécessaires à l’analyse (Web scraping, API…).
Définir des règles de gestion de nettoyage des bases de données (formatage, suppression des doublons…).
Définir des règles de gestion de structuration des différentes bases de données entre elles.
Écrire et rédiger les spécifications d’automatisation des règles de gestion à la DSI ou à la maîtrise d’ouvrage.
Maîtriser la qualité des données tout au long de leur traitement.
Déterminer ou construire les variables importantes à introduire dans les modèles statistiques.
Industrialiser les modèles d’apprentissage automatique et des modèles statistiques.
Prendre part aux vérifications lors des mises en production (recette).
Définir les règles de gestion pour la maintenance des modèles (monitoring)
Participer aux ateliers d’expression des besoins internes.
Comprendre précisément les problématiques métiers et les traduire de manière analytique.
Communiquer les résultats et les solutions avec les équipes métiers.
Effectuer une veille sur les nouvelles technologies et solutions logicielles de data science.
Rechercher et expérimenter de nouvelles méthodes de modélisation et de data science.