Greater Paris Metropolitan Region
Avec 5 ans d'expérience en tant que Data Engineer / ML Engineer, je me suis spécialisé dans la conception, l'industrialisation et la gestion de pipelines de données, en mettant l'accent sur l'ingénierie logicielle. Ma solide expertise en technologies telles que Spark, SQL, Python, GCP, me permet de transformer les données brutes en informations significatives et exploitables aussi bien on-premise que sur le cloud. Mon travail consiste à transformer les données brutes en informations précieuses, aidant ainsi les organisations à prendre des décisions basées sur des données fiables et pertinentes. Si vous recherchez un spécialiste des données qui allie efficacement gestion de données, ingénierie logicielle et expertise cloud, n'hésitez pas à me contacter.
- Conception et exploitation d’une infrastructure cloud hautement disponible, scalable et modulaire sur GCP, avec standardisation des déploiements via Terraform (modules custom, gestion fine des environnements, politiques sécurisées). - Automatisation du déploiement d’environnements via Terraform (modules personnalisés), réduisant le temps de provisionnement de ressources (clusters MongoDB, BigQuery, IAM, Repository Github…) et garantissant leur standardisation. - Développement de pipelines CI/CD avec GitHub Actions et Google Cloud Build, garantissant des déploiements d'applications fiables et sécurisés dans plusieurs environnements (DEV, QA, PROD). - Migration de pipeline ML Python/Airflow vers une pipeline Vertex AI (Kubeflow) - Migration d’applications vers Cloud Run (serverless), permettant une réduction significative des coûts d’exploitation et assurant une montée en charge automatique lors des pics de trafic. - Mise en place d’une gouvernance avancée en IAM (rôles personnalisés, moindre privilège, politiques d’accès affinées), renforçant la sécurité tout en préservant l’autonomie des équipes. - Développement et industrialisation de pipelines ETL orchestrés sur GCP, assurant la consolidation en continu de données hétérogènes (MongoDB, BigQuery, GCS/JSON) afin d’alimenter des dashboards Looker Studio pour le pilotage métier en temps réel. - Optimisation des coûts et gestion avancée des accès aux données sur BigQuery, incluant l'implémentation de Row-Level Security (RLS) pour répondre aux besoins métier tout en maintenant la sécurité et l'efficacité des données. - Supervision et journalisation avancées avec Google Cloud Monitoring, Google Cloud Logging, et autres outils de diagnostic pour garantir la fiabilité et les performances des systèmes. - Optimisation réseau avancée, incluant la gestion des VPC, PSC, pare-feu et interconnexions hybrides, afin de réduire la latence applicative, éviter les timeouts et garantir la fiabilité des communications entre services.
Industrialisation de pipeline data pour des modèles de machine learning permettant de fournir des recommendations aux équipes commerciales. - Développement et maintenance de pipelines Kedro (ETL) en Python pour lʼingestion et la transformation de données depuis diverses sources (APIs, AWS S3, Redshift) , avec une architecture multi-layers (raw, staging, transformation, curated). - Migration vers Snowflake et mise en place de pipelines d’ingestion automatisés via Snowpipe, assurant une alimentation fiable et continue des données depuis S3. - Structuration complète des transformations avec dbt : création de modèles, tests automatiques (unicité, non-null), documentation centralisée et exécution orchestrée. - Contrôle qualité renforcé via Great Expectations, permettant de détecter et bloquer les anomalies critiques avant exposition des données aux équipes métiers. - Mise en œuvre d’un modèle de sécurité basé sur les rôles (RBAC Snowflake), avec contrôle fin des accès par environnement et masquage des données sensibles (compliance GDPR/HIPAA). - Optimisation des performances et coûts Snowflake : configuration des entrepôts virtuels (auto-suspend, sizing par workload), clustering ciblé pour requêtes volumineuses. - Refonte de pipelines en migrant de PySpark vers Polars, réduisant la consommation mémoire et accélérant les temps de traitement. - Collaboration avec les équipes Data Science et DevOps pour intégrer des solutions scalables et alignées sur les besoins métier.
En tant que DataOps/DevOps Engineer chez EDF, j'ai joué un rôle clé dans la coordination et l'optimisation des processus de développement, de déploiement et de maintenance des solutions de données et d'intelligence artificielle pour les différentes entités de l'entreprise, y compris les domaines du nucléaire, du transport d'électricité (RTE), de l'hydroélectricité, du solaire et de l'éolien. Missions: - Mise en place et automatisation de pipeline de données industrielles avec Python, PySpark pour récupérer et transformer la donnée depuis plusieurs sources (HDFS, S3, Oracle, PostgreSQL, API Rest) - Automatisation de build d'images Docker (template docker factory) pour faciliter la conteneurisation des outils/applications data science et leur industrialisation. - Monitoring de la qualité de la donnée avec DBT ( + great expectations) - Déploiement, management, orchestration de containers sur OpenShift - Automatisation de création de structure de projets industrialisables avec CookieCutter et poetry pour les data scientists (templates) - Industrialisation de projets Data Science en Python (refactor de code, packaging, templating, CICD, déploiement automatique, infra as code (Terraform/Ansible), documentation) - CICD : Déploiement et maintenance d'un runner gitlab sur Openshift - Mise à disposition et création de scripts Vagrant permettant de standardiser les environnements de développement entre data scientists et data engineers
Industrialisation d'une plateforme de calcul de prévision de taille de marchés sur GCP. Tâches réalisées: - Migration d'une pipeline Kedro (lib d'orchestration Python) vers une pipeline Vertex AI (Kubeflow) - Automatisation du déploiement de l'infrastructure du projet sur GCP avec GitHub Actions et Terraform (création des service accounts, bucket GCS, workload identity federation, cloudbuild, pipeline Vertex, table BigQuery, etc.) - ETL avec Dataproc (récupération de données pour intégration dans VertexAI) - Optimisation de code Python (réduction du temps d'exécution de la pipeline par 2) - Exposition des résultats (data viz) avec Looker Studio - Packaging avec poetry et containérisation de code - Documentation et tests avec pytest
Contexte: Mettre en oeuvre des solutions pour aider les data scientists à déployer des modèles ML distribués en production. Missions: - Développement de code Python élégant et simple pour des architectures et des applications performantes, fiables et maintenables. - Développement, packaging et déploiement de la solution interne d’AutoML distribuée avec Spark/H2O.ai - Conception et développement d’un template PySpark qui permet d’automatiser le packaging des dépendances et le déploiement des jobs Spark sur des plateformes HDP isolées avec (Shell/PEX (cluster pack)/Gitlab CI/CD) - Mise en place et maintenance des chaînes CI/CD (Gitlab CI) - Mise en place de tests continus, automatisés (unitaire, d'intégration, de non régression et de charge) et de coverage. - Migration des assets de production Spark 2.2 -> 2.4, HDP -> CDP - Débogage et optimisations des jobs Spark dans HDP Stack technique : Linux, Python, PySpark, H2O AI, Gitlab CI, Hadoop, SQL, pytest, Git, Docker, black, PEX, JFROG Artifactory, poetry, sonarqube, pre-commit, pandas