Greater Paris Metropolitan Region
Traduire un besoin de lutte contre la fraude Caractériser les données en vue de leur intégration dans le SI Carrefour Construire des modèles déterministes de détection de fraude Construire les modèles de Machine Learning, notamment pour l’identification des patterns de Fraude pour des sujets comme : l’Usurpation d’identité et le détournement des actifs Quantifier l'impact financier des fraudes Apprentissage Non supervisé : DBSCAN, Isolation Forest Analyse des Graphes pour identifier des réseaux de fraudeurs
Récupération et processing des données brutes (IoT) via API Apprentissage non supervisé - Clustering des séries temporelles (DTW,CID, LCSS, P-normée, K-Means, Clustering hiérarchique, DBSCAN) Apprentissage supervisé -Scoring Churn (Modèles à base d'arbres et modèles linéaires) Analyse et visualisation de données (ACP, AFC, Tableau) NLP Création d'indicateurs de qualité Internet en collaboration continue avec les experts métiers Mise en place des processus industrialisés pour le suivi de l'évolution des produits Bouygues Télécom Environnements : Hadoop (Hive, Impala, Oozie) Apache Zeppelin Amazon Web Services AWS Google Analytics Python (Pandas, Numpy, Scipy, Tslearn, Boto3, Matplotlib, Seaborn, Scikit-Learn, NLTK, Gensim)
Au sein de l'équipe Data Science, j'ai participé au développement d'un moteur de Scoring pour la production et l'industrialisation de tous types de scores; entièrement automatisé, paramétrable et optimisé. - Création d'un programme pour la recherche des hyperparamètres des modèles de Machine Learning - Reproduction de l’algorithme Chi-Merge pour la discrétisation des variables continues à partir de l'article scientifique de Kerber 1992 - Reproduction de l’algorithme Chi-Merge pour le regroupement des variables catégorielles à partir de l'article scientifique de Kass 1980 - Modélisation statistique : Modèles à base d'arbres : Arbres de décision, Random Forest, XGBoost, Ada Boost, Extra Trees Modèles linéaires : Régression linéaire, Régression logistique, Régressions pénalisées - Ridge, Lasso et Elastic Net - - Création d'une interface Web pour le paramétrage du moteur de Scoring - Rédaction d'une documentation technique sur les fonctionnalités du moteur de Scoring Environnement technique : - Anaconda - Python (Librairies Pandas, Numpy, Scikit Learn, Flask) - HTML, JavaScript, JQuery