Huit pôles d’expertise

Expertise Business

Data Strategy

La mise en place d’une stratégie data créatrice de valeur et réellement implémentable reste un défi pour de nombreuses entreprises. En effet, si l’époque des simples POC au sein de Datalab a vécu, le passage à l’ère de l’industrialisation et de la mise en production des projets data science fait émerger de nombreuses questions.

L’identification, la qualification et la sélection des cas d’usage créateurs et réellement implémentables est l’une des thématiques majeures de nos travaux au sein d’AI Strategy. Nous travaillons sur la construction puis l’implémentation d’outils taillés sur mesure pour partager entre équipes métier, data et IT une cartographie de données réellement exploitables et une grille complète de qualification des cas d’usage orientée ROI.

Nous étudions également les différents modèles organisationnels permettant de fluidifier les projets data de bout en bout, depuis l’identification des cas d’usage jusqu’à leur mise en production. Dans le cadre de nos travaux de R&D, nous menons une étude annuelle auprès de plusieurs dizaines de CDO afin d’identifier les facteurs clés de succès et les points bloquants des organisations dans leur transformation data.

L’implémentation concrète d’une gouvernance permettant de rendre son patrimoine de don- nées exploitable (données de qualité, accessibles et conformes) nécessite d’activer de nombreux leviers et notamment de réconcilier deux mondes qui se parlent généralement peu : celui de la DSI, garant des systèmes applicatifs, et celui des métiers producteurs et consommateurs du patrimoine de données de l’entreprise. Nous réunissons des experts fonctionnels et techniques pour travailler sur une méthodologie propriétaire associant la gouvernance « soft » des données (rôles et responsabilités, processus, comitologie) et le data management technique au sein de l’architecture data de l’entreprise.

Enfin, en association avec l’institut de formation de Quantmetry, nous abordons la question de l’acculturation et de la diffusion de la culture data au sein des organisations. L’objectif est d’associer à notre catalogue de formation une boîte à outils pédagogiques pour la diffusion de l’offre de services data des entreprises.

Responsable Data Strategy : Jonathan Cassaigne

Expertise Business

Data & Perf

La mission de l’expertise Data & Performance est de répondre aux enjeux opérationnels des grandes fonctions d’entreprise pour optimiser leurs processus, grâce à la mise en œuvre de solutions IA sur-mesure.

Supply Chain, Manufacturing, Maintenance, Marketing, Finance, HR… chaque fonction de l’entreprise cumule de la donnée et peut améliorer son efficacité à travers elle.

Notre connaissance des processus et des systèmes d’information nous permet de proposer aux Métiers des solutions complètement intégrées à leur écosystème existant, pour produire des résultats tangibles en vie courante.

Mieux prévoir les volumes ou les ventes à venir, contrôler la qualité des produits avec de l’image, optimiser le rendement d’une ligne de production, recommander des produits ou services personnalisés, augmenter l’efficacité d’une campagne de ciblage, améliorer un processus de recrutement, aider à détecter des fraudes… des sujets variés que nous traitons en nous appuyant sur des modèles de data science et sur notre expertise à l’état de l’Art.

Nous considérons l’IA comme de l’intelligence augmentée, qui permet de réduire les tâches sans valeur ajoutée pour améliorer la performance des organisations.

La refonte de processus métiers et la conduite du changement font également partie intégrante de notre proposition de valeur, qui permet de garantir la pérennité des gains recherchés, ainsi que l’autonomisation des équipes opérationnelles sur le terrain.

Responsable Data & Performance : Damien Samson

Expertise Scientifique

Time Series

Le traitement des séries temporelles occupe une part de plus en plus grande dans le portfolio des sujets data science chez nos clients. Il suffit d’avoir eu à traiter une fois ce genre de données pour se faire la conviction qu’il s’agit d’une discipline à part entière de la data science, tout comme peuvent l’être le traitement naturel du langage (NLP) ou la Computer Vision.

Depuis 2018 et les résultats de la compétition M4, un pont s’est créé entre le monde académique et le monde privé, contrôlé par les Gafa. Historiquement dominé par les approches statistiques, le traitement des séries temporelles vit une révolution par l’apport des méthodes hybrides liant approches classiques et machine ou deep learning, comme l’illustre la méthode gagnante de M4, l’ES-RNN, un réseau de neurones récurrent intégrant des paramètres de lissage exponentiel. Des avancées majeures en forecast probabiliste ont également été poussées par les approches DeepAR et SQF-RNN (estimation d’une fonction quantile permettant d’estimer l’intervalle de confiance autour de la valeur prédite). En plus de porter un intérêt fort sur ces méthodes et l’évolution de cette discipline, nous travaillons sur des approches multimodales permettant de combiner des séries temporelles d’images et de données scalaires afin d’améliorer la performance et l’interprétabilité des modèles d’IA que nous développons.

Et comme c’est l’échantillonnage qui rajoute cette dimension temporelle à la nature initiale de la donnée, il est évident que la dimension spatiale n’est jamais loin. Que ce soit pour des problématiques d’interpolation ou de régression, que l’on peut retrouver en climatologie, géologie, ou en mobilité par exemple, il est nécessaire de capter des dépendances spatiales ou spatio-temporelles pour créer une réponse locale. Et les verrous sont nombreux, tant par la complexité des méthodes probabilistes employées que les ressources de calculs nécessaires (réseaux bayésiens, processus gaussiens, chaînes de Markov).

Responsable Time Series : Alexandre Henry

Expertise Scientifique

NLP

Le domaine du traitement automatique du langage vit actuellement une révolution avec l’explosion du transfert learning et la modernisation des techniques de représentation des mots ou énoncés complexes.

Notre expertise NLP s’attache à rendre les dernières avancées du monde scientifique acti- vables pour répondre aux problématiques de nos clients. Le savoir-faire en matière d’industrialisation acquis par Quantmetry au fil des années complète notre maîtrise des technologies à l’état de l’art (modèles de deep-learning « pré-entrainés » BERT, ELMo, GPT-2 ou FlauBERT) pour créer des solutions à forte valeur ajoutée.

Nous nous appuyons sur des outils open source (PyTorch, TensorFlow, HuggingFace, SpaCy…) pour créer des solutions et les partager à la communauté en publiant des packages (Melusine) permettant la diffusion et la capitalisation de notre savoir-faire.

Notre expertise développe également des méthodes innovantes à l’état de l’art du domaine :

  • nous cherchons à transcrire les modèles existants en anglais vers le français,
  • nous évaluons également la pertinence des techniques de distillation de connaissances afin de disposer de modèles moins gourmands et plus facilement exploitables.

Enfin, un volet majeur de recherche pour l’expertise est la représentation des phrases et des énoncés. Ce sujet est mené par un de nos consultants qui réalise une thèse Cifre en collaboration avec l’Université de Paris au Laboratoire de Linguistique formelle (LLF). Cet axe de recherche permet d’apporter une précision plus importante pour des cas d’usage, comme l’extraction d’information, la catégorisation de documents ou encore le résumé automatique.

Responsable NLP : Florian Arthur

Expertise Scientifique

Computer Vision

Les membres de l’expertise Computer Vision adressent des thématiques couvrant l’ensemble du cycle de valorisation des images : de la constitution du jeu de données à l’implémentation du modèle sur des dispositifs embarqués.

Afin d’augmenter la quantité disponible de données labellisées pour entraîner les réseaux de neurones, les techniques basiques de Data Augmentation ne sont plus suffisantes pour atteindre des performances à l’état de l’art : nous étudions actuellement des méthodes plus élaborées basées sur le Reinforcement Learning et les GANs comme AutoAugment pour améliorer les modèles de classification d’image, par exemple.

L’explosion du Deep Learning, et notamment des réseaux de neurones convolutionnels (CNN) appliqués à l’image, permet un incrément de performance significatif en comparaison des techniques traditionnelles d’analyse des grandeurs caractéristiques des images. Nos recherches actuelles visent à combiner les forces de ces deux types de méthodes dans notre flux de traitement type. Nous testons également des techniques émergentes comme le few shots learning et les méthodes semi-supervisées.

Enfin, l’inférence « at edge » étant souvent requise pour l’utilisation en production par nos clients, nous traitons de l’optimisation des modèles pour l’embarqué par le prisme de l’optimisation algorithmique (code bas niveau), de l’élagage de modèle, ainsi que par l’optimisation des étapes de pré-processing grâce à des librairies dédiées comme TensorFlow Lite ou OpenVino.

Responsable Computer Vision : Florian Arthur

Expertise Scientifique

Reliable AI

Au sein de l’expertise Reliable AI, nous avons à cœur de développer les méthodes nous permettant de concevoir des solutions d’IA robustes, éthiques et intelligibles.

L’intelligibilité des modèles de machine learning est un axe majeur de nos travaux de recherche : ouvrir la boîte noire est une priorité pour obtenir la confiance des utilisateurs et améliorer les performances des modèles. Au-delà des méthodes standards basées sur les valeurs de Shapley, nous étudions les apports de la causalité et des distributions contrefactuelles à l’intelligibilité locale et globale. En collaboration avec nos autres expertises, nous développons également des méthodes d’intelligibilité spécifiques aux modèles de Computer Vision et de NLP. En complément des techniques d’ano-pseudonymisation (généralisation, randomisation…) permettant de répondre aux exigences réglementaires, nous développons des techniques de détection de biais comme le « disparate impact » afin de garantir une neutralité des algorithmes.

Pour assurer une robustesse des modèles en production, nous intégrons la mesure des incertitudes en Machine Learning par des techniques d’estimation de type Monte Carlo dropout et concevons des pipelines non-supervisés de monitoring basés sur la détection d’anomalies ou sur la détection de dérives, en s’appuyant, par exemple, sur des notions de distances statistiques (Wasserstein, énergie, Kullback-Leibler). En bout de chaîne, nous étudions la correction des dérives par des techniques d’adaptation de domaine (transport optimal, alignement de sous-espaces invariants…) et la validation des modèles en production par A/B testing.

Responsable Reliable AI : Gauthier le Courtois du Manoir

Expertise Technique

Data & Tech

Avec la multiplication des sources des données d’une part, et celles des cas d’usages data de l’autre, la mise en place de plateformes data robustes et évolutives devient incontournable pour permettre aux entreprises de valoriser leur patrimoine de données.

Notre expertise regroupe les profils nécessaires pour la conception et la mise en œuvre de ces plateformes, ainsi que pour leur alimentation en données et la mise en œuvre de cas d’usage à l’échelle.

Notre périmètre d’intervention est ainsi très large :
• Architecture data : conception, maîtrise des différents cloud providers et outils
• Data Engineering : ingestion des données (structurées / non structurées, batch / temps réel), mise en œuvre d’outils de stockage appropriés (base de données SQL, No-SQL, espaces de stockage distribués…), modélisation du schéma de stockage des données, mise en œuvre de pipelines de données permettant de gérer les normalisation, enrichissement, mise en qualité, calculs de KPI
• Industrialisation de modèles : gestion du cycle de vie des modèles,
• Conception et développement d’APIs pour permettre d’exposer la donnée à divers usages

Les développements sont réalisés sur des infrastructures on-premise ou sur des environnements Cloud, et afin d’assurer un haut niveau d’exigence, ces derniers s’appuient sur différentes couches :
• Sécurité : authentification, autorisation, audit, logs
• Scalabilité, résilience : l’infrastructure matérielle et l’architecture logicielle doivent être en mesure de répondre à ses exigences
• Management des ressources et infra, de l’IaC au monitoring des services

En plus de l’activité de développement, nos profils sont également amenés à :
• Définir les roadmaps de développement
• Intégrer des équipes produit pour contribuer directement, au plus proche des problématiques business, au développement de nouvelles solutions
• Travailler de concert avec le Solution Architect et les équipes SI du Client

Enfin, nous encourageons également nos équipes à consacrer du temps sur l’année à des projets transverses de R&D en abordant des sujets d’architecture et de développement.

Responsable Data&Tech : Victor Gouin

Expertise Technique

AI Product

La mise en œuvre de produits ou solutions IA ciblés nécessite la maîtrise de bout-en-bout de trois éléments qui ont des cycles de vie différents : la donnée, le modèle algorithmique et le code de l’application. Au sein d’AI Product, nous définissons un framework méthodologique et une boîte à outils à l’état de l’art actionnant les synergies entre ces trois composantes pour livrer de manière plus rapide et plus fiable en production.

La question de l’industrialisation des modèles de Machine Learning est au cœur des problématiques du monde de l’IA ces dernières années. Mettre en œuvre ces produits ou solutions IA nécessite en effet de maîtriser à la fois la relation avec les utilisateurs, l’exploration et exploitation de la donnée, et la prise en compte des écosystèmes DSI.

Au sein d’AI Product, nous concevons et mettons en œuvre des solutions sur-mesure afin d’obtenir des gains tangibles le plus rapidement possible, en gardant un contact fort et permanent avec nos utilisateurs finaux : une méthodologie unique et versionnée de Quantmetry pour répondre parfaitement à vos besoins et à ceux des Métiers.

Tout au long du cycle de vie des produits, nous prenons également soin d’adopter les bonnes pratiques de code issues du monde du développement, pour tendre vers une IA dite de confiance :

  • L’application et ses différents modules doivent respecter les règles établies par le Clean Code afin de produire un socle technique de qualité, facile à maintenir et à transférer.
  • Les concepts d’intégration continue et de déploiement automatique, couplés à la maintenance de l’infrastructure par le code, permettent de garantir la stabilité et la robustesse de l’application.

C’est en suivant ces convictions que nous arrivons à déployer des IA en production et assurer un ROI consistant pour nos clients.

Responsable AI Product : Kevin Bienvenu