Stages - Data Science
Vous rejoindrez nos bureaux à Toulouse au sein d'une équipe de data scientists spécialisée en deep learning, traitement d'images et géomatique, dédiée à la R&D sur notre plateforme delair.ai. L'équipe se concentre sur l'analyse de données variées, comme des images de drones, des nuages de points LIDAR et des modèles CAO.
Ce que vous allez acquérir :
- Une expérience pratique avec des technologies d'IA/ML de pointe et des applications concrètes.
- L'opportunité de travailler sur un projet à fort impact qui contribuera directement à l'efficacité de nos opérations.
- Un mentorat assuré par des professionnels expérimentés en IA/ML.
- Un environnement de travail collaboratif qui valorise la créativité, l'innovation et le développement professionnel.
Différentes thématiques peuvent être envisagées selon votre profil :
Développement d’un modèle de génération de graphes de scènes à partir de nuages de points 3D
Contexte du projet :
Pour améliorer nos procédures de traitement des nuages de points, nous souhaiterions participer à faire progresser l’état de l’art en matière de compréhension holistique des scènes 3D. La génération de graphes de scènes est une tâche complexe nécessitant au préalable une compréhension sémantique (classification), panoptique (instanciation) puis relationnelle des objets dans l’espace. La plupart des méthodes existantes exploitent des corpus d’images projetées en 3D afin d’accomplir cette tâche en tirant profit des modèles de fondation 2D tels que CLIP, SAM ou LLaVa. Nous avons identifié deux problèmes nous empêchant d’utiliser ces méthodes dans nos procédures. D’abord, ces méthodes sont inapplicables aux nuages de points directement car les backbones utilisées fonctionnent uniquement à partir d’images. Ensuite, il n’existe pas à notre connaissance de benchmark sur lequel évaluer une méthode de génération de graphes de scènes conçues pour les nuages de points 3D de scènes extérieures. Nous nous proposons donc de développer une méthode adaptée aux scènes extérieures capturées par LiDAR ainsi que le premier benchmark pour cette tâche.
Mission / Objectifs du stage :
- A partir des méthodes de segmentation panoptique déjà existantes en 3D, développer un modèle de génération de graphes de scènes par apprentissage supervisé sur des nuages de points 3D.
- Produire un benchmark de génération de graphes de scènes à partir du benchmark de nuages de points 3D en scènes extérieures DALES.
- Évaluer les performances de notre modèle sur ce benchmark
- Identifier les limites de notre méthode ainsi que les possibles pistes d’amélioration.
Liens utiles pour préparer votre candidature :
- Méthodes de génération de graphes basées 2D :
https://arxiv.org/pdf/2103.14898
https://arxiv.org/pdf/2004.03967
https://arxiv.org/pdf/2503.19199 - Méthodes de segmentation panoptique basées 3D :
https://arxiv.org/pdf/2401.06704 - Benchmark en 3D :
https://arxiv.org/pdf/2004.11985
Développement de système de questions-réponses basées sur des LLM
Contexte du projet :
Mission / Objectifs du stage :
- Collaborer avec notre équipe IA/ML pour concevoir et développer un système basé sur un LLM avec RAG et MCP capable de comprendre et de répondre aux questions à partir de notre base de connaissances interne.
- Prétraiter, nettoyer et organiser les données de la base de connaissances interne afin de les optimiser pour l'entraînement du LLM.
- Ajuster les modèles LLM existants pour les adapter à la terminologie, aux processus et aux connaissances spécifiques de l'entreprise.
- Tester et évaluer les performances du système, en mettant en œuvre des améliorations basées sur les retours et les résultats des tests.
- Documenter le processus de développement, y compris les défis, solutions et bonnes pratiques.
- Travailler en étroite collaboration avec des équipes interfonctionnelles pour comprendre leurs besoins et s'assurer que le système basé sur le LLM répond à leurs exigences.
Liens utiles pour préparer votre candidature:
- https://leanpub.com/transformers-large-language-models
- https://ollama.com/library/phi3
- https://github.com/QwenLM/Qwen2
- LASER Blog
- Literature survey on low rank approximation of matrices
- https://ai.google.dev/gemma/docs
- QLoRA: Efficient Finetuning of Quantized LLMs
- LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
- The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction (LASER)
- https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
Modèle de fondation pour la gestion de la végétation par LiDAR
Contexte du projet:
Notre équipe développe des modèles d’intelligence artificielle appliqués à la gestion de la végétation à partir de données LiDAR. Nous avons déjà en production un modèle de classification de nuages de points utilisé dans ce domaine. Toutefois, l’entraînement de notre réseau reste complexe et dépend fortement de données annotées, alors que de vastes bases de données open source existent mais sont souvent non labellisées
Mission / Objectifs du stage :
L’objectif du stage est d’explorer l’utilisation de méthodes de pré-entraînement semi-supervisées ou non supervisées appliquées aux nuages de points LiDAR. Le/la stagiaire travaillera sur :
- L’étude de l’état de l’art des modèles de fondation pour les données 3D.
- Le développement et l’expérimentation d’approches de pré-entraînement sur de grandes bases de données non annotées.
- L’évaluation de ces modèles comme pré-trained models ou teacher models pour une phase ultérieure de fine-tuning supervisé.
- La comparaison des performances obtenues avec notre modèle actuel en production.
Liens utiles pour préparer votre candidature :
Modèle de fondation pour l’inspection des lignes électriques
Contexte du projet:
Notre équipe développe des solutions d’intelligence artificielle appliquées à l’inspection de lignes électriques à partir d’images. L’objectif est d’automatiser la détection des éléments constitutifs du réseau (isolateurs, pylônes, câbles, etc.) ainsi que des anomalies pouvant impacter la maintenance et la sécurité. Aujourd’hui, nous disposons de modèles de détection performants, mais leur entraînement reste limité par la disponibilité de données annotées, alors que de larges corpus d’images non labellisées sont accessibles.
Mission / Objectifs du stage :
Le/la stagiaire contribuera à l’exploration et au développement de modèles de fondation pour l’analyse d’images dans le contexte de l’inspection des infrastructures électriques. Les principales missions seront :
- Étudier l’état de l’art sur les modèles de fondation et l’apprentissage non supervisé en vision par ordinateur.
- Expérimenter des approches de pré-entraînement semi-supervisées ou non supervisées sur de grands volumes d’images non annotées.
- Développer des modèles capables de détecter et de classifier automatiquement des éléments électriques et des anomalies
- Évaluer l’apport de ces méthodes face aux modèles existants en production.
Liens utiles pour préparer votre candidature :
Planification des opérations d'élagage de végétation
Contexte du projet:
La gestion de la végétation autour des réseaux électriques est un enjeu majeur pour garantir la sécurité et la continuité d’alimentation. Aujourd’hui, la planification des opérations d’élagage repose sur des processus complexes qui doivent intégrer à la fois les contraintes opérationnelles, les urgences identifiées (par détection de végétation à risque) et les incertitudes liées à ces prédictions.
Mission / Objectifs du stage :
L’objectif du stage est d’explorer des approches d’optimisation intelligente pour améliorer la planification des interventions d’élagage. Deux pistes principales seront étudiées :
- Optimisation sous contraintes : modélisation du problème comme une variante du Traveling Salesman Problem (TSP) afin de trouver des tournées optimales pour les agents.
- Apprentissage par renforcement (Reinforcement Learning) : développement de stratégies de planification adaptatives capables d’intégrer des aléas et incertitudes.
Le/la stagiaire sera amené(e) à :
- Étudier l’état de l’art sur l’optimisation combinatoire et le reinforcement learning appliqués à la planification.
- Définir et modéliser le problème d’élagage avec nos contraintes métier.
- Implémenter et comparer les approches proposées.
- Évaluer les performances en termes de coût, de robustesse et de flexibilité face aux incertitudes.
Liens utiles pour préparer votre candidature
- https://huggingface.co/learn/deep-rl-course/unit0/introduction
- https://pyvrp.org/examples/basic_vrps.html
Estimation d’évolution de la végétation par LiDAR
Contexte du projet :
Notre équipe développe des solutions basées sur le LiDAR pour la gestion des infrastructures et de la végétation autour du réseau électrique. Au-delà de la détection ponctuelle d’éléments à risque, nous souhaitons mieux comprendre et quantifier l’évolution de la végétation à moyen/long terme afin d’anticiper les interventions, détecter les arbres morts et améliorer les plans de gestion. Ce stage se concentre sur trois axes complémentaires : estimation de la croissance, détection d’arbres morts et classification d’espèces à partir de nuages de points LiDAR (et sources complémentaires si disponibles).
Mission / Objectifs du stage :
Le/la stagiaire travaillera sur la conception, l’implémentation et l’évaluation de méthodes pour estimer l’évolution de la végétation à partir de données LiDAR. Les objectifs se déclinent en trois sous-projets:
- Mesure et estimation de la croissance : Développer des méthodes pour quantifier la croissance (hauteur, biomasse relative, volume) à partir de jeux de données LiDAR multi-temporels. Explorer des approches statistiques et d’apprentissage (régression, modèles spatio-temporels, deep learning 3D) pour estimer le taux de croissance et produire des cartes d’évoluton.
- Détection d’arbres morts : Prototyper des algorithmes supervisés et/ou semi-supervisés pour détecter et localiser les arbres morts. Valider les résultats sur échantillons annotés et proposer une métrique opérationnelle (précision, rappel, coût d’erreur).
- Classification d’espèces : Étudier la faisabilité de classifier des espèces d’arbres à partir de signatures structurales LiDAR (et données complémentaires si disponibles : orthophotos, multispectral). Implémenter et tester des modèles de classification
Liens utiles pour préparer votre candidature
- https://huggingface.co/learn/deep-rl-course/unit0/introduction
- https://pyvrp.org/examples/basic_vrps.html
- Department
- Engineering
- Role
- Data Scientist
- Locations
- Toulouse
- Remote status
- Temporarily Remote
Toulouse
Alteia is a leading enterprise A.I software provider focused on streamlining the use of visual data to generate real-time business intelligence.
Developing and deploying visual intelligence at scale requires the use of complex technology stacks where algorithms and models need to be placed at the center of business operations. That’s why Alteia delivers a family of integrated products that have been purpose-built to accelerate the implementation of A.I applications, making quick work of large data sets from disparate systems:
- The Alteia software platform to rapidly contextualize large amounts of disparate data and operate enterprise A.I applications quickly.
At Alteia, we can provide a unique opportunity to gain valuable experience in a fast-growing business. We expect technical excellence, and although there may be challenges, we value our employees' creativity and personal development. As such, we encourage out-of-the-box ideas and incentivize innovation.
You will make a difference every day, as you'll have a hand in transforming key industry sectors as they move towards driving their operations with visual data and AI.
About Alteia
We create software that enables organizations to effectively integrate their visual data, decisions and operations. We make products for human-driven analysis of real-world data, accelerated with artificial intelligence, that empower people to solve complex problems.