Big Data engineer – Ingénieur en données massives (H/F)

Le flux de données traitées par la DGSE est équivalent à celui des GAFAM. Ces données sont au centre du travail des analystes de renseignement, qui doivent pouvoir compter sur des systèmes leur permettant de rechercher, croiser, traiter ces données, en temps réel ou en batch. Dans ce contexte, la DGSE cherche à renforcer ses équipes de traitement de la donnée massive.

Au sein d'un service centré sur le stockage, l'exploitation et la valorisation des données, nous vous proposons d'intégrer les équipes en charge des plateformes de stockage ou des traitements temps réel des données. Ces équipes pluridisciplinaires développent et maintiennent de bout en bout diverses plateformes reposant sur les technologies Kafka, Yarn, Hadoop, HBase ou encore Elasticsearch. Plus spécifiquement, l’équipe Stockage administre des entrepôts Big Data ainsi que des couches d’accès à leurs données. L’équipe Temps réel conçoit des algorithmes répondant à des besoins de temps de réaction très courts (levée d’alertes, enrichissement à la volée, réponse à des besoins opérationnels).

En nous rejoignant, vous découvrirez :

un environnement unique, qu'aucune autre structure ne peut vous proposer,
un métier proche du renseignement et de l'opérationnel,
une action sur l'intégralité de la chaîne, du développement au déploiement en production,
un minimum de 48 jours de congés par an,
une ambiance propice à l’épanouissement professionnel.

À retenir

Réference de l'offre :: Référence

163SCI20230706
Localisation :: Localisation

paris
Type de contrat :: Type de contrat

CDI
Domaine de métier :: Domaine métier

Sciences et technologies
Niveau d'étude :: Niveau d'étude

Niveau 7 : Master, DEA, DESS, diplôme d’ingénieur

Postulez

Vos missions

Les missions des équipes auxquelles vous serez amenés à contribuer seront déterminées en fonction de votre expérience et de vos appétences.

Vous serez en charge des activités suivantes :

concevoir, implémenter et optimiser des algorithmes de traitement de données distribués (Scala, Spark, Java),
garantir le bon fonctionnement, la disponibilité et la performance des plateformes de traitement,
participer à l’évolution de l’architecture, en intégrant de nouveaux composants (frameworks, bibliothèques, …) permettant de mieux répondre aux besoins,
assurer une veille technologique constante pour rester au plus haut niveau et garantir une adéquation des clusters existants avec l’état de l’art du domaine,
contribuer à l'amélioration continue de l'équipe,
interagir avec l’équipe SRE/Devops pour améliorer la fiabilité des architectures, l’automatisation des déploiements et l'observabilité des systèmes mis en œuvre.

Votre profil

Vous êtes titulaire d’un diplôme en informatique, niveau master ou école d’ingénieur, ou pouvez démontrer une expérience équivalente.

Vous possédez les compétences et qualités suivantes :

bonnes connaissances fondamentales logicielles (structures de données, algorithmique, architecture),
maîtrise des langages Scala, Java ou python, vous n'avez pas peur de monter en compétences sur ceux que vous ne maîtrisez pas,
adepte de l'intégration continue, vous êtes familier de Gitlab CI, Github Actions ou Jenkins,
familier avec les bonnes pratiques de développement collaboratif (usage de git, pratique de relecture de code).

En bonus:

première expérience avec un framework de traitement en streaming (SparkStreaming, KStream, Storm, Flink, ...),
convaincu de l'importance de l'observabilité des systèmes qui regroupe métrologie, logging et tracing, vous avez déjà mis en place une stack de ce type (Prometheus, Telegraph, OpenTelemetry, Jaeger, ELK, …),
familier avec un outil de gestion de configuration (Ansible, Puppet, ...),
expérience sur les clusters Kafka, Hadoop, HBase ou Elasticsearch de plusieurs nœuds.

Les plus de l’offre

Contexte d’activités unique
Diversité des projets
Technologies à la pointe

Offre d'emploi