🇫🇷 Senior Site Reliability Engineer (SRE) - Cloud
Scalingo
About This Role
This job ad is written in French.
propos de Scalingo
Scalingo est une startup technologique en forte croissance. Notre plateforme cloud europ enne, robuste et souveraine, lib re les quipes techniques des contraintes d infrastructure, pour leur permettre de se concentrer sur ce qui compte vraiment : cr er, innover et d livrer.
Notre PaaS permet de d ployer et d h berger facilement des applications web et des bases de donn es, sans avoir g rer l administration syst me ou l infrastructure sous-jacente.
Nous accompagnons une grande diversit de clients - startups, scale-ups, grands groupes et institutions publiques - parmi lesquels le Minist re de l Int rieur ou ENGIE, avec une exigence lev e en mati re de fiabilit , de s curit et de qualit de service.
Ton r le chez Scalingo
En tant que Senior Site Reliability Engineer, tu occupes une position cl l interface des quipes d veloppement, infrastructure, s curit et support.
A terme, nous ennvisageons une volution vers un r le manag rial.
Ton r le est la fois :
• technique, avec un fort impact sur la fiabilit et la performance de la plateforme,
• structurant, en faisant voluer les pratiques et les outils SRE et audel .,
• f d rateur, en accompagnant et faisant monter en comp tence une quipe SRE de 2 personnes.
Tu interviens aussi bien sur le fonctionnement quotidien de l activit SRE que sur les projets strat giques li s la croissance de la plateforme. R f rent ou r f rente technique, tu incarnes les bonnes pratiques SRE et contribues diffuser une culture de la fiabilit , de l automatisation et de l excellence op rationnelle au sein de Scalingo.
Pourquoi ce r le est essentiel
• Garantir la stabilit , la disponibilit et la r silience des syst mes en production.
• Anticiper les d faillances et structurer des r ponses efficaces aux incidents.
• Industrialiser et automatiser l exploitation de la plateforme.
• Maintenir un haut niveau de qualit de service vis- -vis de nos clients et de nos engagements contractuels (SLA).
Chaque am lioration que tu apportes contribue directement la robustesse de la plateforme, la r duction des incidents, la ma trise des co ts op rationnels et l accompagnement de la croissance de Scalingo.
Organisation & volution
Rattach directement un Engineering Manager, tu exerces un leadership technique et op rationnel fort, sans responsabilit hi rarchique directe dans un premier temps.
moyen terme, nous souhaitons que ce r le volue vers le management hierarchique de l quipe SRE. Si cette perspective t int resse, nous t accompagnerons activement dans ta mont e en comp tences manag riale.
Vos missions
Leadership technique et animation de l quipe SRE
• Encadrer techniquement l quipe SRE au quotidien : accompagnement, priorisation, revue des choix techniques et des impl mentations.
• Guider, former et faire monter en comp tence les membres de l quipe, en favorisant l autonomie et la prise d initiative.
• Transmettre les bonnes pratiques SRE (fiabilit , observabilit , gestion d incidents, automatisation).
• tre moteur dans l organisation du travail de l quipe (processus, rituels, documentation).
• Porter la vision technique SRE et la d cliner dans les projets structurants.
Fiabilisation et am lioration continue des services
• Analyser les performances, identifier les points de contention et proposer des am liorations pour optimiser l utilisation des ressources et la mont e en charge.
• D finir, mettre en place et am liorer les outils d observabilit (monitoring, m triques, logs, alerting), avec une approche proactive de la d tection d incidents.
• R diger des processus d exploitation, les maintenir et les faire voluer.
• Assurer une veille technologique continue afin de proposer des volutions pertinentes de l infrastructure.
Gestion des incidents et support
• Assurer en partie le support client de niveau 3, en lien avec les quipes support et selon les SLA.
• Participer activement la gestion des incidents, ainsi qu'aux cycles d'astreintes (environ une demi-semaine toutes les trois semaines).
• Intervenir rapidement lors des incidents critiques afin d en limiter l impact et d assurer la continuit des services.
• Piloter et animer les r trospectives d incidents (post-mortems), en identifiant les causes racines et en d finissant des actions correctives durables.
• R diger et publier les rapports post-mortem la suite des incidents majeurs.
• Assurer la coordination et la communication de crise, en interne comme aupr s des clients.
S curit , conformit et continuit d activit
• Veiller au respect des engagements de service (SLA, RPO, RTO) sur le p rim tre SRE.
• Mettre en place des indicateurs de mesure de la qualit des services (SLO).
• Contribuer activement la conformit ISO 27001 et HDS : respect des processus, participation aux audits internes et externes.
• Planifier, ex cuter et analyser les tests r guliers des dispositifs de continuit et de reprise d activit (PCA/PRA).
Collaboration interne et contribution transverse
...
Ready to Apply?
Click the button below to visit the company's application page.
Apply for this Position