Introductie
Als Senior Site Reliability Engineer ben je verantwoordelijk voor de betrouwbaarheid, performance en operationele volwassenheid van klant-specifieke Digital Sovereign Private Cloud omgevingen. Je werkt hands-on binnen het DevSecOps delivery team en zorgt ervoor dat OpenShift platformen voorspelbaar en stabiel functioneren binnen gereguleerde en missie-kritische omgevingen. Betrouwbaarheid wordt door jou structureel ingebed vanaf ontwerp tot en met productie.
Organisatie
Je komt te werken binnen een organisatie die zich richt op het leveren en beheren van soevereine cloudplatformen voor klanten met hoge eisen aan beschikbaarheid, compliance en security. De teams bestaan uit ervaren architects, platform engineers, security specialisten en operations professionals die gezamenlijk verantwoordelijk zijn voor stabiele en toekomstbestendige klantomgevingen.
Functie
In deze rol definieer en bewaak je SLIs en SLOs voor klantplatformen en ontwerp je observability oplossingen op basis van metrics, logging, tracing en dashboards. Je bent eigenaar van incident response processen en fungeert als escalatieverantwoordelijke bij kritieke incidenten.
Je coördineert incidenten, voert root cause analyses uit en borgt structurele verbeteringen op basis van error budgets en incidenttrends. Daarnaast ontwikkel en automatiseer je runbooks, remediation acties en self-healing mechanismen. Je werkt intensief samen met platform en security engineers en begeleidt het 24/7 operations team bij het uitvoeren van gestandaardiseerde operationele processen. Ook adviseer je klanten over verbeteringen op het gebied van betrouwbaarheid, performance en beschikbaarheid.
Functie-eisen
- Aantoonbare hands-on ervaring met Site Reliability Engineering in productieomgevingen
- Ervaring met monitoring, alerting en observability voor Kubernetes of Red Hat OpenShift platformen
- Sterke vaardigheden op het gebied van incidentmanagement, troubleshooting en root cause analyse
- Ervaring met het automatiseren van operationele workflows en herstelacties
- Grondige kennis van SLIs, SLOs, error budgets en reliability-driven operations
- Stressbestendig en besluitvaardig in complexe situaties
- Zelfstandig, verantwoordelijk en sterk gedisciplineerd in operationeel werken
- Vloeiend in Nederlands en Engels
- Minimaal 5 tot 8 jaar relevante ervaring in SRE, operations of platform reliability functies
- Bereidheid om deel te nemen aan on-call en escalatierotaties
- Relevante certificeringen op het gebied van cloud, Kubernetes, SRE of ITIL zijn een pré
Aanbod
- Marktconform salaris o.b.v. ervaring
- Een sleutelrol met directe verantwoordelijkheid voor de betrouwbaarheid van strategische cloudplatformen
- Eigenaarschap over uptime, stabiliteit en operationele volwassenheid van klantomgevingen
- Nauwe samenwerking met senior architects en specialisten op het gebied van platform en security
- Werken binnen complexe, gereguleerde en missie-kritische omgevingen
- Uitstekende mogelijkheden voor professionele groei binnen grootschalige platform reliability engineering
Locatie
Amstelveen
Type
Vast
Aantal uur
40
Domein
Infra/cloud
Salaris
-
Sector/branche
IT
