Senior Site Reliability Engineer - Amstelveen

Introductie

Als Senior Site Reliability Engineer ben je verantwoordelijk voor de betrouwbaarheid, performance en operationele volwassenheid van klant-specifieke Digital Sovereign Private Cloud omgevingen. Je werkt hands-on binnen het DevSecOps delivery team en zorgt ervoor dat OpenShift platformen voorspelbaar en stabiel functioneren binnen gereguleerde en missie-kritische omgevingen. Betrouwbaarheid wordt door jou structureel ingebed vanaf ontwerp tot en met productie.

Organisatie

Je komt te werken binnen een organisatie die zich richt op het leveren en beheren van soevereine cloudplatformen voor klanten met hoge eisen aan beschikbaarheid, compliance en security. De teams bestaan uit ervaren architects, platform engineers, security specialisten en operations professionals die gezamenlijk verantwoordelijk zijn voor stabiele en toekomstbestendige klantomgevingen.

Functie

In deze rol definieer en bewaak je SLIs en SLOs voor klantplatformen en ontwerp je observability oplossingen op basis van metrics, logging, tracing en dashboards. Je bent eigenaar van incident response processen en fungeert als escalatieverantwoordelijke bij kritieke incidenten.
Je coördineert incidenten, voert root cause analyses uit en borgt structurele verbeteringen op basis van error budgets en incidenttrends. Daarnaast ontwikkel en automatiseer je runbooks, remediation acties en self-healing mechanismen. Je werkt intensief samen met platform en security engineers en begeleidt het 24/7 operations team bij het uitvoeren van gestandaardiseerde operationele processen. Ook adviseer je klanten over verbeteringen op het gebied van betrouwbaarheid, performance en beschikbaarheid.

Functie-eisen

Aantoonbare hands-on ervaring met Site Reliability Engineering in productieomgevingen
Ervaring met monitoring, alerting en observability voor Kubernetes of Red Hat OpenShift platformen
Sterke vaardigheden op het gebied van incidentmanagement, troubleshooting en root cause analyse
Ervaring met het automatiseren van operationele workflows en herstelacties
Grondige kennis van SLIs, SLOs, error budgets en reliability-driven operations
Stressbestendig en besluitvaardig in complexe situaties
Zelfstandig, verantwoordelijk en sterk gedisciplineerd in operationeel werken
Vloeiend in Nederlands en Engels
Minimaal 5 tot 8 jaar relevante ervaring in SRE, operations of platform reliability functies
Bereidheid om deel te nemen aan on-call en escalatierotaties
Relevante certificeringen op het gebied van cloud, Kubernetes, SRE of ITIL zijn een pré

Aanbod

Marktconform salaris o.b.v. ervaring
Een sleutelrol met directe verantwoordelijkheid voor de betrouwbaarheid van strategische cloudplatformen
Eigenaarschap over uptime, stabiliteit en operationele volwassenheid van klantomgevingen
Nauwe samenwerking met senior architects en specialisten op het gebied van platform en security
Werken binnen complexe, gereguleerde en missie-kritische omgevingen
Uitstekende mogelijkheden voor professionele groei binnen grootschalige platform reliability engineering

Solliciteren