Devsu

Senior Site Reliability Engineer (SRE) - (GCP)

engineeringfull timeGuatemala

SALARY

Not listed

WORK TYPE

remote

JOB TYPE

full time

INDUSTRY

general

About the role

Monitoring & Observability (Core Focus)

Own and operate the monitoring and observability stack across on-prem and GCP environments
Design, build, and maintain Grafana dashboards for infrastructure, Kubernetes, and applications
Define, tune, and maintain alerts to ensure high signal-to-noise ratio
Establish observability standards and best practices across teams
Improve visibility into system health, performance, and reliability

Site Reliability Engineering

Kubernetes & Platform Reliability

Secondary Responsibilities (Backup Application Support)

Provide L2/L3 application support coverage during support team resource shortages, high-severity incidents (SEVs), peak support periods or escalations
Triage and troubleshoot application issues using existing runbooks and dashboards
Collaborate with Application Support and Engineering teams during incidents
Ensure all actions, findings, and resolutions are documented in ServiceNow (SNOW)