Site Reliability Engineer

AIApptoza Inc. — Markham, Ontario🇨🇦

Detalhes da vaga

Salário

Não especificado

Remoto

Presencial

Fonte

jsearch ↗

Descrição

Role: SRE & Observability Lead (Dynatrace, Enterprise Platforms) Location: Markham, ON (Hybrid) Duration: Longterm About the Role We are seeking an experienced SRE & Observability Lead to drive and mature enterprise-wide observability and reliability practices across complex hybrid environments. This role will lead the implementation and optimization of Dynatrace as the organization’s central observability platform and establish Site Reliability Engineering (SRE) practices that improve system availability, operational resilience, incident response, and platform performance. The ideal candidate brings strong expertise in observability engineering, distributed systems, cloud/on-prem infrastructure, and enterprise platform operations. You will collaborate closely with Infrastructure, DevOps, Application, Security, ERP, and Integration teams to ensure proactive monitoring and reliability across critical business systems. Key Responsibilities Enterprise Observability & Monitoring • Own and enhance enterprise observability capabilities using Dynatrace across: • Cloud and hybrid infrastructure • ERP platforms • WMS systems • eCommerce applications • APIs and enterprise integrations • Middleware and backend services • Design and maintain: • Service topology models • Dashboards and visualizations • Intelligent alerting strategies • Health indicators and KPIs aligned to business impact • Establish Dynatrace as the enterprise “system of record” for operational health and performance monitoring. Site Reliability Engineering (SRE) • Apply SRE best practices including: • SLIs (Service Level Indicators) • SLOs (Service Level Objectives) • Error budgets • Reliability metrics and operational maturity frameworks • Improve platform resilience, uptime, and scalability across enterprise applications and services. • Lead initiatives to reduce recurring incidents and improve production stability. Incident Management & Reliability Improvement • Accelerate incident detection, triage, and root-cause analysis. • Lead post-incident reviews and drive long-term corrective and preventive actions. • Identify system reliability, performance, scalability, and capacity risks proactively. • Partner with engineering and operations teams to implement systemic reliability improvements. Governance & Enablement • Define observability and SRE standards, frameworks, and operational best practices. • Enable development and platform teams through guidance, training, and operational playbooks. • Drive adoption of monitoring standards and reliability engineering practices across teams. Required Qualifications • 5+ years of experience in: • Site Reliability Engineering (SRE) • Infrastructure Engineering • Platform Operations • Production Support • Reliability Engineering • Strong hands-on experience implementing and operating Dynatrace in enterprise environments. • Solid understanding of: • Distributed systems • Cloud and hybrid infrastructure • APIs and enterprise integrations • Application performance monitoring (APM) • Experience managing high-impact production incidents and critical enterprise environments. • Strong troubleshooting and root-cause analysis skills. • Excellent communication and stakeholder collaboration abilities. Preferred Qualifications • Experience with: • AWS, Azure, or GCP environments • Kubernetes and containerized platforms • CI/CD pipelines and DevOps tooling • ITSM and incident management platforms • Exposure to observability tools such as: • Splunk • Grafana • Prometheus • ELK Stack • Familiarity with automation and scripting (Python, Bash, PowerShell). • Experience in retail, supply chain, logistics, or enterprise commerce environments is an asset.

Comentários

Entre para deixar um comentário

Verificação

70/ 100medium

+Publicada há 2 dias (muito recente)

+Descrição detalhada da vaga (500+ caracteres)

~Fonte padrão: jsearch

Como isso é calculado?

Verificado por

system em May 11

Sinais de confiança

Idade do anúncio

26 dias

Multi-fonte

Fonte única

Republicações

Primeira vez

May 11

Última vez

May 11

Empresa

Apptoza Inc.

https://apptoza.com ↗

Tamanho

Indústria

Financiamento

Confiança

0/1 vagas preenchidas

Vagas similares

Junior Quality Assurance Engineer - Express Scripts Canada

100

The Cigna Group · 🇨🇦 Mississauga, Ontario

Project Manager - Atlantic Canada

Phoenix Petroleum Ltd - Fredericton · 🇨🇦 Fredericton, New Brunswick

Vagas similares em outros países

Staff Backend Engineer - Grafana Enterprise | US | Remote

Grafana Labs · 🇺🇸 United States

Site Reliability Engineer Lead (Observabilidade)

Jobgether · 🇧🇷 Brazil

(Senior) Devops Engineer - Blockchain Environment - Full Remote

goPro Consultancy Group ltd. · 🇺🇸 United States

Multi Skilled Maintenance Engineer

Anglian Home Improvements · 🇬🇧 NR66EU

Salesforce Administrator & Release Engineer DHS Public Trust

ICF · 🇺🇸 United States

Procurement Manager, Industrial Packaging- MORRISTOWN NJ

Arxada · 🇺🇸 United States

Sobre Verificação de Vagas

O que é uma vaga fantasma?Como verificamos vagas Leia nosso blog

Site Reliability Engineer

Vagas similares

Vagas similares em outros países

Paleta de comandos