Deskripsi Pekerjaan
Kami mencari Reliability Engineer yang berpengalaman untuk memastikan kelangsungan operasional sistem infrastruktur kami di Sumatera Utara. Anda akan menjadi bagian krusial dalam merancang, mengimplementasikan, dan memelihara sistem yang andal untuk memenuhi kebutuhan bisnis yang berkembang pesat. Bergabunglah dengan tim yang inovatif untuk meningkatkan keandalan dan kinerja platform kami.
Tanggung Jawab
- Merancang dan mengimplementasikan sistem monitoring observability real-time
- Mengembangkan proses otomatisasi untuk deteksi dan respons terhadap insiden
- Menganalisis metrik kinerja sistem untuk mengidentifikasi potensi kegagalan
- Menyusun dokumentasi teknis dan runbook operasional
- Berkolaborasi dengan tim DevOps untuk meningkatkan CI/CD pipeline
- Mengelola SLO/SLA dan melaporkan kinerja sistem kepada stakeholder
- Melakukan root cause analysis untuk insiden kegagalan kritikal
Kualifikasi
- Sarjana Teknik Informatika/Sistem Informasi atau bidang terkait
- Minimal 3 tahun pengalaman sebagai Reliability Engineer atau SRE
- Kemampuan dalam scripting (Python, Bash, Go)
- Pemahaman mendalam tentang cloud computing (AWS/GCP/Azure)
- Pengalaman dengan container orchestration (Kubernetes, Docker)
- Keahlian dalam monitoring tools (Prometheus, Grafana, ELK Stack)
- Sertifikasi cloud (AWS Certified DevOps Engineer, GCP SRE) diutamakan