합격 자소서 스코어카드
카카오 SRE·인프라 직군 합격자 K.J.의 자소서를 커리어던 AI가 5개 지표로 분석했습니다. STAR 기법 자소서 가이드를 참고하면 각 항목 점수를 더 높일 수 있습니다.
카카오 SRE 직무가 보는 인재상
카카오 SRE는 단순 서버 관리를 넘어 AI Native 시대 전국민 서비스 신뢰성과 카나나(Kanana) LLM 저지연 추론 인프라를 동시에 책임진다. SLO 기반 오류 예산 관리와 장애 Post-mortem 문화 이해가 합격의 핵심 차별화다. 2026년 카카오 SRE가 찾는 인재는 '서버를 관리하는 엔지니어'가 아닌 '신뢰성을 코드로 달성하는 엔지니어'다.
SRE·인프라 엔지니어 핵심 직무
카카오 SRE 직무기술서에서 추출한 3가지 핵심 업무 영역입니다. 자소서 경험 서술의 방향 기준으로 활용하세요.
- 카카오톡·카나나(Kanana) 서비스 SLO 정의 및 오류 예산 관리, 실시간 모니터링 대시보드 설계·운영 — 수억 명이 동시에 사용하는 서비스의 응답시간·가용성 목표를 수치로 관리하고 오류 예산 소진 전 선제 대응 체계 수립
- Kubernetes 기반 컨테이너 오케스트레이션, LLM 저지연 서빙 클러스터 자원 최적화 및 카나나 AI 추론 파이프라인 안정적 운영 — HPA·VPA·클러스터 오토스케일러를 조합해 트래픽 급증 대응 자동화
- 장애 탐지 자동화(알람·On-call 체계), Post-mortem 주도 및 재발 방지 시스템 아키텍처 개선 — Prometheus AlertManager·PagerDuty 연동, 장애 원인 분류 체계 수립 및 인프라 취약 지점 반복 제거
카카오 SRE 합격 자소서 실전 문항 분석
합격자 K.J.가 실제 제출한 자소서의 핵심 두 문항입니다. Kubernetes, 카나나(Kanana) LLM 저지연 인프라, SRE 장애 대응, On-call, 99.99% 가용성을 어떻게 연결해 서술했는지 분석합니다.
학부 캡스톤 프로젝트에서 Kubernetes 기반 마이크로서비스를 직접 구축하고 Prometheus·Grafana로 모니터링 스택을 설계해 평균 장애 복구 시간(MTTR)을 23분에서 6분으로 단축한 경험이 있습니다. HPA(Horizontal Pod Autoscaler)를 적용해 트래픽 급증 시 Pod를 자동 확장하는 정책을 설계했고, AlertManager 규칙 12개를 직접 작성해 이상 징후를 팀 슬랙으로 즉시 전달하는 On-call 체계를 구현했습니다. 이 과정에서 '장애를 줄이는 것'이 아닌 '장애 복구 속도를 코드로 단축하는 것'이 SRE의 본질임을 체감했습니다.
입사 후 1년 내 카나나 LLM 추론 파이프라인의 P99 응답시간을 10% 개선하는 SLO 목표를 수립하고, 중기적으로는 AI 서빙 클러스터 자원 활용률 자동 최적화 시스템을 구축하겠습니다. 오류 예산 소진율을 실시간으로 추적하는 대시보드를 설계해 팀이 선제적으로 인프라 개선에 집중할 수 있는 환경을 만들겠습니다.
이틀을 추가로 투자해 네트워크 패킷 분석, DB 슬로우쿼리 로그, JVM GC 로그를 교차 분석한 결과, 대용량 객체 생성 반복으로 인한 Full GC 폭발이 원인임을 발견했습니다. Grafana 대시보드에서 GC Pause Time 스파이크가 응답 지연 패턴과 정확히 일치하는 것을 시각적으로 증명했습니다. 객체 풀링 패턴으로 리팩터링하자 P99 응답시간이 2,300ms에서 180ms로 낮아졌습니다.
이 경험으로 '이 정도면 충분하다'는 타협이 사용자에게 가장 큰 비용임을 체감했습니다. 팀에 장애 분석 체크리스트 — 네트워크 지연 확인 → DB 슬로우쿼리 → GC 로그 → 애플리케이션 스레드 덤프 순서로 점검하는 Post-mortem 템플릿 — 를 표준화해 공유했습니다. 이후 팀 내 동일 원인 재발 장애는 0건이었습니다.
광탈 표현 vs 합격 표현 — 4가지 비교
아래 비교를 통해 카카오 SRE 자소서에서 가장 자주 실패하는 표현 패턴과 합격 패턴의 차이를 확인하세요.
카카오 SRE 자소서 합격 5계명
합격 자소서 분석에서 반복적으로 확인된 5가지 핵심 원칙입니다. 자소서 초안 작성 전 반드시 체크하세요.
- 1 LLM 서빙 최적화와 전국민 트래픽 고가용성이라는 카카오 SRE 이중 과제를 지원동기에 명시하라 — 카나나(Kanana) AI 추론 파이프라인 저지연 유지와 카카오톡 99.99% 가용성을 SRE 수치로 연결하는 것이 차별화의 시작이다.
- 2 SLO·SLA·오류 예산·MTTR 등 SRE 전문 용어를 수치와 함께 서술해 실무 이해도를 증명하라 — "빠르게 복구하겠습니다"는 0점, "MTTR을 X분에서 Y분으로 단축했습니다"는 만점이다.
- 3 Post-mortem 문화 이해를 자소서에 반영해 실패를 자산화하는 카카오 문화 핏을 보여라 — if(kakao) 컨퍼런스에서 장애 사례를 공개하는 카카오 문화를 이해하고, 직접 Post-mortem을 주도해 팀 표준을 만든 경험이 있다면 반드시 서술하라.
- 4 Kubernetes·Prometheus·Grafana·Terraform 등 구체적 기술 스택을 경험과 함께 언급하라 — 도구 나열이 아닌 '왜 이 도구를 선택했고, 어떤 수치를 개선했는가'로 기술 오너십을 입증해야 한다.
- 5 Toil 자동화 경험을 통해 반복 작업을 코드로 대체하는 SRE 마인드셋을 어필하라 — 수동 배포·수동 장애 확인·수동 로그 분석을 자동화 스크립트·CI/CD·Alert로 대체한 사례가 있다면 정량 수치(시간 단축·오류율 감소)와 함께 서술하라.
카카오 SRE·인프라 자소서 자주 묻는 질문
취업 준비생이 가장 많이 묻는 6가지 질문에 커리어던 합격 분석팀이 답합니다. 추가 도움이 필요하면 자소서 작성 7원칙도 함께 확인하세요.
관련 합격 자소서 예시 모음
카카오 동일 회사 다른 직무, SRE·인프라 관련 타사, 그리고 자소서 작성 가이드까지 한 번에 확인하세요.
AI가 30초 만에 분석합니다