반도체 칩 위에서 AI를 구동하는 온디바이스 AI SW 개발 직무. 실제 합격자가 NPU 최적화, 딥러닝 모델 경량화, AI 런타임 개발 성과를 어떻게 자소서에 담았는지 전면 공개합니다.
Overview
삼성전자 DS부문 AI 소프트웨어 개발 직무는 반도체 칩(NPU·AP·메모리)과 AI 모델 사이의 소프트웨어 스택을 개발합니다. 클라우드 AI와 달리 온디바이스 AI는 칩의 전력·면적·발열 제약 안에서 최대 성능을 뽑아내야 하므로, 단순 딥러닝 모델 학습이 아니라 NPU 드라이버·런타임·컴파일러 레벨의 하드웨어-소프트웨어 공동 최적화(HW/SW Co-optimization) 역량이 핵심입니다.
이번 분석 대상인 합격자 W.J.씨(ANON, [DS-SW-AI-01])는 컴퓨터공학 석사로, 온디바이스 AI 추론 레이턴시 43% 감소, TensorFlow Lite INT8 Quantization으로 ResNet-50 모델 71% 경량화(정확도 0.3%p 손실), Exynos NPU 활용률 89% 달성이라는 세 가지 실측 성과로 최종 합격했습니다.
Before / After
AI SW 자소서에서 가장 흔한 실수는 학습 정확도만 강조하는 것입니다. 삼성 DS는 '얼마나 빠르게, 얼마나 적은 전력으로, 얼마나 작은 칩에서' AI를 구동하는지를 봅니다.
"PyTorch를 이용해 이미지 분류 모델(ResNet-50)을 학습했고 Top-1 Accuracy 76.1%를 달성했습니다. 데이터 증강과 학습률 스케줄러를 적용해 성능을 높였으며, 다양한 딥러닝 프레임워크를 익혔습니다."
"TFLite INT8 Post-Training Quantization으로 ResNet-50을 76MB→22MB로 경량화하고 Top-1 Accuracy를 76.1%→75.8%로 유지했습니다. Exynos NPU Delegate를 활용해 ARM CPU 대비 추론 레이턴시를 218ms→124ms(43% 감소)로 단축하고, NPU 활용률 89%를 달성해 전력 소비를 38% 절감했습니다."
Scorecard
Strategy
레이턴시(ms)·모델 크기(MB)·정확도 유지율·NPU 활용률·전력 소비(mW) 다섯 가지를 모두 기재하세요. 하나라도 빠지면 온디바이스 제약 조건을 완전히 이해하지 못한다는 인상을 줍니다. W.J.씨는 5종 지표를 수치와 함께 서술해 서류 첫 단계에서 NPU 팀장의 주목을 받았습니다.
INT8 양자화의 장점(속도·용량)만 쓰면 교과서 수준입니다. "INT8 PTQ로 레이턴시 43% 감소를 달성했으나, 특정 레이어(BatchNorm 직후)에서 정확도 1.2%p 손실이 발생해 해당 레이어만 FP16으로 유지하는 mixed-precision 전략으로 최종 손실을 0.3%p로 축소했습니다"처럼 문제 발견→해결 과정을 담으세요.
TFLite 사용 경험은 수천 명이 있습니다. "Exynos NPU HAL 레벨에서 연산자별 사이클 카운트를 프로파일링해 bottleneck 레이어를 식별하고, Delegate에서 그래프 파티셔닝을 수동 조정해 NPU 활용률을 72%→89%로 끌어올렸습니다"처럼 시스템 레벨 기여를 서술하면 즉시 차별화됩니다.
Metrics
| 최적화 항목 | 최적화 전 | 최적화 후 | 기법 | 평가 |
|---|---|---|---|---|
| 추론 레이턴시 | 218 ms (CPU) | 124 ms (NPU) | NPU Delegate + 그래프 파티셔닝 최적화 | 최우수 |
| 모델 크기 | 76 MB (FP32) | 22 MB (INT8) | INT8 Post-Training Quantization (TFLite) | 최우수 |
| Top-1 Accuracy | 76.1% | 75.8% | Mixed-precision (BatchNorm 레이어 FP16 유지) | 우수 |
| NPU 활용률 | 72% | 89% | 연산자별 사이클 프로파일링 + 수동 그래프 파티셔닝 | 최우수 |
| 전력 소비 | 기준 100% | 62% (-38%) | NPU DVS(Dynamic Voltage Scaling) 연동 + 배치 크기 최적화 | 우수 |
| ONNX 변환 지원 op | 72개/전체 91개 | 89개/전체 91개 | 커스텀 C++ 플러그인 op 17개 추가 구현 | 개선 |
Insights
Pitfalls
클라우드 AI 성과를 DS에 그대로 적용: "A100 GPU에서 ImageNet Top-1 80%를 달성했습니다"는 DS AI SW 직무와 관련이 없습니다. 클라우드 학습 성과를 온디바이스 추론 최적화 직무에 연결하지 못하면 직무 이해도 부족으로 탈락합니다.
온디바이스 환경에서의 추론 최적화로 전환: "A100에서 학습한 ResNet-50을 TFLite INT8로 변환해 Exynos NPU에서 124ms 추론을 달성했습니다"처럼 학습→온디바이스 변환→최적화의 전체 파이프라인을 서술하세요.
경량화 비율만 쓰고 정확도 손실을 숨기기: "모델을 75% 경량화했습니다"만 쓰면 정확도가 50%로 떨어진 것은 아닌지 의심받습니다. 경량화와 정확도 유지율을 항상 함께 기재해야 기술적 신뢰성이 생깁니다.
경량화+정확도+기법을 세트로 기재: "INT8 PTQ로 76MB→22MB(71% 경량화), Top-1 Accuracy 76.1%→75.8%(0.3%p 손실)로 최적화했습니다. 손실 제어를 위해 BatchNorm 직후 레이어를 FP16으로 유지하는 mixed-precision 전략을 적용했습니다"처럼 세트로 서술하세요.
프레임워크 사용 경험 나열에 그치기: "PyTorch, TensorFlow, Keras, ONNX를 사용해본 경험이 있습니다"처럼 도구 목록을 나열하면 관련 실무 경험이 없는 것과 다름없습니다.
도구를 사용해 '무엇을 달성했는지' 연결: "TFLite Delegate API를 이용해 NPU-CPU 혼합 그래프 실행 파이프라인을 구성하고, C++ 커스텀 op 17개를 추가 구현해 ONNX 변환 지원율을 79%→98%로 높였습니다"처럼 도구+구체적 기여+성과로 서술하세요.
FAQ
커리어던 AI가 온디바이스 AI 직무 기준으로 추론 최적화 수치 표현, 하드웨어 이해도 서술, 경량화 전략 완성도를 점수로 분석해드립니다.
자소서 무료 분석하기