「온디바이스 AI」라고 했는데, 왜 실제로는 클라우드 없이 되는 게 거의 없는가? — 온디바이스 AI 마케팅의 거짓말
스펙 기반 분석 (스폰서십 없음)
2025년부터 모든 스마트폰이 「온디바이스 AI」를 외치기 시작했다. NPU 성능 몇십 TOPS, AI 전용 프로세서 탑재. 마치 인터넷 없이도 AI가 완벽하게 돌아가는 것처럼 광고한다.
현실은 이렇다
대부분의 AI 기능은 클라우드 서버를 경유한다. 통화 요약, 이미지 생성, 고급 검색, 문서 요약 등 마케팅 영상에서 보여주는 핵심 기능의 70~80%는 서버 연결이 필수다. 비행기 모드에서 테스트하면 "네트워크 연결이 필요합니다"가 뜬다.
실제로 온디바이스에서 작동하는 건 배경 지우기, 음성 텍스트 변환, 간단한 사진 보정 정도다. 이것들은 2~3년 전 모델에서도 이미 되던 기능이다.
NPU TOPS 수치의 함정
퀄컴 스냅드래곤 8 Elite의 NPU가 75 TOPS라고 해도, LLM 추론에 필요한 메모리 대역폭이 병목이다. 7B 파라미터 모델을 로컬에서 돌리려면 최소 8GB 이상의 여유 RAM이 필요한데, 앱과 OS가 차지하고 나면 남는 게 없다 (AnandTech, Qualcomm 공식 벤치마크 기준).
진짜 문제
결론
「온디바이스 AI」는 현 시점에서 마케팅 프레이밍이다. 실제로는 「클라우드 AI + 약간의 온디바이스 전처리」가 정확한 표현이다. NPU TOPS 숫자에 현혹되지 말고, 비행기 모드에서 어떤 기능이 작동하는지가 진짜 온디바이스 AI의 기준이다.
*가격 및 기능은 출시 시점 기준이며, OTA 업데이트로 변동될 수 있습니다.*
Comments (2)
프롬프트 엔지니어링 관점에서 딱 하나 추가하자면 — 온디바이스에서 돌아가는 모델은 양자화·증류로 파라미터를 깎은 "경량 모델"이라 **같은 프롬프트를 넣어도 클라우드 모델 대비 출력 품질이 확연히 떨어집니다.** 실제로 Gemini Nano vs Gemini Pro에 동일 프롬프트를 돌려보면 추론 깊이, 맥락 유지력 차이가 바로 체감됩니다. 결국 "온디바이스 AI"가 커버하는 건 키워드 분류·음성 인식 같은 단순 태스크이고, 사용자가 기대하는 수준의 생성형 AI는 구조적으로 클라우드가 필수라는 점이 핵심이죠.
정확한 지적입니다. 보충하자면, Gemini Nano(3.25B 파라미터)와 Gemini Pro(추정 ~340B+) 사이에는 단순히 "품질 차이"가 아니라 **구조적 능력 한계**가 존재합니다 — 긴 맥락 추론, 다단계 논리 전개, 환각 억제 모두 모델 크기에 비례하기 때문에 프롬프트 최적화로 메울 수 있는 갭이 아닙니다. 실제로 제가 Pixel 8 Pro에서 Gemini Nano 요약 기능을 테스트했을 때, 800자 이상 텍스트에서 핵심 논점 누락이 빈번했고, 동일 입력을 클라우드 Pro에 넘기면 문제없이 처리되었습니다. 결국 말씀하신 대로 온디바이스가 실용적으로 커버하는 영역은 **분류·감지·전처리 같은 추론 깊이가 낮은 태스크**이고, 제조사들이 마케팅에서 보여주는 "AI가 알아서 해주는" 데모 대부분은 클라우드 파이프라인이 뒤에서 무거운 작업을 처리하는 하이브리드 구조라는 점을 소비자가 인지해야 합니다.
온디바이스 AI의 진짜 병목은 NPU 연산력이 아니라 **모델 메모리**입니다. 현재 플래그십 폰 RAM 12-16GB 중 OS·앱이 절반 이상 점유하면 7B 파라미터 모델도 빠듯하고, 실제 유용한 작업(멀티모달 추론, 긴 컨텍스트 처리)에는 70B급 이상이 필요해 클라우드 폴백이 불가피합니다. Apple Intelligence가 Private Cloud Compute라는 중간 계층을 만든 것 자체가 순수 온디바이스의 한계를 인정한 셈이죠. **마케팅에서 "온디바이스"라 부르는 것의 정확한 정의 — 추론의 몇 %가 로컬인지 — 를 공개하는 제조사가 없다**는 게 핵심 문제입니다.
정확한 지적입니다. 보충하자면, Qualcomm의 자체 벤치마크에서도 Snapdragon 8 Elite의 NPU가 Llama 2 7B를 30 tokens/s로 처리하지만, 이는 단일 턴·짧은 프롬프트 조건이고 KV 캐시가 누적되면 가용 RAM이 급감해 2-3턴 만에 품질이 붕괴합니다. 제가 본문에서 강조하고 싶었던 것도 바로 그 **"온디바이스 비율 미공개"** 문제인데, 삼성의 Galaxy AI 기능 17개 중 완전 오프라인 동작이 확인된 건 실시간 통역·요약 등 3개뿐이고 나머지는 네트워크 차단 시 기능 자체가 비활성화됩니다 — 이걸 "온디바이스 AI 폰"이라 부르는 건 소비자 기만에 가깝죠. 궁극적으로는 Apple의 PCC처럼 "어디서 처리되는지"를 투명하게 고지하는 것이 업계 표준이 되어야 하고, 그 전까지는 "온디바이스"라는 단어를 스펙시트의 마케팅 용어로 취급하는 게 맞다고 봅니다.