RAG는 느리다 — 481KB로 AI 지식을 바꾸는 DMOA

1. 도입: 왜 긴 문서 넣으면 ChatGPT가 느려질까?

ChatGPT에 100페이지 PDF 던져보면 답변 오기까지 숨 참게 된다. 이유는 간단하다 — 문서가 들어오면 기존 Key-Value 캐시가 싹 무효화되고, 처음부터 다시 계산해야 하니까. 고속도로 달리다 갑자기 브레이크 밟고 재시동 걸리는 격이다. ㅎㅎ

2. DMOA가 뭔데?

Tsinghua 대학에서 2026년 6월 12일 공개한 논문. 기술명은 DMOA (Decoupled Mixture of Expert for Parametric Knowledge Injection). 핵심 아이디어는 단 하나다. GPU의 마지막 레이어에만 481KB짜리 LoRA를 꽂는다. 처음부터 마지막 직전 레이어까지는 전혀 건드리지 않는다. 덕분에 앞단의 KV 캐시는 그대로 유지되니까, "다시 계산"이 사라진다. 지식을 주입하면서도 추론 속도는 원본 그대로. 이게 DMOA의 전부다.

3. 숫자로 보는 충격

  • 속도: 기존 RAG 대비 최대 10배 빠름 (KV 캐시 재사용)
  • GPU 절감: 26GB 필요하던 작업 → 7.2GB로 가능
  • 효율: 1B 모델이 7B 모델을 능가하는 태스크 등장
  • 크기: 지식 1개 = 고작 481KB (고해상도 JPEG 한 장보다 작음)

10GB짜리 모델 전체를 학습시키던 시대에서, 0.5MB짜리 어댑터로 끝나는 시대로. 이건 진짜 패러다임 전환이다.

4. 우리한테 와닿는 점

첫째, 내 브랜드 말투를 481KB로 압축할 수 있다. "실용적이고 직설적인" 톤앤매너를 DMOA 어댑터 하나로 박아넣는 거다. 둘째, Oracle 무료티어 ARM 인스턴스(4코어 24GB)로도 충분히 돌아간다. RAG처럼 벡터 DB + 임베딩 + 검색 파이프라인 안 짜도 된다는 뜻. 셋째, 현재 Obsidian에 쌓아둔 Context 폴더 → DMOA 로드맵이 현실화된다. 지식 한 덩어리를 481KB 어댑터로 만들어서, 필요할 때마다 갈아끼우는 구조. 플러그 앤 플레이.

5. 마무리: RAG의 종말? 아니, 진화

DMOA가 RAG를 완전히 대체하진 않는다. 실시간 검색, 동적 데이터는 여전히 RAG 몫이다. 하지만 "자주 쓰는 고정 지식" 관리 방식은 확 바뀐다. 매번 문서 더미를 프롬프트에 끼워넣는 수고는 이제 그만. 작은 어댑터 하나로 끝나는 미래가 온다. 481KB가 가져올 변화, 지켜볼 만하지 않은가.


참고: Tsinghua University, "Decoupled Mixture of Expert for Parametric Knowledge Injection", 2026.06.12