AI 에이전트 메모리 시스템 비교: Honcho vs Zep vs Mem0 vs Cognee
에이전트 메모리는 모든 대화를 까먹는 챗봇과, 내 취향을 기억하고 지난 결정을 이해하며 맥락을 쌓아가는 어시스턴트를 가르는 핵심 차이다. 하루 동안 Honcho, Zep, Mem0, Cognee, Letta를 비롯한 여러 시스템을 직접 셀프호스팅 관점에서 뜯어봤다. 여기 그 결과를 정리한다.
현재 지형 — 세 개의 티어
지금 에이전트 메모리 시스템은 크게 세 계층으로 나뉜다:
- 풀스택 변증법적 시스템 — Honcho, Zep+Graphiti, Mem0
- 그래프 중심 지식 시스템 — Cognee
- 경량 / 연구용 — Letta (MemGPT), Holographic, Hindsight
평가 기준은 세 가지 축이다: 벡터 검색 (과거 맥락을 찾아내는 능력), 그래프 관계 (세션 간 사실들을 연결하는 능력), 추출 방식 (원시 메시지에서 관찰 정보를 어떻게 뽑아내는가).
Honcho: 변증법적 메모리 레이어
Honcho는 내가 지금 실제로 돌리고 있는 시스템이다. 변증법적 메모리 시스템으로, 단순히 메시지를 저장하는 게 아니라 메시지에 대해 추론한다. 메시지가 들어오면 "deriver"가 이를 처리해 관찰 정보(사용자에 대한 사실, 에이전트에 대한 사실, 관계에 대한 사실)로 변환하고, "dialectic" 레이어가 그 관찰 정보를 종합해 질문에 답한다.
아키텍처:
- API 컨테이너 — 채팅, 세션, 메시지 처리
- Deriver 컨테이너 — 백그라운드에서 메시지를 관찰 정보로 추출하는 워커
- PostgreSQL — 관계형 데이터 (세션, 메시지, 관찰 정보)
- 벡터 스토어 — LanceDB 또는 PGVector로 시맨틱 검색
잘 된 점:
- 셀프호스팅 가능, 완전 오픈소스
- 멀티 에이전트 지원 (Honcho 인스턴스 하나로 여러 에이전트 운용)
- 변증법적 응답이 실전에서 쓸모 있다 — "X에 대해 무엇을 알고 있나?" 같은 질문에 종합된 사실로 답변
- 유연한 벡터 스토어 (차원 제약에 막혀 PGVector에서 LanceDB로 전환)
아쉬운 점:
- 그래프 레이어 부재 — 관찰 정보가 개별 팩트로만 존재, 연결된 지식 그래프 없음
- Deriver 설정이 까다롭다 —
FLUSH_ENABLED기본값이 비용 최적화를 위해 false여서, 개인용 저볼륨 환경에서는 관찰 정보가 아예 생성되지 않는다 - PGVector 차원이 1536으로 하드코딩 — OpenAI 임베딩을 강제하며, 다른 임베딩 모델을 쓰려면 패치하거나 스토어를 교체해야 함
Zep + Graphiti: 시간 인식 그래프 메모리
Zep은 Honcho와 가장 근접한 경쟁자다. 마찬가지로 변증법적 메모리를 제공하면서 시간적 추론을 더했다 — "PGVector를 쓰고 있었다"는 사실이 "LanceDB로 전환했다"는 사실보다 먼저 일어났다는 걸 안다.
Graphiti는 Zep의 오픈소스 그래프 레이어다. 메시지로부터 지식 그래프를 구축하고, 엔티티를 연결하며, 관계가 시간에 따라 어떻게 변하는지 추적한다.
Zep이 앞서는 지점:
- 시간 인식 — "임베딩 모델을 언제 바꿨지?" 같은 질문에 답할 수 있다
- 그래프 관계 — 엔티티가 고립되지 않고 연결됨
- 더 나은 문서화, 성숙한 SaaS 서비스
Zep이 밀리는 지점:
- Graphiti가 별도 컴포넌트 — 관리 포인트가 늘어난다
- Honcho의 Docker Compose에 비해 셀프호스팅 경로가 덜 명확하다
- 단순한 유스케이스에 비해 설정이 복잡하다
Mem0: 유료 다중 사용자 옵션
Mem0은 이 분야에서 가장 세련된 제품이다. 사용자별 메모리, 관계 추적, 깔끔한 API를 제공한다. 다만 프로덕션 사용 기준 월 $249다.
얻는 것:
- 다중 사용자 메모리와 관계 추적
- 관리형 인프라, Docker 씨름 불필요
- 좋은 개발자 경험과 문서화
잃는 것:
- 셀프호스팅 불가 — SaaS 전용
- 사용자 수에 따라 비용 증가
- 추출 로직에 대한 제어가 적다
수천 명의 사용자를 대상으로 제품을 만든다면 Mem0이 합리적이다. 개인 에이전트 용도로는 오버킬이고 가격도 과하다.
Cognee: 문서 우선 지식 그래프
Cognee는 접근 방식이 다르다. 채팅 메시지에서 관찰 정보를 추출하는 대신 문서를 수집해 — PDF, 코드베이스, 노트 등 — 지식 그래프를 구축한다.
주요 특징:
- 툴 호출 캡처 — 에이전트가 어떤 툴을 썼고 어떤 결과가 나왔는지 기록
- 그래프가 기본 — 부가 기능이 아니라 핵심 데이터 모델
- 대규모 문서 코퍼스 대상 RAG (Retrieval-Augmented Generation)에 특화
언제 써야 하나:
- 100개 이상의 PDF나 대규모 코드베이스를 분석해야 할 때
- 대화가 아닌 문서에서 엔티티 관계를 추출해야 할 때
- 에이전트의 주 역할이 채팅이 아닌 리서치나 분석일 때
Cognee는 대화 메모리를 대체하는 게 아니라 보완한다. Honcho로 세션 맥락을, Cognee로 문서 지식을 — 둘 다 돌리는 그림을 그리고 있다.
Letta (MemGPT): 연구 수준의 정밀 제어
Letta(구 MemGPT)는 가장 학술적으로 엄밀한 옵션이다. 워킹 메모리, 리콜 메모리, 아카이벌 메모리 등 메모리 계층을 명시적 관리 함수로 완전히 통제할 수 있다.
강력하지만 복잡하다. 데이터를 언제 메모리에 올리고 내릴지, 무엇을 우선 보존할지, 메모리 계층을 어떻게 구조화할지 직접 정의해야 한다. 연구나 커스텀 아키텍처에는 좋지만, "어제 내가 뭐라고 했는지 기억해" 수준의 요구에는 과하다.
Holographic / Hindsight: 제로 인프라 옵션
극도로 가벼운 대안들로, 본질적으로 영리한 프롬프트 엔지니어링에 최소한의 영속성을 더한 것이다. 압축된 메모리를 프롬프트 자체에 저장하거나 초소형 로컬 DB를 쓴다.
적합한 상황:
- 인프라 없이 프로토타이핑할 때
- PostgreSQL을 띄울 수 없는 엣지 환경
- 정교한 추출보다는 어느 정도 메모리만 필요할 때
장기간 멀티 세션 맥락 유지에는 적합하지 않다.
비교 표
| 시스템 | 벡터 검색 | 그래프 | 추출 방식 | 셀프호스팅 | 최적 용도 |
|---|---|---|---|---|---|
| Honcho | ✅ | ❌ | Deriver (변증법적) | ✅ 쉬움 | 일상 에이전트 메모리, 멀티 에이전트 |
| Zep + Graphiti | ✅ | ✅ | 시간 + 그래프 | ⚠️ 복잡 | 시간적 추론, 관계 추적 |
| Mem0 | ✅ | ✅ | 자동 | ❌ SaaS | 다중 사용자 제품 |
| Cognee | ✅ | ✅ (기본) | 문서 수집 | ✅ | 문서 중심 프로젝트, RAG |
| Letta | ✅ | ⚠️ 수동 | 계층 제어 | ✅ | 연구, 커스텀 아키텍처 |
| Holographic | ❌ | ❌ | 프롬프트 압축 | ✅ (불필요) | 프로토타이핑, 엣지 |
내 구성: Honcho + 향후 Cognee
Honcho를 기본으로 유지한다. 일상적인 에이전트 메모리를 잘 처리하고, 변증법적 레이어는 실전에서 쓸 만하며, 몇 가지 함정(deriver flush, 볼륨 마운트, 차원 설정)만 알면 셀프호스팅도 무난하다.
확장 계획:
- Honcho — 일상 대화 메모리, 에이전트 설정, 세션 맥락
- Cognee — 문서 지식 그래프 (프로젝트 문서 수집을 시작하면)
- Zep + Graphiti — 시간 추적 ("언제 바꿨더라?" 같은 질문이 필요해지면)
Mem0은 비용 때문에 제외. Letta는 흥미롭지만 당장은 너무 복잡하다. Holographic은 더 가벼운 대안이 필요할 때의 폴백이다.
핵심 요약
- Honcho는 현재 최고의 셀프호스팅 변증법적 메모리다. 완벽하진 않지만(그래프 없음, deriver 까다로움) 작동하고, 세션마다 개선된다.
- Zep이 시간 + 그래프에서 앞선다. 관계가 시간에 따라 어떻게 변하는지 추적해야 한다면, Graphiti가 바로 Honcho에 없는 기능이다.
- Mem0은 완성도는 높지만 비싸다. 개인 사용에 월 $249는 정당화하기 어렵다.
- Cognee는 채팅이 아닌 문서용이다. 용도가 다르며, 상호 보완적이다.
- Letta는 연구자용이다. 완전한 제어는 곧 완전한 복잡성이다.
- 임베딩 모델 선택이 중요하다. 1024차원 모델(bge-m3)이 더 저렴하고 빠르지만, 모든 벡터 스토어가 임의 차원을 지원하는 건 아니다.
메모리 시스템은 아직 초기 단계다. Honcho v1은 군데군데 거칠지만, 메시지를 단순 검색하는 대신 관찰 정보에 대해 추론하는 변증법적 접근은 올바른 방향이다. 앞으로 12개월 안에 그래프 레이어 추가, 더 나은 추출 파이프라인, 더 성숙한 셀프호스팅 옵션이 나올 것으로 본다. 당분간은 Honcho에 문서 레이어(Cognee)를 더하는 구성으로 대부분의 에이전트 메모리 요구를 커버할 수 있다.