백터 DB 제품별 비교
RAG를 위한 벡터 DB 목록
- 빠르고 가벼운 실험: FAISS
- LangChain, 문서 QA: Chroma
- 클라우드 확장성: Pinecone, Weaviate
- 대규모 연구, 기업: Milvus
FAISS (Facebook AI Similarity Search)
- 가장 널리 사용됨
- 특징: 빠르고 가볍고, 설치 간편 (로컬 환경에서 실행)
- 장점:
- CPU/GPU 모두 지원
- 다양한 검색 알고리즘 제공 (Flat, IVFFlat, HNSW 등)
- Hugging Face, LangChain 등과도 호환성 높음
- 단점: 메모리 기반, 분산 처리/스케일링 어려움
- 사용처: 개인 RAG 프로젝트, 학술 연구, 초기 PoC
- RAG 튜토리얼에서 가장 많이 등장하는 벡터 DB
Pinecone (클라우드 기반)
- 상용 프로젝트에서 가장 많이 사용되는 클라우드 벡터 DB
- 특징: 서버리스, 빠른 검색, 분산 지원
- 장점:
- 유사도 검색에 최적화된 인프라
- 자동 확장, 메타데이터 필터링
- LangChain, LlamaIndex, OpenAI와 완벽 호환
- 단점: 유료 (무료 티어도 있음), API 키 필요
- 사용처: 실시간 QA 서비스, 기업형 AI 서비스
Chroma
- RAG + LangChain의 공식 기본 DB (2024년 기준)
- 특징: 파이썬 기반, 로컬 DB 또는 클라우드로도 가능
- 장점:
- 설치 간편, zero-config
- 메타데이터, 문서 저장에 특화
- LangChain에서 기본으로 사용
- 단점: 대규모 검색에는 성능 제한
- 사용처: 문서 요약, PDF QA, 챗봇
Weaviate
- GraphQL 기반 쿼리 + 벡터 검색 지원
- 특징: 다양한 임베딩 모델 내장 (OpenAI, Cohere 등과 통합)
- 장점:
- 메타데이터 기반 필터 검색 강력
- 클라우드, 로컬 모두 지원
- 단점: 상대적으로 설정 복잡
- 사용처: 추천 시스템, 세분화된 QA 서비스
가장 많이 쓰이는 벡터 DB 순위 (2025 기준 추정)
| 순위 |
이름 |
사용 환경 |
장점 |
비고 |
| 1위 |
FAISS |
로컬 |
빠름, 무료 |
연구/개인용 많이 사용 |
| 2위 |
Pinecone |
클라우드 |
확장성, 안정성 |
기업/실전 서비스 |
| 3위 |
Chroma |
로컬 |
LangChain 기본값 |
개인 프로젝트 |
| 4위 |
Weaviate |
로컬/클라우드 |
필터링/GraphQL |
대규모 분산도 가능 |
| 5위 |
Milvus |
대규모 시스템 |
빠름, 무료 |
R&D용 대형 시스템 |
상황별 추천
- 간단한 문서 검색용 RAG: Chroma, FAISS
- 비즈니스 서비스: Pinecone, Weaviate
- LangChain 사용 중: Chroma 기본 내장
- Korean RAG + 무료 환경: KoBERT or KoSimCSE + FAISS