벡터 DB(Vector Database)란?

벡터 DB (Vector Database)

벡터 DB(Vector Database)는 문서·문장·이미지·코드 등을 임베딩 벡터로 변환해 저장하고, 의미적 유사도(Semantic Similarity)에 기반해 가장 관련성이 높은 결과를 빠르게 검색할 수 있도록 설계된 데이터베이스이다. RAG 파이프라인에서 핵심적인 역할을 담당하며 생성형 AI의 사실성과 정확도를 높이는 데 필수적이다.

Ⅰ. 개념과 특징

전통적인 데이터베이스는 키워드 기반 검색을 수행하지만, 벡터 DB는 문서의 “의미”를 벡터 공간에 표현하고 벡터 간 거리(유사도)를 계산하여 가장 관련성 높은 정보를 찾는다. 이를 통해 질문과 표현이 달라도 의미가 같으면 정확하게 검색할 수 있다.

Ⅱ. 어떻게 동작하는가?

  1. ① 임베딩 생성 — 문서를 벡터(고차원 수치 배열)로 변환
  2. ② 벡터 저장 — 벡터 DB에 저장 및 인덱싱
  3. ③ 유사도 검색 — 쿼리 벡터와 가장 가까운 벡터 탐색
  4. ④ 결과 반환 — 관련 문서·지식·증거를 RAG 모델에 전달

이 방식은 단순 키워드 일치가 아닌, “문맥적 의미 기반 검색(Semantic Search)”을 가능하게 한다.

Ⅲ. 왜 중요한가?

  • 의미 기반 검색 — 단어가 달라도 의미가 같으면 정확하게 검색
  • 대규모 문서 처리 — 수백만 개 벡터도 빠르게 탐색
  • RAG의 근간 — 고품질 검색 없이 RAG는 작동 불가
  • 정확도 향상 — 관련 없는 문서를 줄여 LLM 품질 개선

Ⅳ. 벡터 DB가 사용하는 주요 기술

  • FAISS — Meta 개발, 대규모 벡터 검색을 위한 라이브러리
  • HNSW(Hierarchical Navigable Small World) 그래프
  • Annoy — Spotify 개발, 고속 근사 최근접 탐색
  • ScaNN — Google 개발 의미 검색 최적화 구조

대부분의 벡터 DB는 위 방식 중 하나를 이용해 고차원 벡터 속에서 빠르게 “근접한 벡터”를 찾는다.

Ⅴ. LLM·RAG과의 관계

벡터 DB는 RAG 파이프라인의 “Retrieval(검색)” 단계에서 가장 중요한 요소이다. 검색 품질이 낮으면 LLM이 아무리 강력해도 엉뚱한 문서를 기반으로 답변하게 되어 정확도가 떨어진다. 따라서 벡터 DB는 생성형 AI의 사실성을 좌우하는 핵심 기술로 평가된다.

Ⅵ. 활용 분야

  • 사내 문서 검색 챗봇 — 기업 문서 기반 Q&A
  • 법률·의료 RAG — 최신 논문·지침 검색
  • 코드 검색 — 대규모 코드베이스에서 의미 기반 검색
  • 추천 시스템 — 유저 행동을 벡터로 비교
  • 이미지·영상 검색멀티모달 임베딩 기반 검색

Ⅶ. 요약

벡터 DB는 임베딩 벡터를 저장하고 의미적 유사도를 기반으로 빠르게 검색하는 데이터베이스다. 이는 RAG의 핵심 구성 요소로서, 생성형 AI가 근거 기반·사실 기반 응답을 생성하도록 돕는 필수 기술이다.