토큰(Token)이란? — LLM이 언어를 처리하는 기본 단위

토큰-token

토큰 (Token) 토큰(Token)은 LLM이 텍스트를 이해하고 생성하기 위해 문장을 잘게 분해한 최소 의미 단위다. 단어 전체가 하나의 토큰이 될 수도 있고, 단어를 더 작은 서브워드(Subword)로 쪼갠 조각일 수도 있다. LLM의 비용·속도·맥락 길이를 결정하는 핵심 요소다. Ⅰ. 토큰이란 무엇인가? 사람에게는 문장·단어가 익숙한 단위지만, LLM은 텍스트를 그대로 처리하지 않고 이를 작은 조각(토큰)으로 변환한다. 토큰은 다음과 같이 구성될 … 더 읽기

ASIC 반도체란?

asic

ASIC (Application-Specific Integrated Circuit) ASIC은 특정 기능을 매우 빠르고 효율적으로 수행하도록 맞춤 설계된 전용 집적회로(Special-Purpose Chip)다. 범용 처리 장치인 CPU·GPU와 달리 목적에 최적화된 구조를 사용해 압도적인 효율을 제공한다. TPU 역시 딥러닝 전용 ASIC의 대표 사례다. Ⅰ. ASIC 반도체란? ASIC(Application-Specific Integrated Circuit)은 특정 작업을 빠르고 효율적으로 처리하도록 회로를 완전히 목적 기반으로 설계한 반도체다. 불필요한 범용 기능을 … 더 읽기

벡터 DB(Vector Database)란?

벡터-db

벡터 DB (Vector Database) 벡터 DB(Vector Database)는 문서·문장·이미지·코드 등을 임베딩 벡터로 변환해 저장하고, 의미적 유사도(Semantic Similarity)에 기반해 가장 관련성이 높은 결과를 빠르게 검색할 수 있도록 설계된 데이터베이스이다. RAG 파이프라인에서 핵심적인 역할을 담당하며 생성형 AI의 사실성과 정확도를 높이는 데 필수적이다. Ⅰ. 개념과 특징 전통적인 데이터베이스는 키워드 기반 검색을 수행하지만, 벡터 DB는 문서의 “의미”를 벡터 공간에 표현하고 … 더 읽기

HBM 이란?

hbm

HBM (High Bandwidth Memory) HBM(High Bandwidth Memory)은 GPU·AI 가속기·HPC 서버에서 사용되는 초고대역폭·저전력 3D 적층 메모리다. 기존 GDDR·DDR 메모리보다 훨씬 높은 메모리 대역폭을 제공하며 대규모 병렬 연산·AI 학습·추론 처리에서 필수적인 차세대 고대역폭 메모리 규격이다. Ⅰ. HBM 이란? HBM은 여러 개의 DRAM 다이를 수직으로 적층(3D TSV)하여 인터포저(Interposer)를 통해 초고속으로 연결하는 메모리 기술이다. 대역폭은 높으면서 전력은 낮고, 지연시간도 … 더 읽기

CPU 란?

cpu

CPU (Central Processing Unit) CPU(Central Processing Unit)는 컴퓨터의 모든 명령을 해석하고 실행하는 중앙처리장치로, 운영체제·프로그램·서비스가 동작하기 위한 기본 연산·제어·로직 처리를 담당한다. PC·서버·모바일·임베디드 등 모든 디지털 기기의 기반이 되는 범용 프로세서(General-purpose processor)다. Ⅰ. CPU 란? CPU는 명령어를 해석(Decode)하고 산술·논리 연산(ALU)을 수행하며 프로그램 흐름(Control)을 제어하는 컴퓨터 시스템의 두뇌에 해당한다. GPU나 NPU처럼 특정 연산에 특화된 가속기와 달리 범용 작업 … 더 읽기

NPU 란?

NPU

NPU (Neural Processing Unit) NPU(Neural Processing Unit)는 신경망 연산(딥러닝 추론)을 전용 하드웨어 수준에서 가속하기 위해 만들어진 AI 특화 프로세서다. 스마트폰·PC·엣지 디바이스에서 실행되는 온디바이스 AI(On-device AI)의 핵심 기술로 사용되며, 카메라 인식, 음성 처리, 번역, AI 보정, 생성형 AI 기능까지 다양한 실시간 연산을 빠르고 전력 효율적으로 처리한다. Ⅰ. NPU란? NPU는 신경망 연산(행렬·텐서 계산)을 모바일·엣지 환경에서 빠르게 처리하도록 … 더 읽기

CUDA란?

cuda

CUDA (Compute Unified Device Architecture) CUDA는 NVIDIA가 GPU를 범용 병렬 연산에 활용하기 위해 만든 병렬 컴퓨팅 플랫폼이자 프로그래밍 모델이다. GPU의 수천 개 코어를 직접 제어해 딥러닝·과학 시뮬레이션·그래픽·데이터 분석 등 고성능 연산을 가속하도록 설계되었다. 특히 PyTorch·TensorFlow·cuDNN 등 AI 프레임워크 대부분이 CUDA 기반으로 동작하며, 현대 AI 산업의 핵심 소프트웨어 생태계로 평가된다. Ⅰ. CUDA란? CUDA는 GPU를 단순 그래픽 … 더 읽기

GPU란?

gpu

GPU (Graphics Processing Unit) GPU(Graphics Processing Unit)는 원래 그래픽·영상 렌더링을 위해 만들어진 대규모 병렬 연산 장치이다. 하지만 딥러닝에서 핵심 연산인 행렬 계산에 매우 적합해 딥러닝·LLM·트랜스포머 모델 학습에 사실상 표준(AI 인프라의 기본) 장비로 사용된다. 특히 엔비디아(NVIDIA)의 GPU는 오늘날 AI 산업의 중심 기술로 평가된다. Ⅰ. GPU란? GPU는 수천~수만 개의 코어를 활용해 대량의 데이터를 동시에 처리하는 병렬 처리 … 더 읽기

TPU 란? (TPU vs GPU)

tpu

TPU (Tensor Processing Unit) TPU(Tensor Processing Unit)는 구글이 개발한 딥러닝 전용 AI 가속기(ASIC)로, 텐서 연산·행렬 계산을 GPU보다 더 효율적으로 처리하도록 설계된 칩이다. LLM·트랜스포머 모델·대규모 딥러닝 학습을 고속 처리하며 구글 AI 인프라의 핵심 기반 기술로 활용된다. Ⅰ. TPU 란? TPU는 딥러닝에서 가장 많이 사용되는 행렬 곱셈(Matrix Multiplication)을 초고속으로 계산하기 위해 만들어진 전용 하드웨어이다. GPU가 범용 병렬 … 더 읽기

RAG(검색 증강 생성)란?

rag

RAG (검색 증강 생성) RAG(Retrieval-Augmented Generation)는 LLM이 외부 지식(문서·데이터베이스·검색 결과)을 조회해 가져온 뒤, 해당 정보를 기반으로 더 정확하고 사실적인 답변을 생성하는 기술이다. LLM의 구조적 한계로 발생하는 할루시네이션을 실질적으로 줄일 수 있는 핵심 전략으로 평가된다. Ⅰ. 개념과 목적 RAG의 핵심 목적은 “모델이 알고 있는 것만으로 답하는 구조”에서 “필요할 때 외부 지식을 불러와 사실성을 강화하는 구조”로 전환하는 … 더 읽기