LLM의 정의와 LLM 종류

LLM

Large Language Model, 대규모 언어모델

GPT-3 는 2020 년에 공개된 대표적인 초거대언어모델이며, 1,750 억 개 파라미터를 가진 자기회귀 언어 모델

기존 NLP모델은 감성분석, 번역모델, 요약모델, 질문답변 모델 등 작업별로 따로 학습해야했지만 GPT-3이후 LLM은 프롬프트만 바꿔도 여러 작업을 수행할 수 있게 되었다.

LLM 종류

Decoder-only모델: GPT 계열 이전 토큰을 보고 다음 토큰 생성

Encoder-only모델: BERT 계열 문장을 이해하고 분류

Encoder-decoder 모델 : T5, BART 입력문장을 다른 문장으로 변환

instruction-tuned모델: InstructGPT, ChatGPT 계열 사람의 지시를 잘 따르도록 추가학습

Multimodal 모델: GPT-4o계열, 텍스트, 이미지, 음성도 처리

Decoder-only모델: GPT 계열

GPT-2, GPT-3, , GPT-4 계열 (기본 구조), LLaMA 계열

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")

inputs = tokenizer("Hello, I am", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)

print(tokenizer.decode(outputs[0]))

Encoder-only모델 (BERT 계열)

계열전체 문장을 한 번에 이해 (양방향), BERT, RoBERTa, DistilBERT

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

inputs = tokenizer("I love this movie", return_tensors="pt")

outputs = model(**inputs)
print(outputs.logits)

Encoder-decoder 모델 (T5, BART)

입력 이해 (Encoder) → 출력 생성 (Decoder), 번역 / 요약 / 변환 작업에 최적의 Seq2Seq의 현대 버전
T5, BART, MarianMT (번역)

from transformers import T5Tokenizer, T5ForConditionalGeneration

model = T5ForConditionalGeneration.from_pretrained("t5-small")
tokenizer = T5Tokenizer.from_pretrained("t5-small")

text = "summarize: The AI is transforming the world rapidly."

inputs = tokenizer(text, return_tensors="pt")

outputs = model.generate(**inputs, max_length=20)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

instruction-tuned 모델

“지시를 잘 따르도록” 추가 학습된 모델, 구조 자체는 보통 GPT / T5 기반이나 학습방식이 다르다.

InstructGPT, ChatGPT, Claude (류), Gemini (류)

Input:

"다음 문장을 요약해줘: ~~~"



Output:

"핵심은 ..."

Multimodal 모델

텍스트 + 이미지 + 음성 + 영상 처리GPT-4o, Gemini 1.5, Claude 3 (일부)

from transformers import BlipProcessor, BlipForConditionalGeneration
from PIL import Image

processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")

image = Image.open("dog.jpg")

inputs = processor(images=image, return_tensors="pt")

outputs = model.generate(**inputs)

print(processor.decode(outputs[0], skip_special_tokens=True))

종류구조역할

Decoder-only	GPT	생성
Encoder-only	BERT	이해
Encoder-Decoder	T5/BART	변환
Instruction-tuned	GPT 기반	대화/지시 수행
Multimodal	GPT-4o 등	여러 입력 처리

저작자표시 (새창열림)

'이론' 카테고리의 다른 글

FastAPI란? Python으로 REST API와 웹 백엔드 서버 개발하기 (0)	2026.07.03
GPT (Generative Pre-trained Transformer) , Decoder-Only Transformer: Transformer의 Decoder만 사용하는 언어모델, GPT-1, GPT-2, GPT-3, GPT-4 (0)	2026.07.02
RAG(Retrieval-Augmented Generation)와 LLM의 Hallucination(환각): 외부 문서를 검색한 후 검색 결과를 바탕으로 답변을 생성하는 기법 (0)	2026.07.02
프롬프트 엔지니어링 Prompt Engineering: AI에게 원하는 결과를 얻기 위해 입력(프롬프트)을 효과적으로 작성하는 기법 - Zero-shot / One-shot / Few-shot Prompting (0)	2026.07.02
최신 AI 모델을 쉽게 사용하는 Hugging Face: Model Hub, Transformers 라이브러리, Datasets (0)	2026.07.02

" standout

" standout

LLM의 정의와 LLM 종류

'이론' 카테고리의 다른 글

티스토리툴바

" standout

LLM의 정의와 LLM 종류

'이론' 카테고리의 다른 글

'이론' Related Articles

티스토리툴바