GPT (Generative Pre-trained Transformer) , Decoder-Only Transformer: Transformer의 Decoder만 사용하는 언어모델, GPT-1, GPT-2, GPT-3, GPT-4

GPT (Generative Pre-trained Transformer)

GPT는 언어모델에 속하는 인공지능 모델이다

OpenAI 는 GPT 를 지속적으로 발전시켜 더욱 뛰어난 모델을 출시하고 있다. 이미지를 이해하는 멀티모달기능, 인식능력향상, 추론능력향상, 높은 성능의 유로 서비스 등.. 챗봇, 문서작성, 코드생성, 번역, 요약에 사용된다 .

https://standout.tistory.com/1848

자연어 처리에서 사용하는 대표적인 딥러닝 모델: DNN, CNN , RNN , LSTM , GRU , Seq2Seq , Attention, Transforme

자연어 처리에서 사용하는 대표적인 딥러닝 모델 DNN (Deep Neural Network)가장 기본적인 딥러닝 모델 여러개의 은닉층을 가진 인공신경망, 여러층을 거쳐 특징을 추출한 후 결과를 예측한다. NLP에서

standout.tistory.com

Transformer의 Decoder만 사용하는 사전학습 생성형 언어 모델

대규모 텍스트 데이터를 이용하여 사전 훈련(Pre-training) 된 모델으로 특히 문장생성에 강점을 가진다.

이전 단어들을 바탕으로 다음 단어를 예측하며 자연스러운 문장을 생성한다.

단방향(Autoregressive) 예측으로 문장 생성에 특화되어 BERT와 반대된다. 대규모 데이터 사전학습 후 다양한 생성 작업 수행한다.

Transformer의 원래구조는 encoder, decoder 두부분으로 구성된다.

입력 문장
     │
     ▼
┌────────────┐
│  Encoder   │
└────────────┘
     │
     ▼
┌────────────┐
│  Decoder   │
└────────────┘
     │
     ▼
출력 문장

gpt는 여기서 encoder를 제거하고 decoder만 사용하며 Decoder-Only Transformer라고도 부른다 .

gpt의 목적은 다음단어를 게속 생성하는 것으로 Decoder가 잘하는 역할이다.

Encoder도 좋고 Decoder도 좋으면 둘 다 쓰는 게 더 좋은 거 아닌가란 생각이 들겠지만 Decoder는 이해를 못하지않고 Decoder도 Self-Attention을 사용해 '그'가 '철수'라는 것등을 이해하는 등 문맥을 이해하기 때문에 번역에 필요한 Encoder가 생성과 예측만 계속 반복하는 gpt에게 굳이 필요하지않다. 또 답을 보면 답안지를 미리 보는것과 같아 일부러 Masked Self-Attention로 미래단어를 가려 MASK 진짜 예측 능력을 학습하고자 한다. Encoder를 쓰면 미래 단어까지 볼 수 있어 문장 이해에는 유리하지만 생성학습에는 부적합하기 때문이다 .

즉 Encoder가 성능이 나빠서가 아니라, 생성이라는 목적에 가장 적합한 구조이기 때문

입력 문장
     │
     ▼
┌────────────┐
│  Decoder   │
└────────────┘
     │
     ▼
다음 단어 생성

GPT는 처음부터 특정 작업(번역, 요약 등)을 배우는 것이 아니라, 인터넷 문서, 책, 뉴스, 위키 등 매우 방대한 양의 텍스트를 먼저 학습하며 정답을 암기하는 것이 아니라, 다음에 올 단어의 확률을 예측하도록 학습한다.

Transformer는 2017년 구글이 발표한 "Attention Is All You Need" 논문에서 처음 소개Transformer라는 딥러닝 구조를 사용해 많이 사용되던 RNN, LSTM모델이 아닌 Traansformer로 더 빠르고 긴문장을 잘 이해하고 병렬 처리가 가능한 현재 대부분의 LLM의 기반으로 만들었다.

Self-Attention이라는 문장에서 어떤 단어가 다른 단어와 얼마나 관련 있는지를 계산하는 기술로 문장속 단어들의 관계를 파악하여 문맥을 이해한다.

from transformers import GPT2Tokenizer, GPT2LMHeadModel



tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

model = GPT2LMHeadModel.from_pretrained("gpt2")



prompt = "Artificial Intelligence is"



inputs = tokenizer(prompt, return_tensors="pt")

outputs = model.generate(

**inputs,

max_length=30

)



result = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(result)

기본 GPT는 모든 분야를 어느정도 알고있으나 특정 작업을 (병원) 잘하도록 추가 학습하려면 Fine-Tuning을 진행한다. 병원 데이터만 더 학습.

https://standout.tistory.com/1873

파인튜닝(Fine-Tuning): 전이학습시 사전학습된 모델에 새로운 데이터를 추가해 목적에 맞게 다시

파인튜닝(Fine-Tuning)전이학습시 사전학습된 모델에 새로운 데이터를 추가해 목적에 맞게 다시 학습시키는 과정. 일반적인 언어 지식을 의료 법률 금융 등 특정 산업의 전문지식으로 확장할 수 있

standout.tistory.com

GPT는 다양한 자연어 처리 NLP분야에서 활용되며 Transformer기반 생성모델을 제안한 최초모델 GPT-1부터 GPT-2, GPT-3, GPT-4로 발전해왔다.

GPT-1
최초 GPT 모델
Transformer 기반 생성 모델 제안

GPT-2
훨씬 큰 데이터 학습
자연스러운 문장 생성 가능

GPT-3
약 1,750억 개의 매개변수(Parameter)
번역, 요약, 질의응답 등 다양한 작업에서 뛰어난 성능

GPT-4
GPT-3보다 향상된 추론 능력
더 정확한 답변
긴 문맥 이해
이미지 입력 등 멀티모달 기능 지원(일부 버전)

저작자표시 (새창열림)

'이론' 카테고리의 다른 글

FastAPI란? Python으로 REST API와 웹 백엔드 서버 개발하기 (0)	2026.07.03
LLM의 정의와 LLM 종류 (0)	2026.07.03
RAG(Retrieval-Augmented Generation)와 LLM의 Hallucination(환각): 외부 문서를 검색한 후 검색 결과를 바탕으로 답변을 생성하는 기법 (0)	2026.07.02
프롬프트 엔지니어링 Prompt Engineering: AI에게 원하는 결과를 얻기 위해 입력(프롬프트)을 효과적으로 작성하는 기법 - Zero-shot / One-shot / Few-shot Prompting (0)	2026.07.02
최신 AI 모델을 쉽게 사용하는 Hugging Face: Model Hub, Transformers 라이브러리, Datasets (0)	2026.07.02

" standout

" standout

GPT (Generative Pre-trained Transformer) , Decoder-Only Transformer: Transformer의 Decoder만 사용하는 언어모델, GPT-1, GPT-2, GPT-3, GPT-4

'이론' 카테고리의 다른 글

티스토리툴바

" standout

GPT (Generative Pre-trained Transformer) , Decoder-Only Transformer: Transformer의 Decoder만 사용하는 언어모델, GPT-1, GPT-2, GPT-3, GPT-4

'이론' 카테고리의 다른 글

'이론' Related Articles

티스토리툴바