[LLM] LLM 모델이 LM 모델과 달라진 점

DeepLearning/NLP

[LLM] LLM 모델이 LM 모델과 달라진 점

꼬꼬마코더 2024. 9. 19. 12:33

728x90

GPT-3와 같은 LLM이 이전 모델들(BERT, GPT-2, T5)과 비교하여 구조적으로 달라진 점이 있냐는 질문에 대해, 핵심적으로는 기본 구조(트랜스포머 기반 구조)는 크게 변하지 않았지만, 활용 방식과 모델의 학습 방법에서 중요한 차이점이 있습니다. 특히 파라미터 수의 증가는 큰 차이를 만들었지만, 그 외에도 몇 가지 구조적 변화와 전략적 차이가 있습니다.

구조적 차이가 적은 이유

트랜스포머(Transformer) 구조 자체는 GPT, BERT, T5, GPT-3 모두에서 사용되며, 이는 LLM에서도 마찬가지입니다. 트랜스포머 구조는 셀프 어텐션(self-attention) 메커니즘을 통해 입력 문장 내의 각 단어가 문맥을 고려해 서로의 관계를 학습할 수 있게 합니다.
- BERT: 양방향 트랜스포머를 사용하여 문장의 양쪽에서 문맥을 고려합니다.
- GPT 계열: 일방향 트랜스포머로, 문장을 왼쪽에서 오른쪽으로 예측합니다.
- T5: 인코더-디코더 트랜스포머 구조를 사용합니다.
즉, GPT-3의 기본 구조는 이전 모델과 동일하게 트랜스포머 기반이며, 특별한 구조적 차이는 없습니다. 하지만 활용 방식, 학습 전략, 그리고 몇 가지 차별화된 기술들이 GPT-3와 같은 LLM을 더욱 강력하게 만들었습니다.

GPT-3 이후 LLM에서의 주요 차이점

GPT-3와 같은 LLM이 구조적으로 크게 변화하지 않았지만, 다양한 측면에서 발전하여 더 강력한 모델이 되었습니다.

1. 대규모 파라미터 수로 인한 모델 확장

GPT-3와 같은 LLM에서는 파라미터 수가 매우 크게 증가했습니다. 그 자체가 트랜스포머 구조를 변경한 것은 아니지만, 대규모 파라미터로 인해 모델의 표현력과 학습 능력이 크게 향상되었습니다.
이로 인해 더 많은 데이터와 다양한 패턴을 학습할 수 있었고, 더 복잡한 문맥과 긴 문장을 처리할 수 있게 되었습니다.

2. Zero-shot/Few-shot 학습 능력

GPT-3는 이전 모델과 달리 Zero-shot 및 Few-shot 학습을 가능하게 하는 프롬프트 기반 학습 전략을 도입했습니다. 이것은 구조적으로 크게 변한 것은 아니지만, 모델이 다양한 작업을 파인튜닝 없이 수행할 수 있게 된 중요한 변화입니다.
- 기존 모델들(BERT, GPT-2)은 특정 작업에 파인튜닝을 해야만 성능을 발휘할 수 있었으나, GPT-3는 몇 가지 예시(프롬프트)만으로도 새로운 작업을 처리할 수 있습니다.
- 이 방식은 모델 구조보다는 학습 방식의 변화로 인한 성능 차이를 의미합니다.

3. 대규모 데이터 학습

GPT-3와 같은 LLM들은 훨씬 방대한 데이터를 학습합니다. 이로 인해 모델이 다양한 언어 패턴, 도메인, 개념을 더 잘 이해할 수 있게 되었고, 특정한 작업에 한정되지 않고 다양한 작업에 대해 범용적인 성능을 발휘할 수 있습니다.
이 역시 트랜스포머 구조 자체의 변화는 아니지만, 데이터의 양과 범위가 모델의 성능을 확장시키는 중요한 요소였습니다.

4. 학습 전략과 목표의 변화

GPT-3 같은 LLM은 기본적인 언어 모델링(next-word prediction)을 목표로 합니다. 이 방식은 트랜스포머 모델의 구조적 특징인 오토레그레시브(auto-regressive) 방식을 활용합니다.
- BERT는 양방향 언어 모델링을 통해 마스크된 단어를 예측하는 방식이고, GPT 계열은 일방향 언어 모델링을 사용합니다.
- 구조적으로는 큰 변화가 없지만, GPT-3는 이전 모델들보다 더 큰 데이터, 파라미터, 그리고 학습 목표를 통해 더 범용적이고 유연한 성능을 발휘할 수 있게 되었습니다.

5. 프롬프트 기반 접근

프롬프트 기반 접근(Prompt-based Approach)은 GPT-3의 핵심적인 변화 중 하나입니다. 이전의 BERT, GPT-2 모델은 특정 작업에 대해 파인튜닝을 거쳐야 했지만, GPT-3는 프롬프트만으로 다양한 작업을 처리할 수 있습니다.
- 이 방식은 LLM이 하나의 모델로 다양한 작업을 처리할 수 있게 하는 중요한 전환점입니다.
- 프롬프트 설계에 따라 모델이 수행할 수 있는 작업이 유연해지며, 사용자는 파인튜닝 없이도 다양한 작업을 처리할 수 있습니다.
- 구조적으로는 동일한 트랜스포머 구조를 사용하지만, 프롬프트 방식의 채택이 모델을 훨씬 더 유연하고 범용적으로 만든 핵심 요소입니다.

6. 스케일링 법칙의 도입

GPT-3는 스케일링 법칙(scaling laws)을 따르며, 모델 크기와 학습 데이터가 증가할수록 성능이 개선된다는 점을 강조했습니다. 이 개념은 LLM을 훈련할 때 매우 중요한 요소로 작용했습니다.
이러한 법칙은 구조적인 변경이 필요하지 않음에도, 모델이 더 큰 데이터셋과 더 많은 파라미터로 학습되면서 자연스럽게 성능이 향상된다는 점을 보여주었습니다.

요약:

GPT-3와 같은 LLM은 기본적인 트랜스포머(Transformer) 구조를 유지하고 있지만, 파라미터 수의 대폭 증가, 프롬프트 기반 학습 전략, Zero-shot/Few-shot 학습, 대규모 데이터 학습 등을 통해 더 강력하고 유연한 모델이 되었습니다.

즉, 구조적으로는 크게 달라진 점이 없지만, 학습 방식과 활용 전략에서 중요한 변화가 생겼고, 이를 통해 다양한 NLP 작업을 통합하여 처리할 수 있는 능력을 갖추게 되었습니다.

'DeepLearning > NLP' 카테고리의 다른 글

prompt tuning (0)	2024.09.19
[논문리뷰] Scaling Laws for Neural Language Models (0)	2024.09.19
[LLM] LM에서 LLM으로 발전하는 과정에서의 주요 변화 (0)	2024.09.19
[논문 리뷰] Pre-train, Prompt, and Predict: A Systematic Survey ofPrompting Methods in Natural Language Processing (0)	2024.09.19
[LLM] 모델이 학습하는 Fine-tuning의 다양한 방법 (0)	2024.09.19

250x250

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

문과생CS정복기

Table of Contents