Table of Contents

728x90

GPT-3와 같은 LLM이전 모델들(BERT, GPT-2, T5)과 비교하여 구조적으로 달라진 점이 있냐는 질문에 대해, 핵심적으로는 기본 구조(트랜스포머 기반 구조)는 크게 변하지 않았지만, 활용 방식모델의 학습 방법에서 중요한 차이점이 있습니다. 특히 파라미터 수의 증가는 큰 차이를 만들었지만, 그 외에도 몇 가지 구조적 변화와 전략적 차이가 있습니다.

구조적 차이가 적은 이유

  • 트랜스포머(Transformer) 구조 자체는 GPT, BERT, T5, GPT-3 모두에서 사용되며, 이는 LLM에서도 마찬가지입니다. 트랜스포머 구조는 셀프 어텐션(self-attention) 메커니즘을 통해 입력 문장 내의 각 단어가 문맥을 고려해 서로의 관계를 학습할 수 있게 합니다.
    • BERT: 양방향 트랜스포머를 사용하여 문장의 양쪽에서 문맥을 고려합니다.
    • GPT 계열: 일방향 트랜스포머로, 문장을 왼쪽에서 오른쪽으로 예측합니다.
    • T5: 인코더-디코더 트랜스포머 구조를 사용합니다.
  • 즉, GPT-3의 기본 구조는 이전 모델과 동일하게 트랜스포머 기반이며, 특별한 구조적 차이는 없습니다. 하지만 활용 방식, 학습 전략, 그리고 몇 가지 차별화된 기술들이 GPT-3와 같은 LLM을 더욱 강력하게 만들었습니다.

GPT-3 이후 LLM에서의 주요 차이점

GPT-3와 같은 LLM이 구조적으로 크게 변화하지 않았지만, 다양한 측면에서 발전하여 더 강력한 모델이 되었습니다.

1. 대규모 파라미터 수로 인한 모델 확장

  • GPT-3와 같은 LLM에서는 파라미터 수가 매우 크게 증가했습니다. 그 자체가 트랜스포머 구조를 변경한 것은 아니지만, 대규모 파라미터로 인해 모델의 표현력과 학습 능력이 크게 향상되었습니다.
  • 이로 인해 더 많은 데이터와 다양한 패턴을 학습할 수 있었고, 더 복잡한 문맥과 긴 문장을 처리할 수 있게 되었습니다.

2. Zero-shot/Few-shot 학습 능력

  • GPT-3는 이전 모델과 달리 Zero-shotFew-shot 학습을 가능하게 하는 프롬프트 기반 학습 전략을 도입했습니다. 이것은 구조적으로 크게 변한 것은 아니지만, 모델이 다양한 작업을 파인튜닝 없이 수행할 수 있게 된 중요한 변화입니다.
    • 기존 모델들(BERT, GPT-2)은 특정 작업에 파인튜닝을 해야만 성능을 발휘할 수 있었으나, GPT-3는 몇 가지 예시(프롬프트)만으로도 새로운 작업을 처리할 수 있습니다.
    • 이 방식은 모델 구조보다는 학습 방식의 변화로 인한 성능 차이를 의미합니다.

3. 대규모 데이터 학습

  • GPT-3와 같은 LLM들은 훨씬 방대한 데이터를 학습합니다. 이로 인해 모델이 다양한 언어 패턴, 도메인, 개념을 더 잘 이해할 수 있게 되었고, 특정한 작업에 한정되지 않고 다양한 작업에 대해 범용적인 성능을 발휘할 수 있습니다.
  • 이 역시 트랜스포머 구조 자체의 변화는 아니지만, 데이터의 양과 범위가 모델의 성능을 확장시키는 중요한 요소였습니다.

4. 학습 전략과 목표의 변화

  • GPT-3 같은 LLM은 기본적인 언어 모델링(next-word prediction)을 목표로 합니다. 이 방식은 트랜스포머 모델의 구조적 특징인 오토레그레시브(auto-regressive) 방식을 활용합니다.
    • BERT양방향 언어 모델링을 통해 마스크된 단어를 예측하는 방식이고, GPT 계열일방향 언어 모델링을 사용합니다.
    • 구조적으로는 큰 변화가 없지만, GPT-3는 이전 모델들보다 더 큰 데이터, 파라미터, 그리고 학습 목표를 통해 더 범용적이고 유연한 성능을 발휘할 수 있게 되었습니다.

5. 프롬프트 기반 접근

  • 프롬프트 기반 접근(Prompt-based Approach)은 GPT-3의 핵심적인 변화 중 하나입니다. 이전의 BERT, GPT-2 모델은 특정 작업에 대해 파인튜닝을 거쳐야 했지만, GPT-3는 프롬프트만으로 다양한 작업을 처리할 수 있습니다.
    • 이 방식은 LLM이 하나의 모델로 다양한 작업을 처리할 수 있게 하는 중요한 전환점입니다.
    • 프롬프트 설계에 따라 모델이 수행할 수 있는 작업이 유연해지며, 사용자는 파인튜닝 없이도 다양한 작업을 처리할 수 있습니다.
    • 구조적으로는 동일한 트랜스포머 구조를 사용하지만, 프롬프트 방식의 채택이 모델을 훨씬 더 유연하고 범용적으로 만든 핵심 요소입니다.

6. 스케일링 법칙의 도입

  • GPT-3스케일링 법칙(scaling laws)을 따르며, 모델 크기와 학습 데이터가 증가할수록 성능이 개선된다는 점을 강조했습니다. 이 개념은 LLM을 훈련할 때 매우 중요한 요소로 작용했습니다.
  • 이러한 법칙은 구조적인 변경이 필요하지 않음에도, 모델이 더 큰 데이터셋과 더 많은 파라미터로 학습되면서 자연스럽게 성능이 향상된다는 점을 보여주었습니다.

요약:

GPT-3와 같은 LLM은 기본적인 트랜스포머(Transformer) 구조를 유지하고 있지만, 파라미터 수의 대폭 증가, 프롬프트 기반 학습 전략, Zero-shot/Few-shot 학습, 대규모 데이터 학습 등을 통해 더 강력하고 유연한 모델이 되었습니다.

즉, 구조적으로는 크게 달라진 점이 없지만, 학습 방식활용 전략에서 중요한 변화가 생겼고, 이를 통해 다양한 NLP 작업을 통합하여 처리할 수 있는 능력을 갖추게 되었습니다.