Table of Contents

DeepLearning/NLP

Google FLAN-T5와 T5 차이

꼬꼬마코더 2024. 9. 3. 11:50
728x90

FLAN-T5와 T5는 둘 다 Google에서 개발한 언어 모델입니다. 그러나 이 두 모델에는 몇 가지 중요한 차이점이 있습니다.

1. T5 (Text-To-Text Transfer Transformer)

  • 기본 개요: T5는 "Text-To-Text Transfer Transformer"의 약자로, 모든 자연어 처리(NLP) 작업을 텍스트 입력과 텍스트 출력의 문제로 일반화하는 모델입니다. 예를 들어, 번역, 요약, 질문 응답 등의 작업을 모두 텍스트에서 텍스트로 변환하는 방식으로 처리합니다.
  • 훈련: T5는 대규모 데이터셋인 "Colossal Clean Crawled Corpus (C4)"를 사용해 사전 훈련(pre-training)되었습니다. 이 과정에서 다양한 NLP 작업을 학습하여 범용적인 성능을 보입니다.
  • 용도: T5는 일반적인 NLP 작업에 사용되며, 사용자가 특정 작업에 맞게 미세 조정(fine-tuning)할 수 있습니다.

2. FLAN-T5 (Fine-tuned Language Models As Zero-Shot Learners)

  • 기본 개요: FLAN-T5는 T5를 기반으로 하지만, "Instruction Tuning"을 통해 사전 학습된 모델입니다. 이 모델은 지시어(instruction) 기반 학습을 통해, 다양한 작업에서 보다 향상된 성능을 보입니다.
  • Instruction Tuning: FLAN-T5는 다양한 지시어(예: "번역하세요", "요약하세요", "질문에 답하세요" 등)에 대해 학습되었습니다. 이는 모델이 명시된 지시 사항에 따라 다양한 작업을 수행할 수 있도록 하는데 중점을 둡니다.
  • 성능: FLAN-T5는 여러 NLP 작업에서 제로샷(zero-shot) 또는 몇샷(few-shot) 학습 성능을 크게 개선했습니다. 특히, 명령어 기반의 학습을 통해 T5보다 더 다양한 상황에서 유연하게 작동합니다.
  • 용도: FLAN-T5는 사용자가 작업을 설명하는 지시어를 제공하면, 그 지시어에 맞는 작업을 수행할 수 있도록 설계되었습니다. 예를 들어, 텍스트 생성, 번역, 요약 등 다양한 작업을 지시어로 요청할 수 있습니다.

핵심 차이점 요약:

  • 훈련 방식: FLAN-T5는 T5에 비해 추가적인 "Instruction Tuning"을 거쳤습니다. 이를 통해 명령어 기반의 작업에서 더 뛰어난 성능을 발휘합니다.
  • 사용 방식: FLAN-T5는 명령어를 포함한 입력 텍스트를 제공하면 그에 따라 작업을 수행합니다. T5는 일반적인 텍스트 변환 작업을 수행하지만, 명령어를 명시적으로 학습하지는 않았습니다.
  • 성능 및 유연성: FLAN-T5는 제로샷 및 몇샷 학습 시나리오에서 T5보다 더 나은 성능을 보입니다. 특히 다양한 지시어에 대해 적응할 수 있습니다.

이 차이점들로 인해 FLAN-T5는 보다 유연하고 다양한 작업에서 뛰어난 성능을 발휘할 수 있도록 설계되었습니다.