FLAN-T5와 T5는 둘 다 Google에서 개발한 언어 모델입니다. 그러나 이 두 모델에는 몇 가지 중요한 차이점이 있습니다.1. T5 (Text-To-Text Transfer Transformer)기본 개요: T5는 "Text-To-Text Transfer Transformer"의 약자로, 모든 자연어 처리(NLP) 작업을 텍스트 입력과 텍스트 출력의 문제로 일반화하는 모델입니다. 예를 들어, 번역, 요약, 질문 응답 등의 작업을 모두 텍스트에서 텍스트로 변환하는 방식으로 처리합니다.훈련: T5는 대규모 데이터셋인 "Colossal Clean Crawled Corpus (C4)"를 사용해 사전 훈련(pre-training)되었습니다. 이 과정에서 다양한 NLP 작업을 학습하여 범용적인 성능을 보입니..
torch와 cuda 버전이 안맞아서 나는 에러일단 torch사이트로 이동 https://pytorch.org/get-started/locally/ Start LocallyStart Locallypytorch.org 아래서 내 환경에 맞게 클릭하면 Run this Command가 뜬다. 1번 시도책: 성공? 실패!: cudatoolkit=12.2 는 없어서 설치가 안된 상태에서 pip install torch하면 gpu읽어올 수 있으나 conda환경에 맞게 셋팅하기 위해 condatoolkit을 이용하기 위해 다시 설치시도. conda deactivateconda remove --name myenv --allconda create -n myenv python=3.8conda activate myenvc..
원격 서버에서 trainer.train()을 실행 중인 상태에서 컴퓨터를 꺼도 작업이 중단되지 않게 하기 위해서는, 다음과 같은 방법을 사용할 수 있습니다:1. tmux 또는 screen 사용tmux: tmux는 터미널 세션을 분할하고 백그라운드에서 작업을 실행할 수 있게 해주는 터미널 멀티플렉서입니다. 작업을 실행 중인 세션을 유지한 채로 컴퓨터를 종료하거나 네트워크 연결이 끊겨도, 다시 연결하여 작업을 확인할 수 있습니다.screen: screen도 tmux와 유사한 기능을 제공합니다. 백그라운드에서 터미널 세션을 유지할 수 있습니다.1-1. tmux 설치Ubuntu/Debian 기반 시스템:bash코드 복사sudo apt-get update sudo apt-get install tmuxCentOS/..
Epoch을 3으로 설정하고 1 epoch만 훈련한 것과, Epoch을 1로 설정하고 3번 훈련한 것은 이론적으로는 동일한 데이터셋을 3번 반복 학습한 것이므로 같은 학습 과정처럼 보일 수 있습니다. 그러나 실제로는 몇 가지 차이가 있을 수 있습니다:1. 학습률 스케줄링학습률 변화: 많은 학습 스케줄링 기법에서 학습률은 epoch마다 감소하거나 변경됩니다. Epoch을 3으로 설정하고 1 epoch만 학습한 후 중단하면 학습률은 계속 초기 값을 유지하지만, Epoch을 1로 설정하고 3번 반복 학습하면 학습률이 각 epoch마다 조정될 수 있습니다. 이로 인해 모델이 학습하는 방식에 차이가 생길 수 있습니다.2. 체크포인트 저장체크포인트 저장 및 모델 복원: Epoch을 1로 설정하고 3번 훈련하는 동안..
generate_max_length와 decoder_max_len은 둘 다 텍스트 생성 작업에서 중요한 매개변수이지만, 각각의 매개변수가 사용되는 상황과 목적이 다소 다릅니다. 이 두 매개변수의 주요 차이점을 이해하기 위해 각각의 용도와 적용 범위를 자세히 살펴보겠습니다.decoder_max_len정의: decoder_max_len은 모델의 디코더 구성 요소가 처리할 수 있는 최대 토큰 수를 지정합니다. 이 매개변수는 모델의 아키텍처나 설정 단계에서 정의되며, 디코더가 생성할 수 있는 출력의 최대 길이를 제한합니다.목적: 디코더가 생성할 수 있는 최대 시퀀스 길이를 설정함으로써, 모델의 메모리 사용량과 계산 복잡성을 관리합니다. 이는 특히 학습 및 추론 시 성능 최적화에 중요합니다.적용: 이 설정은 주로..
encoder_max_len과 decoder_max_len 설정은 시퀀스 처리 작업에서 사용되는 인코더와 디코더의 최대 입력 및 출력 길이를 지정합니다. 이러한 설정은 자연어 처리(NLP) 모델에서 특히 중요하며, 모델의 인코더와 디코더 구성 요소가 처리할 수 있는 텍스트의 길이를 제한합니다.encoder_max_len: 1000정의: 인코더에서 처리할 수 있는 최대 토큰 수입니다. 이 값은 인코더가 입력 데이터를 받아들일 때 고려하는 최대 길이를 의미하며, 1000으로 설정된 경우 인코더는 최대 1000개의 토큰을 입력으로 받아들일 수 있습니다.용도: 긴 문서 또는 문장을 처리할 때 유용하며, 모델이 더 많은 컨텍스트 정보를 유지할 수 있도록 합니다. 이는 문맥이 중요한 작업(예: 문서 요약, 문맥을 ..
per_device_eval_batch_size와 per_device_train_batch_size 설정은 각각 디바이스별로 학습과 평가 단계에서 처리할 배치 크기를 지정합니다. 이러한 설정은 모델의 학습 및 평가 효율성, 메모리 사용량, 그리고 속도에 중요한 영향을 미칩니다.per_device_train_batch_size정의: 디바이스별 학습 배치 크기는 각 학습 단계에서 디바이스(일반적으로 GPU)가 동시에 처리할 샘플의 수를 의미합니다.값: 예시에서 50으로 설정되어 있음을 의미하며, 이는 각 학습 스텝에서 각 GPU가 50개의 샘플을 처리한다는 것을 나타냅니다.용도: 큰 배치 크기는 일반적으로 더 빠른 학습 진행을 가능하게 하지만, 메모리 사용량도 증가시킵니다. 또한, 너무 큰 배치 크기는 모델..
lr_scheduler_type 설정에서 cosine을 선택하는 것은 학습률 스케줄러 유형으로 코사인 감쇠 스케줄(Cosine Annealing Schedule)을 사용하겠다는 의미입니다. 이 스케줄러는 학습률을 주기적으로 조절함으로써 특정 지점에서 급격히 감소시키는 방식을 통해, 학습 과정 중에 최적의 값에 수렴할 수 있도록 돕습니다.코사인 감쇠 스케줄의 특징주기적 감소: 학습률은 시작 시 높은 값을 가지며, 학습이 진행됨에 따라 코사인 함수의 형태로 감소합니다. 이는 주기적으로 학습률이 최소값과 최대값 사이를 오가며 조절됩니다.로컬 미니마 회피: 높은 학습률로 재시작하는 과정은 모델이 로컬 미니멈(local minimum)에 갇히는 것을 방지하고, 보다 넓은 범위에서 전역 최소값(global mini..
- Total
- Today
- Yesterday
- clustering
- speaking
- nlp
- Transformer
- cnn
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- PEFT
- Array
- LIST
- 손실함수
- git
- 리스트
- Lora
- 파이썬
- 오블완
- Python
- Hugging Face
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- RAG
- Numpy
- recursion #재귀 #자료구조 # 알고리즘
- Github
- 해시
- 티스토리챌린지
- LLM
- classification
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- t5
- 코딩테스트
- English
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |