lr_scheduler_type 설정에서 cosine을 선택하는 것은 학습률 스케줄러 유형으로 코사인 감쇠 스케줄(Cosine Annealing Schedule)을 사용하겠다는 의미입니다. 이 스케줄러는 학습률을 주기적으로 조절함으로써 특정 지점에서 급격히 감소시키는 방식을 통해, 학습 과정 중에 최적의 값에 수렴할 수 있도록 돕습니다.코사인 감쇠 스케줄의 특징주기적 감소: 학습률은 시작 시 높은 값을 가지며, 학습이 진행됨에 따라 코사인 함수의 형태로 감소합니다. 이는 주기적으로 학습률이 최소값과 최대값 사이를 오가며 조절됩니다.로컬 미니마 회피: 높은 학습률로 재시작하는 과정은 모델이 로컬 미니멈(local minimum)에 갇히는 것을 방지하고, 보다 넓은 범위에서 전역 최소값(global mini..
num_beams 설정은 빔 서치(beam search) 알고리즘에서 사용할 빔의 수를 지정합니다. 빔 서치는 자연어 처리(NLP)에서 자주 사용되는 디코딩 방법 중 하나로, 특히 기계 번역, 텍스트 요약, 챗봇 응답 생성 등과 같은 시퀀스 생성 작업에서 널리 쓰입니다.빔 서치(beam search)란?빔 서치는 그리디 서치(greedy search)의 일반적인 단점인 국소 최적해(local optimum)에 갇힐 위험을 줄이기 위해 설계된 알고리즘입니다. 이 방법은 한 번에 하나의 최상의 선택을 추구하는 그리디 서치와 달리, 빔 서치는 각 단계에서 상위 k개의 가장 가능성 있는 후보들을 유지하면서 탐색을 수행합니다. 여기서 k는 빔의 크기로, num_beams로 설정됩니다.num_beams의 역할탐색 ..
no_repeat_ngram_size 설정은 생성된 텍스트에서 반복되는 n-gram의 크기를 제한하는 기능입니다. 이 설정은 특히 자동 텍스트 생성 모델에서 중요한 역할을 하며, 모델이 반복적인 내용을 줄이도록 돕습니다. 여기서 n-gram은 연속된 n개의 단어를 의미합니다.no_repeat_ngram_size의 역할반복 방지: 이 설정을 사용하면 모델이 특정 크기의 n-gram을 문장 내에서 한 번만 사용하도록 제한합니다. 예를 들어 no_repeat_ngram_size를 2로 설정하면, 어떤 두 단어의 조합도 텍스트 내에서 한 번만 나타나야 합니다. 이는 생성된 내용에서 단어의 반복적 사용을 줄이는 데 도움을 줍니다.내용의 다양성 증가: 반복을 제한함으로써 텍스트의 다양성과 창의성을 향상시킬 수 있습..
fp16 (16-bit floating point)와 int8 (8-bit integer)는 NLP 모델을 포함한 머신러닝 모델에서 주로 모델의 연산 속도를 개선하고 메모리 사용량을 줄이기 위해 사용되는 데이터 형식입니다. 이러한 기법을 모델 정밀도 감소(model quantization) 또는 **하위 정밀도 연산(lower-precision computation)**이라고 합니다. 각각의 데이터 타입이 모델 운영에 미치는 영향을 살펴보겠습니다:fp16 (16-bit Floating Point)메모리 절감: fp16은 표준 fp32 (32-bit floating point) 데이터 타입에 비해 메모리 사용량을 대략 절반으로 줄여줍니다. 이는 모델이 사용하는 메모리 양을 줄여주기 때문에 더 큰 모델을 동..
ref: https://ngp9440.tistory.com/144 [논문 리뷰] LoRA: Low-Rank Adaptation of Large Language Models1. IntroductionNLP를 다루는 많은 Application들은 매우 큰 PTLM을 여러 downstream task를 다루기 위해 adapting 방식을 사용했다. adaptation은 일반적으로 pre-trained model의 전체 파라미터를 update하는 fine-tuning을ngp9440.tistory.com 위에서 설명한 내용은 NLP 모델, 특히 매우 큰 사전 훈련된 언어 모델(GPT-3 등)을 다양한 다운스트림 작업(특정 작업에 모델을 적용하는 것)에 효율적으로 적용하기 위한 방법론에 대해 다루고 있습니다. 이를..
한국어 텍스트에 대한 요약이나 번역과 같은 자연어 처리 작업에서 ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 메트릭을 사용하는 것은 일부 제한 사항이 있습니다. 이는 주로 ROUGE가 원래 영어 텍스트의 평가를 위해 설계되었기 때문입니다. 한국어와 같은 다른 언어들에서 ROUGE를 사용할 때 고려해야 할 몇 가지 요소는 다음과 같습니다:1. 언어의 구조적 특성어순의 유연성: 한국어는 주어-목적어-동사(SOV)의 어순을 가지지만, 상당히 유연하여 문맥에 따라 어순이 자유롭게 변할 수 있습니다. 이로 인해 단순히 단어의 일치를 기반으로 한 ROUGE 점수는 문장의 실제 의미를 정확히 반영하지 못할 수 있습니다.교착어 특성: 한국어는 교착어로서 접사가..
https://medium.com/@tom_21755/understanding-causal-llms-masked-llm-s-and-seq2seq-a-guide-to-language-model-training-d4457bbd07fa Understanding Causal LLM’s, Masked LLM’s, and Seq2Seq: A Guide to Language Model Training…In the world of natural language processing (NLP), choosing the right training approach is crucial for the success of your language model…medium.com Causal Language Modeling (CLM)..
빔 서치(Beam Search)란?빔 서치(Beam Search)는 주로 시퀀스 생성 태스크에서 다음에 생성할 가장 적절한 단어나 토큰을 선택하는 데 사용됩니다. 이 과정은 특히 기계 번역, 텍스트 요약, 자동 캡셔닝, 챗봇 응답 생성 등 자연어 처리 작업에서 중요합니다. 빔 서치의 목표는 각 단계에서 가능성 있는 최상의 시퀀스를 유지하면서 최종적으로 가장 높은 확률을 가진 시퀀스를 출력하는 것입니다. 이 알고리즘은 완전 탐색이 아닌 그리디 탐색(greedy search)을 개선한 형태로, 매 스텝에서 여러 가능성 있는 후보 중 최상위 'k'개의 후보만을 유지하면서 진행합니다. 여기서 'k'가 바로 "빔의 수(Beam Size)"입니다.빔 서치의 작동 방식초기화: 시작 토큰이 주어지고, 첫 번째 단계에서..
- Total
- Today
- Yesterday
- recursion #재귀 #자료구조 # 알고리즘
- clustering
- t5
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- classification
- 파이썬
- nlp
- cnn
- speaking
- Python
- 티스토리챌린지
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- 해시
- Numpy
- RAG
- Transformer
- Hugging Face
- Array
- 코딩테스트
- Github
- git
- 오블완
- 손실함수
- PEFT
- LLM
- Lora
- English
- 리스트
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- LIST
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |