num_beams 설정은 빔 서치(beam search) 알고리즘에서 사용할 빔의 수를 지정합니다. 빔 서치는 자연어 처리(NLP)에서 자주 사용되는 디코딩 방법 중 하나로, 특히 기계 번역, 텍스트 요약, 챗봇 응답 생성 등과 같은 시퀀스 생성 작업에서 널리 쓰입니다.빔 서치(beam search)란?빔 서치는 그리디 서치(greedy search)의 일반적인 단점인 국소 최적해(local optimum)에 갇힐 위험을 줄이기 위해 설계된 알고리즘입니다. 이 방법은 한 번에 하나의 최상의 선택을 추구하는 그리디 서치와 달리, 빔 서치는 각 단계에서 상위 k개의 가장 가능성 있는 후보들을 유지하면서 탐색을 수행합니다. 여기서 k는 빔의 크기로, num_beams로 설정됩니다.num_beams의 역할탐색 ..
no_repeat_ngram_size 설정은 생성된 텍스트에서 반복되는 n-gram의 크기를 제한하는 기능입니다. 이 설정은 특히 자동 텍스트 생성 모델에서 중요한 역할을 하며, 모델이 반복적인 내용을 줄이도록 돕습니다. 여기서 n-gram은 연속된 n개의 단어를 의미합니다.no_repeat_ngram_size의 역할반복 방지: 이 설정을 사용하면 모델이 특정 크기의 n-gram을 문장 내에서 한 번만 사용하도록 제한합니다. 예를 들어 no_repeat_ngram_size를 2로 설정하면, 어떤 두 단어의 조합도 텍스트 내에서 한 번만 나타나야 합니다. 이는 생성된 내용에서 단어의 반복적 사용을 줄이는 데 도움을 줍니다.내용의 다양성 증가: 반복을 제한함으로써 텍스트의 다양성과 창의성을 향상시킬 수 있습..
fp16 (16-bit floating point)와 int8 (8-bit integer)는 NLP 모델을 포함한 머신러닝 모델에서 주로 모델의 연산 속도를 개선하고 메모리 사용량을 줄이기 위해 사용되는 데이터 형식입니다. 이러한 기법을 모델 정밀도 감소(model quantization) 또는 **하위 정밀도 연산(lower-precision computation)**이라고 합니다. 각각의 데이터 타입이 모델 운영에 미치는 영향을 살펴보겠습니다:fp16 (16-bit Floating Point)메모리 절감: fp16은 표준 fp32 (32-bit floating point) 데이터 타입에 비해 메모리 사용량을 대략 절반으로 줄여줍니다. 이는 모델이 사용하는 메모리 양을 줄여주기 때문에 더 큰 모델을 동..
ref: https://ngp9440.tistory.com/144 [논문 리뷰] LoRA: Low-Rank Adaptation of Large Language Models1. IntroductionNLP를 다루는 많은 Application들은 매우 큰 PTLM을 여러 downstream task를 다루기 위해 adapting 방식을 사용했다. adaptation은 일반적으로 pre-trained model의 전체 파라미터를 update하는 fine-tuning을ngp9440.tistory.com 위에서 설명한 내용은 NLP 모델, 특히 매우 큰 사전 훈련된 언어 모델(GPT-3 등)을 다양한 다운스트림 작업(특정 작업에 모델을 적용하는 것)에 효율적으로 적용하기 위한 방법론에 대해 다루고 있습니다. 이를..
한국어 텍스트에 대한 요약이나 번역과 같은 자연어 처리 작업에서 ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 메트릭을 사용하는 것은 일부 제한 사항이 있습니다. 이는 주로 ROUGE가 원래 영어 텍스트의 평가를 위해 설계되었기 때문입니다. 한국어와 같은 다른 언어들에서 ROUGE를 사용할 때 고려해야 할 몇 가지 요소는 다음과 같습니다:1. 언어의 구조적 특성어순의 유연성: 한국어는 주어-목적어-동사(SOV)의 어순을 가지지만, 상당히 유연하여 문맥에 따라 어순이 자유롭게 변할 수 있습니다. 이로 인해 단순히 단어의 일치를 기반으로 한 ROUGE 점수는 문장의 실제 의미를 정확히 반영하지 못할 수 있습니다.교착어 특성: 한국어는 교착어로서 접사가..
https://medium.com/@tom_21755/understanding-causal-llms-masked-llm-s-and-seq2seq-a-guide-to-language-model-training-d4457bbd07fa Understanding Causal LLM’s, Masked LLM’s, and Seq2Seq: A Guide to Language Model Training…In the world of natural language processing (NLP), choosing the right training approach is crucial for the success of your language model…medium.com Causal Language Modeling (CLM)..
빔 서치(Beam Search)란?빔 서치(Beam Search)는 주로 시퀀스 생성 태스크에서 다음에 생성할 가장 적절한 단어나 토큰을 선택하는 데 사용됩니다. 이 과정은 특히 기계 번역, 텍스트 요약, 자동 캡셔닝, 챗봇 응답 생성 등 자연어 처리 작업에서 중요합니다. 빔 서치의 목표는 각 단계에서 가능성 있는 최상의 시퀀스를 유지하면서 최종적으로 가장 높은 확률을 가진 시퀀스를 출력하는 것입니다. 이 알고리즘은 완전 탐색이 아닌 그리디 탐색(greedy search)을 개선한 형태로, 매 스텝에서 여러 가능성 있는 후보 중 최상위 'k'개의 후보만을 유지하면서 진행합니다. 여기서 'k'가 바로 "빔의 수(Beam Size)"입니다.빔 서치의 작동 방식초기화: 시작 토큰이 주어지고, 첫 번째 단계에서..
GPT3,4는 1750억개의 파라미터를 가지고 있다고 했는데 그 파라미터는 어떤 INPUT을 받는 파라미터야? ChatGPT의 말:ChatGPTThe parameters in models like GPT-3 and GPT-4 are part of the model's architecture, which includes various layers of neural networks designed to process and generate text based on input data. In the context of these models, the parameters are weights within the neural network that are adjusted during the training pro..
- Total
- Today
- Yesterday
- Transformer
- RAG
- Python
- PEFT
- LIST
- git
- Hugging Face
- 오블완
- Github
- Lora
- 코딩테스트
- Numpy
- 손실함수
- recursion #재귀 #자료구조 # 알고리즘
- English
- LLM
- t5
- clustering
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- 파이썬
- Array
- classification
- speaking
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- nlp
- 해시
- cnn
- 티스토리챌린지
- 리스트
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |