'DeepLearning/NLP' 카테고리의 글 목록 (4 Page)

IndexError: index out of range in self

---------------------------------------------------------------------------IndexError Traceback (most recent call last)Cell In[14], line 31 26 sentence_encoded = tokenizer(instruction, 27 add_special_tokens=True, 28 return_tensors="pt") # Ensure tensors are returned for model input 30 # Gen..

DeepLearning/NLP 2024. 9. 4. 17:14

[LLM] embed_tokens 임베딩 크기 수정하면?

임베딩 크기를 수정하면 모델의 입력 텍스트가 임베딩되는 벡터의 차원이 변경됩니다. 이 변화는 모델의 전체 성능과 학습 과정에 중요한 영향을 미칩니다. 구체적으로, 임베딩 크기를 수정하면 다음과 같은 사항들이 발생할 수 있습니다:1. 모델의 표현력 변화임베딩 크기는 모델이 각 단어를 벡터로 변환할 때 사용하는 차원의 수를 의미합니다. 크기가 커질수록 각 단어를 더 고차원적으로 표현할 수 있으며, 더 많은 정보나 세부 사항을 학습할 수 있게 됩니다.임베딩 크기 증가: 더 큰 임베딩 벡터는 각 단어를 더 풍부하게 표현할 수 있어, 특히 복잡한 문맥에서 더 정확한 표현을 배울 수 있습니다. 하지만 차원이 너무 커지면 학습이 더 어려워지거나 과적합(overfitting)이 발생할 가능성이 있습니다.임베딩 크기 감..

DeepLearning/NLP 2024. 9. 4. 11:50

[LLM][Google/T5] T5ForConditionalGeneration 모델의 구조

T5ForConditionalGeneration( (shared): Embedding(32128, 1024) (encoder): T5Stack( (embed_tokens): Embedding(32128, 1024) (block): ModuleList( (0): T5Block( (layer): ModuleList( (0): T5LayerSelfAttention( (SelfAttention): T5Attention( (q): Linear(in_features=1024, out_features=1024, bias=False) (k): Linear(in_features=1024, out_feat..

DeepLearning/NLP 2024. 9. 4. 10:38

LLM(Large Language Models, LLMs)의 발전과 계보

DeepLearning/NLP 2024. 9. 3. 19:30

Google FLAN-T5와 T5 차이

FLAN-T5와 T5는 둘 다 Google에서 개발한 언어 모델입니다. 그러나 이 두 모델에는 몇 가지 중요한 차이점이 있습니다.1. T5 (Text-To-Text Transfer Transformer)기본 개요: T5는 "Text-To-Text Transfer Transformer"의 약자로, 모든 자연어 처리(NLP) 작업을 텍스트 입력과 텍스트 출력의 문제로 일반화하는 모델입니다. 예를 들어, 번역, 요약, 질문 응답 등의 작업을 모두 텍스트에서 텍스트로 변환하는 방식으로 처리합니다.훈련: T5는 대규모 데이터셋인 "Colossal Clean Crawled Corpus (C4)"를 사용해 사전 훈련(pre-training)되었습니다. 이 과정에서 다양한 NLP 작업을 학습하여 범용적인 성능을 보입니..

DeepLearning/NLP 2024. 9. 3. 11:50

generate_max_length와 decoder_max_len

generate_max_length와 decoder_max_len은 둘 다 텍스트 생성 작업에서 중요한 매개변수이지만, 각각의 매개변수가 사용되는 상황과 목적이 다소 다릅니다. 이 두 매개변수의 주요 차이점을 이해하기 위해 각각의 용도와 적용 범위를 자세히 살펴보겠습니다.decoder_max_len정의: decoder_max_len은 모델의 디코더 구성 요소가 처리할 수 있는 최대 토큰 수를 지정합니다. 이 매개변수는 모델의 아키텍처나 설정 단계에서 정의되며, 디코더가 생성할 수 있는 출력의 최대 길이를 제한합니다.목적: 디코더가 생성할 수 있는 최대 시퀀스 길이를 설정함으로써, 모델의 메모리 사용량과 계산 복잡성을 관리합니다. 이는 특히 학습 및 추론 시 성능 최적화에 중요합니다.적용: 이 설정은 주로..

DeepLearning/NLP 2024. 8. 31. 04:03

encoder_max_len과 decoder_max_len

encoder_max_len과 decoder_max_len 설정은 시퀀스 처리 작업에서 사용되는 인코더와 디코더의 최대 입력 및 출력 길이를 지정합니다. 이러한 설정은 자연어 처리(NLP) 모델에서 특히 중요하며, 모델의 인코더와 디코더 구성 요소가 처리할 수 있는 텍스트의 길이를 제한합니다.encoder_max_len: 1000정의: 인코더에서 처리할 수 있는 최대 토큰 수입니다. 이 값은 인코더가 입력 데이터를 받아들일 때 고려하는 최대 길이를 의미하며, 1000으로 설정된 경우 인코더는 최대 1000개의 토큰을 입력으로 받아들일 수 있습니다.용도: 긴 문서 또는 문장을 처리할 때 유용하며, 모델이 더 많은 컨텍스트 정보를 유지할 수 있도록 합니다. 이는 문맥이 중요한 작업(예: 문서 요약, 문맥을 ..

DeepLearning/NLP 2024. 8. 31. 04:01

per_device_eval_batch_size와 per_device_train_batch_size

per_device_eval_batch_size와 per_device_train_batch_size 설정은 각각 디바이스별로 학습과 평가 단계에서 처리할 배치 크기를 지정합니다. 이러한 설정은 모델의 학습 및 평가 효율성, 메모리 사용량, 그리고 속도에 중요한 영향을 미칩니다.per_device_train_batch_size정의: 디바이스별 학습 배치 크기는 각 학습 단계에서 디바이스(일반적으로 GPU)가 동시에 처리할 샘플의 수를 의미합니다.값: 예시에서 50으로 설정되어 있음을 의미하며, 이는 각 학습 스텝에서 각 GPU가 50개의 샘플을 처리한다는 것을 나타냅니다.용도: 큰 배치 크기는 일반적으로 더 빠른 학습 진행을 가능하게 하지만, 메모리 사용량도 증가시킵니다. 또한, 너무 큰 배치 크기는 모델..

DeepLearning/NLP 2024. 8. 31. 03:30

문과생CS정복기

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31