본문 바로가기 메뉴 바로가기

문과생CS정복기

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

문과생CS정복기

검색하기 폼
  • 분류 전체보기 (309)
    • Upstage AI 3기 (16)
      • 패스트러너_기자단 (8)
      • 프로젝트_개인회고 (4)
    • CS기초 (2)
    • Python (47)
    • DeepLearning (97)
      • CV (3)
      • NLP (43)
    • ML (52)
    • 코딩테스트 (12)
    • 통계 (14)
    • 개인프로젝트 (0)
    • 블로그 (30)
    • 비지니스영어회화 (16)
    • 부동산 (1)
  • 방명록

DeepLearning/NLP (43)
IndexError: index out of range in self

---------------------------------------------------------------------------IndexError Traceback (most recent call last)Cell In[14], line 31 26 sentence_encoded = tokenizer(instruction, 27 add_special_tokens=True, 28 return_tensors="pt") # Ensure tensors are returned for model input 30 # Gen..

DeepLearning/NLP 2024. 9. 4. 17:14
[LLM] embed_tokens 임베딩 크기 수정하면?

임베딩 크기를 수정하면 모델의 입력 텍스트가 임베딩되는 벡터의 차원이 변경됩니다. 이 변화는 모델의 전체 성능과 학습 과정에 중요한 영향을 미칩니다. 구체적으로, 임베딩 크기를 수정하면 다음과 같은 사항들이 발생할 수 있습니다:1. 모델의 표현력 변화임베딩 크기는 모델이 각 단어를 벡터로 변환할 때 사용하는 차원의 수를 의미합니다. 크기가 커질수록 각 단어를 더 고차원적으로 표현할 수 있으며, 더 많은 정보나 세부 사항을 학습할 수 있게 됩니다.임베딩 크기 증가: 더 큰 임베딩 벡터는 각 단어를 더 풍부하게 표현할 수 있어, 특히 복잡한 문맥에서 더 정확한 표현을 배울 수 있습니다. 하지만 차원이 너무 커지면 학습이 더 어려워지거나 과적합(overfitting)이 발생할 가능성이 있습니다.임베딩 크기 감..

DeepLearning/NLP 2024. 9. 4. 11:50
[LLM][Google/T5] T5ForConditionalGeneration 모델의 구조

T5ForConditionalGeneration( (shared): Embedding(32128, 1024) (encoder): T5Stack( (embed_tokens): Embedding(32128, 1024) (block): ModuleList( (0): T5Block( (layer): ModuleList( (0): T5LayerSelfAttention( (SelfAttention): T5Attention( (q): Linear(in_features=1024, out_features=1024, bias=False) (k): Linear(in_features=1024, out_feat..

DeepLearning/NLP 2024. 9. 4. 10:38
LLM(Large Language Models, LLMs)의 발전과 계보

DeepLearning/NLP 2024. 9. 3. 19:30
Google FLAN-T5와 T5 차이

FLAN-T5와 T5는 둘 다 Google에서 개발한 언어 모델입니다. 그러나 이 두 모델에는 몇 가지 중요한 차이점이 있습니다.1. T5 (Text-To-Text Transfer Transformer)기본 개요: T5는 "Text-To-Text Transfer Transformer"의 약자로, 모든 자연어 처리(NLP) 작업을 텍스트 입력과 텍스트 출력의 문제로 일반화하는 모델입니다. 예를 들어, 번역, 요약, 질문 응답 등의 작업을 모두 텍스트에서 텍스트로 변환하는 방식으로 처리합니다.훈련: T5는 대규모 데이터셋인 "Colossal Clean Crawled Corpus (C4)"를 사용해 사전 훈련(pre-training)되었습니다. 이 과정에서 다양한 NLP 작업을 학습하여 범용적인 성능을 보입니..

DeepLearning/NLP 2024. 9. 3. 11:50
generate_max_length와 decoder_max_len

generate_max_length와 decoder_max_len은 둘 다 텍스트 생성 작업에서 중요한 매개변수이지만, 각각의 매개변수가 사용되는 상황과 목적이 다소 다릅니다. 이 두 매개변수의 주요 차이점을 이해하기 위해 각각의 용도와 적용 범위를 자세히 살펴보겠습니다.decoder_max_len정의: decoder_max_len은 모델의 디코더 구성 요소가 처리할 수 있는 최대 토큰 수를 지정합니다. 이 매개변수는 모델의 아키텍처나 설정 단계에서 정의되며, 디코더가 생성할 수 있는 출력의 최대 길이를 제한합니다.목적: 디코더가 생성할 수 있는 최대 시퀀스 길이를 설정함으로써, 모델의 메모리 사용량과 계산 복잡성을 관리합니다. 이는 특히 학습 및 추론 시 성능 최적화에 중요합니다.적용: 이 설정은 주로..

DeepLearning/NLP 2024. 8. 31. 04:03
encoder_max_len과 decoder_max_len

encoder_max_len과 decoder_max_len 설정은 시퀀스 처리 작업에서 사용되는 인코더와 디코더의 최대 입력 및 출력 길이를 지정합니다. 이러한 설정은 자연어 처리(NLP) 모델에서 특히 중요하며, 모델의 인코더와 디코더 구성 요소가 처리할 수 있는 텍스트의 길이를 제한합니다.encoder_max_len: 1000정의: 인코더에서 처리할 수 있는 최대 토큰 수입니다. 이 값은 인코더가 입력 데이터를 받아들일 때 고려하는 최대 길이를 의미하며, 1000으로 설정된 경우 인코더는 최대 1000개의 토큰을 입력으로 받아들일 수 있습니다.용도: 긴 문서 또는 문장을 처리할 때 유용하며, 모델이 더 많은 컨텍스트 정보를 유지할 수 있도록 합니다. 이는 문맥이 중요한 작업(예: 문서 요약, 문맥을 ..

DeepLearning/NLP 2024. 8. 31. 04:01
per_device_eval_batch_size와 per_device_train_batch_size

per_device_eval_batch_size와 per_device_train_batch_size 설정은 각각 디바이스별로 학습과 평가 단계에서 처리할 배치 크기를 지정합니다. 이러한 설정은 모델의 학습 및 평가 효율성, 메모리 사용량, 그리고 속도에 중요한 영향을 미칩니다.per_device_train_batch_size정의: 디바이스별 학습 배치 크기는 각 학습 단계에서 디바이스(일반적으로 GPU)가 동시에 처리할 샘플의 수를 의미합니다.값: 예시에서 50으로 설정되어 있음을 의미하며, 이는 각 학습 스텝에서 각 GPU가 50개의 샘플을 처리한다는 것을 나타냅니다.용도: 큰 배치 크기는 일반적으로 더 빠른 학습 진행을 가능하게 하지만, 메모리 사용량도 증가시킵니다. 또한, 너무 큰 배치 크기는 모델..

DeepLearning/NLP 2024. 8. 31. 03:30
이전 1 2 3 4 5 6 다음
이전 다음
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • Hugging Face
  • recursion #재귀 #자료구조 # 알고리즘
  • Array
  • cnn
  • 파이썬
  • Lora
  • classification
  • clustering
  • Github
  • 리스트
  • #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
  • English
  • Numpy
  • t5
  • speaking
  • 오블완
  • LIST
  • PEFT
  • #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
  • Transformer
  • 코딩테스트
  • nlp
  • #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
  • 티스토리챌린지
  • Python
  • 손실함수
  • RAG
  • 해시
  • LLM
  • git
more
«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바