본문 바로가기 메뉴 바로가기

문과생CS정복기

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

문과생CS정복기

검색하기 폼
  • 분류 전체보기 (309)
    • Upstage AI 3기 (16)
      • 패스트러너_기자단 (8)
      • 프로젝트_개인회고 (4)
    • CS기초 (2)
    • Python (47)
    • DeepLearning (97)
      • CV (3)
      • NLP (43)
    • ML (52)
    • 코딩테스트 (12)
    • 통계 (14)
    • 개인프로젝트 (0)
    • 블로그 (30)
    • 비지니스영어회화 (16)
    • 부동산 (1)
  • 방명록

nlp (4)
[LLM] LM에서 LLM으로 발전하는 과정에서의 주요 변화

BERT, BART, T5와 같은 모델에서 LLM(대형 언어 모델)로 넘어오면서 모델이 더 다양한 NLP 작업을 하나로 통합할 수 있게 된 데는 몇 가지 주요 변화와 개선점이 있습니다. 이 과정에서 모델의 훈련 방식, 크기, 일반화 능력, 프롬프트 기반 학습 등이 발전하면서 여러 NLP 작업을 통합하여 처리할 수 있게 되었습니다.1. 모델 크기의 증가BERT, BART, T5와 같은 초기 모델은 대규모로 훈련된 언어 모델이었지만, GPT-3, GPT-4와 같은 LLM은 훨씬 더 많은 파라미터를 가지고 있습니다.BERT는 수억 개의 파라미터를 가졌지만, GPT-3는 1750억 개의 파라미터를 가지고 있습니다.모델 크기의 증가는 모델이 훨씬 더 방대한 양의 데이터를 학습하고, 더 복잡하고 다양한 언어 패턴을..

DeepLearning/NLP 2024. 9. 19. 12:26
[LLM] 모델의 핵심요소, 가중치weight

가중치(weight)는 모델마다 다르며, 그것이 바로 모델의 핵심 요소입니다. Transformer 모델을 포함한 모든 신경망 모델의 가중치는 학습 과정에서 최적화되는 파라미터들이며, 가중치가 어떻게 학습되는지에 따라 모델의 성능과 예측이 결정됩니다.1. 모델의 가중치는 입력 데이터를 처리하고, 최종 출력(예측)을 만들어내는 데 중요한 역할을 합니다. 가중치가 학습되면서 모델은 점차 데이터를 더 잘 이해하고, 특정 작업(번역, 요약, 분류 등)을 잘 수행할 수 있도록 최적화됩니다.2. Transformer 모델에서는 가중치가 여러 곳에서 학습됩니다. 특히, Self-Attention 메커니즘과 Feed-Forward 네트워크의 가중치가 중요한 역할을 합니다.a. Self-Attention에서 각 단어의 ..

DeepLearning/NLP 2024. 9. 16. 08:06
[LLM][Google/T5] T5ForConditionalGeneration 모델의 구조

T5ForConditionalGeneration( (shared): Embedding(32128, 1024) (encoder): T5Stack( (embed_tokens): Embedding(32128, 1024) (block): ModuleList( (0): T5Block( (layer): ModuleList( (0): T5LayerSelfAttention( (SelfAttention): T5Attention( (q): Linear(in_features=1024, out_features=1024, bias=False) (k): Linear(in_features=1024, out_feat..

DeepLearning/NLP 2024. 9. 4. 10:38
빔 서치(Beam Search)

빔 서치(Beam Search)란?빔 서치(Beam Search)는 주로 시퀀스 생성 태스크에서 다음에 생성할 가장 적절한 단어나 토큰을 선택하는 데 사용됩니다. 이 과정은 특히 기계 번역, 텍스트 요약, 자동 캡셔닝, 챗봇 응답 생성 등 자연어 처리 작업에서 중요합니다. 빔 서치의 목표는 각 단계에서 가능성 있는 최상의 시퀀스를 유지하면서 최종적으로 가장 높은 확률을 가진 시퀀스를 출력하는 것입니다. 이 알고리즘은 완전 탐색이 아닌 그리디 탐색(greedy search)을 개선한 형태로, 매 스텝에서 여러 가능성 있는 후보 중 최상위 'k'개의 후보만을 유지하면서 진행합니다. 여기서 'k'가 바로 "빔의 수(Beam Size)"입니다.빔 서치의 작동 방식초기화: 시작 토큰이 주어지고, 첫 번째 단계에서..

DeepLearning/NLP 2024. 8. 29. 15:41
이전 1 다음
이전 다음
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • git
  • nlp
  • 손실함수
  • Transformer
  • Array
  • Github
  • 오블완
  • #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
  • 해시
  • Hugging Face
  • #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
  • 코딩테스트
  • clustering
  • Python
  • PEFT
  • 파이썬
  • Numpy
  • Lora
  • LIST
  • LLM
  • English
  • cnn
  • speaking
  • t5
  • recursion #재귀 #자료구조 # 알고리즘
  • 티스토리챌린지
  • 리스트
  • #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
  • classification
  • RAG
more
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바