IA3 (Input-Activated Attention Adaptation)
IA3 (Input-Activated Attention Adaptation)는 대규모 모델의 미세 조정을 더 효율적으로 수행하기 위한 방법 중 하나입니다. 이 방법은 Low-Rank Adaptation (LoRA)와 유사한 접근을 취하지만, LoRA가 모든 가중치를 학습하는 대신, 어텐션 메커니즘에서 가중치 행렬의 일부를 학습하는 방식에 초점을 맞추고 있습니다.IA3의 핵심 개념IA3는 대규모 언어 모델의 전체 가중치를 학습하지 않고, 입력-활성화 어텐션(adaptive attention)이라는 기법을 통해 특정 파라미터만 조정함으로써 모델을 미세 조정합니다. 이 방식은 전체 모델의 파라미터 업데이트를 피하면서도, 모델이 특정 작업에 대해 더 잘 적응할 수 있도록 합니다.구체적으로, IA3는 어텐션 메커..
DeepLearning/NLP
2024. 9. 19. 14:57
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- LIST
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- classification
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- Hugging Face
- LLM
- 리스트
- t5
- PEFT
- nlp
- Lora
- Array
- 손실함수
- RAG
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- clustering
- 파이썬
- 오블완
- recursion #재귀 #자료구조 # 알고리즘
- Numpy
- English
- cnn
- git
- 해시
- speaking
- Github
- Transformer
- Python
- 코딩테스트
- 티스토리챌린지
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
글 보관함