[LLM] Transformer 모델에서 선형 변환(linear transformation)을 사용하는 이유
Transformer 모델에서 선형 변환(linear transformation)을 사용하는 이유는 입력 임베딩을 Query, Key, Value로 변환하여 Self-Attention 메커니즘을 적용하기 위해서입니다. 그럼 왜 이 선형 변환이 필요한지, 그리고 변환이 어떻게 이루어지는지 단계적으로 설명하겠습니다.1. 왜 선형 변환을 사용하는가?Transformer에서 입력 임베딩 벡터를 그대로 Query, Key, Value로 사용할 수 없기 때문에, 선형 변환을 통해 서로 다른 표현 공간으로 변환합니다. 각 역할에 따라 다르게 학습된 변환을 적용함으로써, Self-Attention 메커니즘이 더 효과적으로 작동할 수 있습니다.이유 1: 역할의 분리Query: 각 단어가 "내가 어떤 정보를 찾고 있는가?..
DeepLearning/NLP
2024. 9. 16. 07:45
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- LIST
- cnn
- Numpy
- recursion #재귀 #자료구조 # 알고리즘
- 코딩테스트
- 파이썬
- 오블완
- classification
- Github
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- Python
- 해시
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- 리스트
- git
- English
- 손실함수
- t5
- PEFT
- Lora
- clustering
- LLM
- Array
- Transformer
- Hugging Face
- speaking
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- RAG
- nlp
- 티스토리챌린지
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함