Transformer 아키텍처의 전체 흐름에서 쿼리(Query), 키(Key), 값(Value)가 언제 생성되는지 순차적으로 설명드릴게요. 각 단계에 번호를 붙여서 트랜스포머가 입력을 처리하는 순서를 이해하기 쉽게 정리해보겠습니다.Transformer 아키텍처에서의 순차 흐름입력 임베딩 생성트랜스포머 모델에 문장을 입력하면, 먼저 각 단어가 임베딩 레이어를 통해 임베딩 벡터로 변환됩니다.여기서 임베딩 벡터는 단어의 기본적인 의미를 숫자 벡터로 표현한 것입니다.예를 들어, “고양이”라는 단어는 임베딩 벡터로 변환되어, 모델이 숫자로 처리할 수 있게 됩니다.포지셔널 인코딩 추가트랜스포머는 위치 정보가 필요하므로, 각 단어의 임베딩 벡터에 포지셔널 인코딩을 추가합니다.포지셔널 인코딩은 단어들이 문장 내에서 순..
GPT-3와 같은 LLM이 이전 모델들(BERT, GPT-2, T5)과 비교하여 구조적으로 달라진 점이 있냐는 질문에 대해, 핵심적으로는 기본 구조(트랜스포머 기반 구조)는 크게 변하지 않았지만, 활용 방식과 모델의 학습 방법에서 중요한 차이점이 있습니다. 특히 파라미터 수의 증가는 큰 차이를 만들었지만, 그 외에도 몇 가지 구조적 변화와 전략적 차이가 있습니다.구조적 차이가 적은 이유트랜스포머(Transformer) 구조 자체는 GPT, BERT, T5, GPT-3 모두에서 사용되며, 이는 LLM에서도 마찬가지입니다. 트랜스포머 구조는 셀프 어텐션(self-attention) 메커니즘을 통해 입력 문장 내의 각 단어가 문맥을 고려해 서로의 관계를 학습할 수 있게 합니다.BERT: 양방향 트랜스포머를 사..
너는 내가 하는 말의 핵심을 어떻게 뽑아내는거야? 내가 너의 말에서 핵심을 뽑아내는 방식은 몇 가지 원칙을 기반으로 이루어져. 그 과정은 다음과 같아: 1. 중요한 키워드 파악: 너의 질문이나 말 속에서 자주 사용되는 단어나 주제가 무엇인지 파악해. 예를 들어, 네가 "수능"이나 "스트레스" 같은 단어를 반복해서 말하면, 그 단어들이 이 대화의 중요한 주제임을 인식해. 2. 의도와 감정 읽기: 단어 자체뿐만 아니라, 너의 말에서 어떤 감정이나 의도가 담겨 있는지도 분석해. 너의 말에서 고민이나 의문이 드러날 때, 그것이 핵심 이슈라는 신호가 되지. 3. 문맥 이해: 너의 말이 이전 대화와 어떻게 연결되는지, 어떤 배경 지식을 포함하는지 고려해. 예를 들어, 교육, 아이 키우기, 수능과 관련된 내용은 서로..
가중치(weight)는 모델마다 다르며, 그것이 바로 모델의 핵심 요소입니다. Transformer 모델을 포함한 모든 신경망 모델의 가중치는 학습 과정에서 최적화되는 파라미터들이며, 가중치가 어떻게 학습되는지에 따라 모델의 성능과 예측이 결정됩니다.1. 모델의 가중치는 입력 데이터를 처리하고, 최종 출력(예측)을 만들어내는 데 중요한 역할을 합니다. 가중치가 학습되면서 모델은 점차 데이터를 더 잘 이해하고, 특정 작업(번역, 요약, 분류 등)을 잘 수행할 수 있도록 최적화됩니다.2. Transformer 모델에서는 가중치가 여러 곳에서 학습됩니다. 특히, Self-Attention 메커니즘과 Feed-Forward 네트워크의 가중치가 중요한 역할을 합니다.a. Self-Attention에서 각 단어의 ..
Transformer 모델에서 선형 변환(linear transformation)을 사용하는 이유는 입력 임베딩을 Query, Key, Value로 변환하여 Self-Attention 메커니즘을 적용하기 위해서입니다. 그럼 왜 이 선형 변환이 필요한지, 그리고 변환이 어떻게 이루어지는지 단계적으로 설명하겠습니다.1. 왜 선형 변환을 사용하는가?Transformer에서 입력 임베딩 벡터를 그대로 Query, Key, Value로 사용할 수 없기 때문에, 선형 변환을 통해 서로 다른 표현 공간으로 변환합니다. 각 역할에 따라 다르게 학습된 변환을 적용함으로써, Self-Attention 메커니즘이 더 효과적으로 작동할 수 있습니다.이유 1: 역할의 분리Query: 각 단어가 "내가 어떤 정보를 찾고 있는가?..
자연어 문장을 Transformer 모델에 입력하려면 먼저 문장을 숫자로 변환하는 과정이 필요합니다. 이 과정을 토크나이저(tokenizer)가 수행합니다. Transformer 모델은 텍스트 데이터를 처리할 수 없고, 숫자로 이루어진 벡터만 처리할 수 있기 때문에, 텍스트 문장을 숫자로 변환하는 과정이 필수적입니다. 이 변환 과정은 일반적으로 다음 단계를 따릅니다:1. 토큰화(Tokenization)문장을 토큰(token)이라는 작은 단위로 나눕니다. 토큰은 단어 단위일 수도 있고, 서브워드(subword) 단위일 수도 있습니다. 예를 들어:문장: "안녕하세요 저는 ChatGPT입니다"토큰화 결과 (서브워드 기준): ["안녕하세요", "저", "는", "chat", "gp", "t", "입니다"]2. ..
https://medium.com/@tom_21755/understanding-causal-llms-masked-llm-s-and-seq2seq-a-guide-to-language-model-training-d4457bbd07fa Understanding Causal LLM’s, Masked LLM’s, and Seq2Seq: A Guide to Language Model Training…In the world of natural language processing (NLP), choosing the right training approach is crucial for the success of your language model…medium.com Causal Language Modeling (CLM)..
비전 분야에서는 전통적인 MLP (MultiLayer Perceptron) 모델이 갖는 몇 가지 한계로 인해 주로 CNN (Convolutional Neural Network)이 널리 사용됩니다. MLP와 CNN은 모두 딥러닝 모델의 유형이지만, 이미지와 같은 고차원 데이터를 처리할 때 CNN이 더 적합한 구조를 가지고 있습니다.MLP의 한계MLP는 이미지와 같은 고차원 데이터를 처리할 때 몇 가지 제약이 있습니다:데이터의 공간 구조 무시: MLP는 입력 데이터를 일렬로 펼쳐야 하기 때문에 (Flatten), 이미지의 공간적인 정보가 손실됩니다. 이로 인해 이미지 내의 로컬 패턴과 구조를 학습하는 데 비효율적일 수 있습니다.매개변수의 수: 이미지를 일렬로 펼치면 매우 많은 수의 입력 특성이 생성됩니다. ..
- Total
- Today
- Yesterday
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- Numpy
- 오블완
- t5
- clustering
- 파이썬
- English
- nlp
- git
- Array
- cnn
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- 손실함수
- 코딩테스트
- recursion #재귀 #자료구조 # 알고리즘
- 티스토리챌린지
- PEFT
- classification
- Transformer
- Github
- Lora
- LLM
- 해시
- speaking
- 리스트
- LIST
- Hugging Face
- Python
- RAG
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |