'LLM' 태그의 글 목록

[패스트캠퍼스 Upstage AI Lab 3기 부트캠프] 파이널(기업연계) 프로젝트

안녕하세요! 오늘은 2024년 10월 28일, 4월부터 시작한 Upstage AI Lab 3기 부트캠프가 7개월을 지난 시점입니다.마지막 프로젝트인 '파이널 프로젝트' 주제를 바탕으로 글을 써보려고 합니다.파이널 프로젝트의 주제는 총 4개이고, 이 중에서 원하는 프로젝트를 골라 참여할 수 있었습니다. 1. 파이널 프로젝트 주제저는 최근 LLM의 발전으로 핫해진 RAG 시스템을 경험하기 위해 [Scientific Knowledge Question Answering | 과학 지식 질의 응답 시스템 구축] IR Information Retrieval 프로젝트에 참여하였습니다. 대부분의 수강생들도 IR 프로젝트에 참여하셨습니다. 여기서 간단하게 RAG에 대해 살펴보면RAG(Retrieval-Augmented G..

Upstage AI 3기/패스트러너_기자단 2024. 11. 12. 17:05

트랜스포머 transformer 아키텍쳐 이해하기

Transformer 아키텍처의 전체 흐름에서 쿼리(Query), 키(Key), 값(Value)가 언제 생성되는지 순차적으로 설명드릴게요. 각 단계에 번호를 붙여서 트랜스포머가 입력을 처리하는 순서를 이해하기 쉽게 정리해보겠습니다.Transformer 아키텍처에서의 순차 흐름입력 임베딩 생성트랜스포머 모델에 문장을 입력하면, 먼저 각 단어가 임베딩 레이어를 통해 임베딩 벡터로 변환됩니다.여기서 임베딩 벡터는 단어의 기본적인 의미를 숫자 벡터로 표현한 것입니다.예를 들어, “고양이”라는 단어는 임베딩 벡터로 변환되어, 모델이 숫자로 처리할 수 있게 됩니다.포지셔널 인코딩 추가트랜스포머는 위치 정보가 필요하므로, 각 단어의 임베딩 벡터에 포지셔널 인코딩을 추가합니다.포지셔널 인코딩은 단어들이 문장 내에서 순..

DeepLearning/NLP 2024. 11. 5. 12:01

[패스트캠퍼스 Upstage AI Lab 3기 부트캠프] 과정 종료 회고

24년 4월부터 11월까지 총 7개월 간의 긴 대장정 부트캠프가 끝이 났습니다.업스테이지 AI랩 3기는 박기준 매니저 님이 함께 해주셨고 파이썬부터 시작해서 ML, DL, LLM-RAG까지 배웠습니다.많은 강사님들과 멘토님들의 체계적인 지도 하에 어디가서 chatGPT가 무엇이고 트랜스포머가 무엇인지 설명할 수 있는 수준까지 성장했습니다.아침 10시부터 오후 7시까지 줌과 온라인 강의를 통해 굉장히 강도 높은 수준의 교육을 진행했기 때문에,프로그래밍 개발자이신 분들에게도 근면성실함은 물론이고 추가적인 학습과 노력을 요구하는 과정이었습니다.하지만 아예 프로그래밍 경험이 없는 비전공자 분들도 완주하시는 분들이 계신 걸로 보아서 얼마나 성장하고 얼마나 본인 몫을 가져갈지는 본인 하기 나름이라고 생각합니다. 4..

Upstage AI 3기/패스트러너_기자단 2024. 10. 27. 19:08

[Scientific Knowledge Question Answering | 과학 지식 질의 응답 시스템 구축] IR 프로젝트 개인회고

1. 프로젝트 개요A. 개요 : https://stages.ai/en/competitions/322대화 히스토리를 기반으로 질문에 가장 알맞은 문서를 맞추는 것이 이번 대회 목표이다. 알맞은 문서는 1개 내지 2개일 수 있다고 강사님께서 언급하셨다. topk를 1개를 제출하든 5개를 제출하든 상관은 없지만 MAP점수 매길 때 topk의 순위가 중요하다.B. 환경: Upstage에서 제공하는 remote 서버연결GPUCPUMemoryRTX 3090 / 24 GB10 thread60G 2. 프로젝트 팀 구성 및 역할 2-1. 매일 11시 어제 한 것, 유효한 부분, 내일 진행할 부분에 대해 공유, 모델학습실험기록지를 엑셀로 공유2-2. 역할분담진행속도가 빠른 사람이 실험결과 공유해주고, 후발주자가 성능 올릴..

Upstage AI 3기/프로젝트_개인회고 2024. 10. 27. 17:13

IA3 (Input-Activated Attention Adaptation)

IA3 (Input-Activated Attention Adaptation)는 대규모 모델의 미세 조정을 더 효율적으로 수행하기 위한 방법 중 하나입니다. 이 방법은 Low-Rank Adaptation (LoRA)와 유사한 접근을 취하지만, LoRA가 모든 가중치를 학습하는 대신, 어텐션 메커니즘에서 가중치 행렬의 일부를 학습하는 방식에 초점을 맞추고 있습니다.IA3의 핵심 개념IA3는 대규모 언어 모델의 전체 가중치를 학습하지 않고, 입력-활성화 어텐션(adaptive attention)이라는 기법을 통해 특정 파라미터만 조정함으로써 모델을 미세 조정합니다. 이 방식은 전체 모델의 파라미터 업데이트를 피하면서도, 모델이 특정 작업에 대해 더 잘 적응할 수 있도록 합니다.구체적으로, IA3는 어텐션 메커..

DeepLearning/NLP 2024. 9. 19. 14:57

LoRA(Low-Rank Adaptation)와 프롬프트 튜닝(Prompt Tuning) 차이

LoRA(Low-Rank Adaptation)와 프롬프트 튜닝(Prompt Tuning)은 둘 다 대규모 언어 모델을 더 효율적으로 미세 조정하는 기법입니다. 하지만 두 방법은 미세 조정의 대상과 방법이 다릅니다. 아래에서 각각의 차이점을 설명하겠습니다.1. LoRA (Low-Rank Adaptation)핵심 개념: LoRA는 모델 내부의 가중치(Weights)를 조정합니다. 모델의 가중치를 직접 변경하지 않고, 특정 가중치 행렬의 저차원(low-rank) 근사 행렬을 추가해 학습합니다. 이를 통해 전체 모델의 가중치를 모두 학습하는 것이 아니라, 저차원 근사치를 학습하여 메모리 사용을 줄이면서 성능을 최적화합니다.주요 특징:모델의 가중치 업데이트: LoRA는 기존의 가중치 행렬에 대해 두 개의 저차원 ..

DeepLearning/NLP 2024. 9. 19. 14:45

prompt tuning

T5 모델에서의 프롬프트 튜닝(prompt tuning)은 미세 조정과 달리, 모델의 모든 파라미터를 고정하고 학습 가능한 프롬프트 벡터만 조정하는 방식입니다. 이를 통해 모델의 전체 구조는 변하지 않으면서도 특정 작업에 맞게 성능을 최적화할 수 있습니다. 아래는 transformers 라이브러리를 사용해 T5 모델에서 프롬프트 튜닝을 하는 예시 코드입니다.1. 설치 준비프롬프트 튜닝을 하려면 Hugging Face의 transformers와 datasets 라이브러리를 설치해야 합니다. 먼저 아래 명령어로 설치하세요:pip install transformers datasets2. T5 프롬프트 튜닝 예시 코드import torchfrom transformers import T5ForConditional..

DeepLearning/NLP 2024. 9. 19. 14:44

[논문리뷰] Scaling Laws for Neural Language Models

AbstractWe study empirical scaling laws for language model performance on the cross-entropy loss. 우리는 언어 모델 성능의 교차 엔트로피 손실에 대한 경험적 스케일링 법칙을 연구합니다. The loss scales (비례한다) as a power-law (거듭제곱 법칙)with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. ( 단순히 7자리 값이 아니라 값의 범위가 매우 넓다는 의미, 모델 크기나 데이터셋 크기, 학습 자원이 10배, 10..

DeepLearning/NLP 2024. 9. 19. 14:16

문과생CS정복기

티스토리툴바

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31