'DeepLearning' 카테고리의 글 목록 (3 Page)

RAG(Retrieval-Augmented Generation)

RAG 시스템(Retrieval-Augmented Generation)은 정보 검색과 생성형 인공지능(GPT와 같은 모델)을 결합하여, 사용자 질문에 대한 보다 정확하고 풍부한 답변을 생성하는 시스템입니다. 이 시스템을 효과적으로 구축하기 위해서는 여러 가지 중요한 요소가 있습니다. standalone_query 외에도, 다음과 같은 핵심 요소들이 RAG 시스템의 성능과 효과를 크게 좌우합니다:1. 검색 엔진 선택 및 최적화검색 엔진은 RAG 시스템의 핵심 구성 요소 중 하나로, 주어진 쿼리에 대한 관련 문서를 검색합니다. 일반적으로 Elasticsearch나 FAISS와 같은 도구가 사용됩니다. 검색 엔진의 설정과 최적화가 매우 중요합니다.역색인(sparse retrieval):텍스트 기반 검색으로, ..

DeepLearning/NLP 2024. 10. 3. 22:29

IA3 (Input-Activated Attention Adaptation)

IA3 (Input-Activated Attention Adaptation)는 대규모 모델의 미세 조정을 더 효율적으로 수행하기 위한 방법 중 하나입니다. 이 방법은 Low-Rank Adaptation (LoRA)와 유사한 접근을 취하지만, LoRA가 모든 가중치를 학습하는 대신, 어텐션 메커니즘에서 가중치 행렬의 일부를 학습하는 방식에 초점을 맞추고 있습니다.IA3의 핵심 개념IA3는 대규모 언어 모델의 전체 가중치를 학습하지 않고, 입력-활성화 어텐션(adaptive attention)이라는 기법을 통해 특정 파라미터만 조정함으로써 모델을 미세 조정합니다. 이 방식은 전체 모델의 파라미터 업데이트를 피하면서도, 모델이 특정 작업에 대해 더 잘 적응할 수 있도록 합니다.구체적으로, IA3는 어텐션 메커..

DeepLearning/NLP 2024. 9. 19. 14:57

LoRA(Low-Rank Adaptation)와 프롬프트 튜닝(Prompt Tuning) 차이

LoRA(Low-Rank Adaptation)와 프롬프트 튜닝(Prompt Tuning)은 둘 다 대규모 언어 모델을 더 효율적으로 미세 조정하는 기법입니다. 하지만 두 방법은 미세 조정의 대상과 방법이 다릅니다. 아래에서 각각의 차이점을 설명하겠습니다.1. LoRA (Low-Rank Adaptation)핵심 개념: LoRA는 모델 내부의 가중치(Weights)를 조정합니다. 모델의 가중치를 직접 변경하지 않고, 특정 가중치 행렬의 저차원(low-rank) 근사 행렬을 추가해 학습합니다. 이를 통해 전체 모델의 가중치를 모두 학습하는 것이 아니라, 저차원 근사치를 학습하여 메모리 사용을 줄이면서 성능을 최적화합니다.주요 특징:모델의 가중치 업데이트: LoRA는 기존의 가중치 행렬에 대해 두 개의 저차원 ..

DeepLearning/NLP 2024. 9. 19. 14:45

prompt tuning

T5 모델에서의 프롬프트 튜닝(prompt tuning)은 미세 조정과 달리, 모델의 모든 파라미터를 고정하고 학습 가능한 프롬프트 벡터만 조정하는 방식입니다. 이를 통해 모델의 전체 구조는 변하지 않으면서도 특정 작업에 맞게 성능을 최적화할 수 있습니다. 아래는 transformers 라이브러리를 사용해 T5 모델에서 프롬프트 튜닝을 하는 예시 코드입니다.1. 설치 준비프롬프트 튜닝을 하려면 Hugging Face의 transformers와 datasets 라이브러리를 설치해야 합니다. 먼저 아래 명령어로 설치하세요:pip install transformers datasets2. T5 프롬프트 튜닝 예시 코드import torchfrom transformers import T5ForConditional..

DeepLearning/NLP 2024. 9. 19. 14:44

[논문리뷰] Scaling Laws for Neural Language Models

AbstractWe study empirical scaling laws for language model performance on the cross-entropy loss. 우리는 언어 모델 성능의 교차 엔트로피 손실에 대한 경험적 스케일링 법칙을 연구합니다. The loss scales (비례한다) as a power-law (거듭제곱 법칙)with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. ( 단순히 7자리 값이 아니라 값의 범위가 매우 넓다는 의미, 모델 크기나 데이터셋 크기, 학습 자원이 10배, 10..

DeepLearning/NLP 2024. 9. 19. 14:16

[LLM] LLM 모델이 LM 모델과 달라진 점

GPT-3와 같은 LLM이 이전 모델들(BERT, GPT-2, T5)과 비교하여 구조적으로 달라진 점이 있냐는 질문에 대해, 핵심적으로는 기본 구조(트랜스포머 기반 구조)는 크게 변하지 않았지만, 활용 방식과 모델의 학습 방법에서 중요한 차이점이 있습니다. 특히 파라미터 수의 증가는 큰 차이를 만들었지만, 그 외에도 몇 가지 구조적 변화와 전략적 차이가 있습니다.구조적 차이가 적은 이유트랜스포머(Transformer) 구조 자체는 GPT, BERT, T5, GPT-3 모두에서 사용되며, 이는 LLM에서도 마찬가지입니다. 트랜스포머 구조는 셀프 어텐션(self-attention) 메커니즘을 통해 입력 문장 내의 각 단어가 문맥을 고려해 서로의 관계를 학습할 수 있게 합니다.BERT: 양방향 트랜스포머를 사..

DeepLearning/NLP 2024. 9. 19. 12:33

[LLM] LM에서 LLM으로 발전하는 과정에서의 주요 변화

BERT, BART, T5와 같은 모델에서 LLM(대형 언어 모델)로 넘어오면서 모델이 더 다양한 NLP 작업을 하나로 통합할 수 있게 된 데는 몇 가지 주요 변화와 개선점이 있습니다. 이 과정에서 모델의 훈련 방식, 크기, 일반화 능력, 프롬프트 기반 학습 등이 발전하면서 여러 NLP 작업을 통합하여 처리할 수 있게 되었습니다.1. 모델 크기의 증가BERT, BART, T5와 같은 초기 모델은 대규모로 훈련된 언어 모델이었지만, GPT-3, GPT-4와 같은 LLM은 훨씬 더 많은 파라미터를 가지고 있습니다.BERT는 수억 개의 파라미터를 가졌지만, GPT-3는 1750억 개의 파라미터를 가지고 있습니다.모델 크기의 증가는 모델이 훨씬 더 방대한 양의 데이터를 학습하고, 더 복잡하고 다양한 언어 패턴을..

DeepLearning/NLP 2024. 9. 19. 12:26

[논문 리뷰] Pre-train, Prompt, and Predict: A Systematic Survey ofPrompting Methods in Natural Language Processing

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing 1 Two Sea Changes in NLP 더보기Sequence tagging은 **자연어 처리(NLP)**에서 사용하는 기법으로, 주어진 입력 시퀀스(문장이나 단어들)에 대해 각 단어 또는 토큰에 레이블을 붙이는 작업을 의미합니다. 대표적인 예로는 다음과 같은 작업들이 있습니다:POS 태깅 (Part-of-Speech Tagging): 각 단어에 품사(명사, 동사, 형용사 등)를 붙이는 작업.예: "I love NLP" → "I/PRP love/VBP NLP/NNP"Named Entity Recognition (NER..

DeepLearning/NLP 2024. 9. 19. 10:39

문과생CS정복기

티스토리툴바

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30