문과생CS정복기

[LLM] Tokenization, 문장을 숫자로 변환하는 과정

자연어 문장을 Transformer 모델에 입력하려면 먼저 문장을 숫자로 변환하는 과정이 필요합니다. 이 과정을 토크나이저(tokenizer)가 수행합니다. Transformer 모델은 텍스트 데이터를 처리할 수 없고, 숫자로 이루어진 벡터만 처리할 수 있기 때문에, 텍스트 문장을 숫자로 변환하는 과정이 필수적입니다. 이 변환 과정은 일반적으로 다음 단계를 따릅니다:1. 토큰화(Tokenization)문장을 토큰(token)이라는 작은 단위로 나눕니다. 토큰은 단어 단위일 수도 있고, 서브워드(subword) 단위일 수도 있습니다. 예를 들어:문장: "안녕하세요 저는 ChatGPT입니다"토큰화 결과 (서브워드 기준): ["안녕하세요", "저", "는", "chat", "gp", "t", "입니다"]2. ..

DeepLearning/NLP 2024. 9. 16. 07:31

[LLM] Transformers 모델 구조 Attention Is All You Need

Transformers는 Attention is All You Need 논문에서 제안된 구조로, 기본적으로 인코더-디코더 구조를 가지고 있습니다. 아래는 Transformer의 주요 부분을 코드로 구현한 예시와 함께 설명입니다. 예시 코드는 PyTorch로 작성된 Transformer의 일부 구성 요소입니다. 1. tokenization 먼저 "안녕하세요 저는 chatGPT입니다." 라는 문장을 transformer 모델에 넣으려면 단어들을 tokenization해서 숫자로 바꿔주는 작업이 필요합니다. tokenization 살펴보기 [LLM] Tokenization, 문장을 숫자로 변환하는 과정자연어 문장을 Transformer 모델에 입력하려면 먼저 문장을 숫자로 변환하는 과정이 필요합니다. 이 과정..

DeepLearning/NLP 2024. 9. 16. 07:10

Data-Centric AI에서 알아야 할 라이센스License 2가지 - OSL, CCL

1.Data-Centric AI에서 고려해야 할 라이선스 두 가지코드 → 오픈 소스 라이선스 (OSL) 일반적인 콘텐츠에 사용되는 CCL은 부적합 단, 일부 CCL은 사용 가능 ● CC BY-SA : GPLv3 단방향 호환 ● CC0 Public Domain : 소프트웨어에도 사용 가능데이터 → 크리에이티브 커먼즈 라이선스 (CCL) 일반적인 콘텐츠에 사용되는 CCL을 사용함 2.저작권과 CCL저작권 (Copyright) : 시, 소설, 음악, 미술, 영화, 연극, 컴퓨터프로그램 등과 같은 ‘저작물’에 대하여 창작자가 가지는 여러 가지 권리의 전체크리에이티브 커먼즈 라이선스 (Creative Commons License, CCL; 자유이용허락표시) : 비영리기구인 크리에이티브 커먼즈에서 만든 저작물 관련..

DeepLearning 2024. 9. 12. 15:47

float16과 bfloat16

float16과 bfloat16은 두 가지 다른 형식의 16비트 부동 소수점 데이터 형식입니다. 이들 각각은 메모리 사용을 줄이고, 처리 속도를 높이며, 딥러닝과 같은 고성능 계산 작업에서 사용됩니다. 그러나 두 형식은 서로 다른 방식으로 비트를 배치하여 정밀도와 범위에서 차이를 보입니다.float16정밀도: float16은 1비트의 부호, 5비트의 지수, 그리고 10비트의 유효 숫자(가수)로 구성됩니다.범위: 대략 -65504에서 +65504까지의 값을 표현할 수 있으며, 작은 값의 표현에는 정밀도가 낮습니다.사용처: 주로 딥러닝에서 GPU를 사용한 계산에 널리 사용되며, NVIDIA의 최신 GPU 아키텍처에서는 float16 계산을 가속화합니다.bfloat16정밀도: bfloat16은 float16과..

DeepLearning/NLP 2024. 9. 10. 10:34

디스플레이 해상도 변경이 안될 때

https://www.intel.com/content/www/us/en/support/articles/000038287/graphics.html How to Resolve Error Code 43 for Intel® GraphicsPerform a clean reinstall of your graphics driver to resolve this error.www.intel.com 다음과 같이 장치 상태가 문제가 발생한 것을 확인할 수 있습니다.보통은 윈도우를 며칠 사용하시면 자동으로 드라이버 업데이트를 하면서 문제가 해결됩니다.

블로그 2024. 9. 10. 10:33

엑셀에서 한글이 깨져 보이는 이유, 인코딩

엑셀에서 CSV 파일의 한글이 깨져 보이는 이유는 주로 인코딩 문제 때문입니다. Python에서는 파일을 UTF-8로 처리하는 것이 기본이지만, Microsoft Excel은 CSV 파일을 열 때 기본적으로 ANSI(또는 Windows-1252) 같은 다른 인코딩 방식을 사용하기 때문에 한글이 깨져 보일 수 있습니다.원인:Excel의 기본 인코딩 문제:엑셀은 CSV 파일을 열 때 UTF-8 인코딩을 자동으로 인식하지 않는 경우가 많습니다. 엑셀은 ANSI 또는 Windows-1252 같은 인코딩 방식으로 CSV 파일을 열기 때문에, UTF-8로 저장된 한글 데이터가 깨져 보일 수 있습니다.특히, UTF-8 인코딩 파일에 BOM(Byte Order Mark)이 없는 경우, 엑셀이 이를 UTF-8 파일로 인..

Python 2024. 9. 9. 15:37

LoRA 외에도 PEFT(Parameterized Efficient Fine-Tuning) 기술로 사용할 수 있는 여러 가지 방법

LoRA 외에도 PEFT(Parameterized Efficient Fine-Tuning) 기술로 사용할 수 있는 여러 가지 방법이 있습니다. 각 방법은 LoRA와 마찬가지로 대규모 모델의 효율적인 파인튜닝을 목표로 하며, 메모리와 계산 비용을 줄이면서 성능을 유지하거나 개선할 수 있습니다. 아래에서 다른 주요 PEFT 기술들을 소개합니다.1. Prefix Tuning설명: 입력 시퀀스에 모델 학습 중 추가적인 "프리픽스" 벡터를 삽입하여 모델을 미세 조정하는 방식입니다. 모델의 기존 파라미터는 고정된 상태에서 추가된 프리픽스 벡터만 학습됩니다.장점:모델 파라미터를 수정하지 않고, 효율적으로 미세 조정이 가능합니다.원래 모델의 성능을 유지하면서도 특정 작업에 맞게 빠르게 조정할 수 있습니다.적용 시점: ..

DeepLearning/NLP 2024. 9. 9. 12:48

LoRA(Low-Rank Adaptation)와 같은 PEFT(Parameterized Efficient Fine-Tuning) 기술 적용

LoRA(Low-Rank Adaptation)와 같은 PEFT(Parameterized Efficient Fine-Tuning) 기술을 적용할 때, 파라미터 설정은 주로 모델의 특성과 작업 목적에 따라 다릅니다. 각각의 파라미터는 LoRA가 어떤 방식으로 모델에 적용될지를 조정하며, 적절하게 설정하면 모델의 성능과 효율성을 최적화할 수 있습니다.아래는 각 파라미터의 의미와 적용 시 고려해야 할 사항입니다.1. r (저랭크 행렬의 차원)설명: r 값은 LoRA에서 학습할 저랭크 행렬의 크기를 결정합니다. 일반적으로 낮은 차원(r)으로 압축된 표현을 학습하면서 메모리와 계산 비용을 절감합니다.적용 기준: 작은 r 값은 메모리 사용량을 줄이지만, 학습 성능에 악영향을 미칠 수 있습니다.큰 r 값은 더 많은 학..

DeepLearning/NLP 2024. 9. 9. 12:45

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

문과생CS정복기

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역