1. 프로젝트 개요A. 개요 : https://stages.ai/en/competitions/312/leaderboard/list 기간대회 내용2024.7.9.화 ~ 19.금 총 11일서울시 아파트의 각 시점에서의 거래금액(만원)을 예측하는 것이 목표 데이터명기간내용train2007-01-01 ~ 2023-06-30, 15년 6개1,118,822개, 52개의 아파트의 정보 등 feature120개test2007-07-01 ~ 2023-09-26, 약 3개월9272개, 52개의 아파트의 정보 등 feature120개 B. 환경; remote 서버연결; GPU 사용하지 않음 GPUCPUMemoryRTX 3090 / 24 GB10 thread60G 2. 프로젝트 팀 구성 및 역할 2-1. 모델학습실험기록지를..
Python에서 메모리 관리를 효과적으로 수행하기 위해 몇 가지 방법을 사용할 수 있습니다. 특히 특정 데이터셋만 유지하고 다른 데이터를 메모리에서 해제하고자 할 때 적용할 수 있는 몇 가지 방법을 소개합니다:변수 삭제와 가비지 컬렉션 활용del 명령어를 사용하여 불필요한 변수를 삭제할 수 있습니다. 예를 들어, 더 이상 필요 없는 큰 데이터셋이나 임시 변수를 삭제합니다.Python의 가비지 컬렉터를 수동으로 실행하여 메모리를 정리할 수 있습니다. gc.collect() 함수를 호출하면 된다.import gc# 변수 삭제del large_variablegc.collect()데이터 구조 최적화데이터셋을 사용할 때 데이터 타입과 구조를 최적화하여 메모리 사용량을 줄일 수 있습니다. 예를 들어, pandas ..
대규모 데이터셋을 다루는 경우, Python에서 메모리 문제나 데이터 저장 오류가 발생할 수 있습니다. 이를 해결하기 위한 몇 가지 접근 방법을 제안합니다:1. 데이터 처리 최적화데이터 타입 줄이기: 데이터 타입을 효율적으로 변경하여 메모리 사용량을 줄일 수 있습니다.필요한 열만 사용: 필요한 열만 선택하여 메모리 사용을 최적화할 수 있습니다.import pandas as pdimport numpy as np# 데이터 타입 줄이기def optimize_memory(df): for col in df.select_dtypes(include=['int']).columns: df[col] = pd.to_numeric(df[col], downcast='unsigned') for col in..
reindex와 reset_index는 pandas에서 인덱스를 조작하는 두 가지 주요 메서드입니다. 이 둘의 기능과 용도는 다릅니다.reindexreindex 메서드는 데이터프레임의 행 또는 열을 새로운 인덱스로 맞추는 데 사용됩니다. 새로운 인덱스를 제공하면, 해당 인덱스에 맞춰 데이터프레임을 재구성합니다. 만약 새로운 인덱스에 기존 인덱스에 없는 값이 있다면, 그에 해당하는 데이터는 NaN으로 채워집니다.용도:인덱스를 새로운 값으로 설정하고, 기존 데이터의 순서를 재배열하거나, 부족한 데이터를 NaN으로 채웁니다.예시:import pandas as pd# 예시 데이터프레임 생성data = {'A': [1, 2, 3], 'B': [4, 5, 6]}df = pd.DataFrame(data, index=..
인덱스(Index)는 pandas 데이터프레임과 시리즈에서 데이터의 위치를 나타내는 필수적인 부분입니다. 인덱스는 행과 열을 고유하게 식별하는 데 사용되며, 데이터를 조회하고 조작하는 데 중요한 역할을 합니다.인덱스(Index)의 원리행 인덱스(Row Index)와 열 인덱스(Column Index):행 인덱스는 데이터프레임의 각 행을 고유하게 식별하는 데 사용됩니다. 기본적으로 pandas는 0부터 시작하는 정수 인덱스를 사용하지만, 사용자가 지정한 다른 값으로도 설정할 수 있습니다.열 인덱스는 각 열의 이름을 나타내며, 데이터프레임의 열을 고유하게 식별합니다.인덱스의 역할:데이터 조회: 인덱스를 사용하여 특정 행이나 열의 데이터를 빠르게 조회할 수 있습니다.데이터 정렬: 인덱스를 기준으로 데이터프레임..
Lasso (L1 정규화)와 랜덤 포레스트를 함께 사용하는 것은 일반적인 방법 중 하나입니다. Lasso를 사용하여 특성 선택을 먼저 수행하고, 그 후에 선택된 중요한 특성들만을 사용하여 랜덤 포레스트와 같은 복잡한 모델을 학습하는 방식입니다. 이 방법은 모델의 복잡도를 줄이고, 과적합을 방지하며, 해석 가능성을 높이는 데 도움이 됩니다.단계별 접근 방법Lasso를 사용하여 특성 선택:먼저 Lasso 회귀를 사용하여 중요한 특성을 선택합니다. Lasso는 L1 정규화로 인해 일부 특성의 가중치를 0으로 만들기 때문에, 중요한 특성만을 남기게 됩니다.랜덤 포레스트를 사용하여 예측 모델 생성:선택된 중요한 특성을 사용하여 랜덤 포레스트 모델을 학습합니다. 랜덤 포레스트는 여러 개의 결정 트리를 결합하여 높은..
L1과 L2 정규화는 머신 러닝에서 모델이 과적합되는 것을 방지하기 위해 사용되는 정규화 기법입니다. 이들은 손실 함수에 페널티 항을 추가하여 모델의 복잡도를 줄이는 역할을 합니다. 이를 통해 모델이 훈련 데이터에 너무 잘 맞추지 않고, 일반화 성능을 향상시킬 수 있습니다. ### L1 정규화 (Lasso Regularization) L1 정규화는 손실 함수에 가중치 절댓값의 합을 페널티로 추가합니다. 수학적으로는 다음과 같이 표현됩니다: $$ \text{Loss} = \text{Original Loss} + \lambda \sum_{i} |w_i| $$ 여기서: - \( \text{Loss} \)는 최종 손실 함수입니다. - \( \text{Original Loss} \)는 원래의 손실 함수 (예: M..
valid 평가 지표는 좋게 나오는데 submission 점수가 안 좋다면 오버피팅 가능성이 높습니다. 오버피팅이란 모델이 학습 데이터에 너무 잘 맞춰져서, 새로운 데이터(테스트 데이터)에서는 성능이 떨어지는 현상입니다. 이를 해결하기 위해 몇 가지 방법을 시도해 볼 수 있습니다: 1. **교차 검증 (Cross-validation)**: 데이터를 여러 폴드로 나누어 모델을 학습하고 평가해 보세요. 이는 모델이 특정 학습 데이터에 너무 의존하지 않도록 도와줍니다. 2. **정규화 기법 (Regularization)**: L1 또는 L2 정규화와 같은 기법을 사용하여 모델의 복잡도를 줄여보세요. 이는 모델이 너무 복잡해지는 것을 방지할 수 있습니다. 3. **특성 선택 (Feature Selection)*..
- Total
- Today
- Yesterday
- Array
- 해시
- t5
- 파이썬
- 코딩테스트
- git
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- Hugging Face
- RAG
- Python
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- 오블완
- LLM
- Numpy
- classification
- cnn
- clustering
- speaking
- 티스토리챌린지
- Transformer
- 리스트
- LIST
- Lora
- Github
- English
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- 손실함수
- recursion #재귀 #자료구조 # 알고리즘
- PEFT
- nlp
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |