Kaggle 대회에서 사용하는 "Public"과 "Private" 리더보드의 평가 방식은 다음과 같습니다:Public Leaderboard (공개 리더보드):참가자가 제출한 예측 결과는 데이터셋의 일부 (대개 50%)에 대해서만 평가됩니다.이 평가 점수가 대회 진행 중에 리더보드에 표시되어, 참가자들이 자신의 순위를 실시간으로 확인할 수 있습니다.Public Leaderboard는 대회 중간에 자신의 모델 성능을 비교하고 개선할 수 있는 지표로 사용됩니다.Private Leaderboard (비공개 리더보드):나머지 데이터셋 (대개 50%)을 사용하여 평가됩니다.이 평가는 대회가 종료된 후에만 공개되며, 최종 순위를 결정하는 데 사용됩니다.Private Leaderboard는 대회 중에는 공개되지 않으므..
데이터 분석 및 예측 모델 평가에서 사용되는 지표인 RMSE, RMSLE, R-squared, MAE, MedAE, MAPE는 각각 다른 측면을 평가합니다. 이들의 차이점을 설명하겠습니다:RMSE (Root Mean Squared Error)RMSE는 예측 값과 실제 값의 차이를 제곱하여 평균한 값의 제곱근입니다. 이 지표는 예측 오차의 크기를 나타내며, 값이 클수록 오차가 크다는 것을 의미합니다. RMSE는 이상치에 민감하게 반응하는 경향이 있습니다.RMSLE (Root Mean Squared Logarithmic Error)RMSLE는 예측 값과 실제 값의 로그 차이를 제곱하여 평균한 값의 제곱근입니다. 값의 상대적 크기를 중시하며, 예측과 실제 값 사이의 비율적 차이를 강조합니다. 비율적 오류를 중..
Kaggle 대회에서 public leaderboard와 private leaderboard를 분리하는 이유는 여러 가지가 있습니다. 이 구분은 주로 공정하고 정확한 모델 평가를 보장하고, 모델의 일반화 능력을 측정하기 위해 사용됩니다. 여기에 주요 이유들을 소개합니다:오버피팅 방지: 대회 참가자들이 public leaderboard의 점수를 향상시키기 위해 지나치게 튜닝하는 것을 막습니다. 이런 행위는 모델이 public leaderboard의 특정 데이터에 과적합되어 실제 세계 데이터에서의 성능이 저하될 수 있습니다. private leaderboard는 참가자들이 볼 수 없는 별도의 데이터 세트로, 모델이 실제로 얼마나 잘 일반화되는지를 평가합니다.실제 성능 평가: private leaderboar..
Lasso (L1 정규화)와 랜덤 포레스트를 함께 사용하는 것은 일반적인 방법 중 하나입니다. Lasso를 사용하여 특성 선택을 먼저 수행하고, 그 후에 선택된 중요한 특성들만을 사용하여 랜덤 포레스트와 같은 복잡한 모델을 학습하는 방식입니다. 이 방법은 모델의 복잡도를 줄이고, 과적합을 방지하며, 해석 가능성을 높이는 데 도움이 됩니다.단계별 접근 방법Lasso를 사용하여 특성 선택:먼저 Lasso 회귀를 사용하여 중요한 특성을 선택합니다. Lasso는 L1 정규화로 인해 일부 특성의 가중치를 0으로 만들기 때문에, 중요한 특성만을 남기게 됩니다.랜덤 포레스트를 사용하여 예측 모델 생성:선택된 중요한 특성을 사용하여 랜덤 포레스트 모델을 학습합니다. 랜덤 포레스트는 여러 개의 결정 트리를 결합하여 높은..
L1과 L2 정규화는 머신 러닝에서 모델이 과적합되는 것을 방지하기 위해 사용되는 정규화 기법입니다. 이들은 손실 함수에 페널티 항을 추가하여 모델의 복잡도를 줄이는 역할을 합니다. 이를 통해 모델이 훈련 데이터에 너무 잘 맞추지 않고, 일반화 성능을 향상시킬 수 있습니다. ### L1 정규화 (Lasso Regularization) L1 정규화는 손실 함수에 가중치 절댓값의 합을 페널티로 추가합니다. 수학적으로는 다음과 같이 표현됩니다: $$ \text{Loss} = \text{Original Loss} + \lambda \sum_{i} |w_i| $$ 여기서: - \( \text{Loss} \)는 최종 손실 함수입니다. - \( \text{Original Loss} \)는 원래의 손실 함수 (예: M..
valid 평가 지표는 좋게 나오는데 submission 점수가 안 좋다면 오버피팅 가능성이 높습니다. 오버피팅이란 모델이 학습 데이터에 너무 잘 맞춰져서, 새로운 데이터(테스트 데이터)에서는 성능이 떨어지는 현상입니다. 이를 해결하기 위해 몇 가지 방법을 시도해 볼 수 있습니다: 1. **교차 검증 (Cross-validation)**: 데이터를 여러 폴드로 나누어 모델을 학습하고 평가해 보세요. 이는 모델이 특정 학습 데이터에 너무 의존하지 않도록 도와줍니다. 2. **정규화 기법 (Regularization)**: L1 또는 L2 정규화와 같은 기법을 사용하여 모델의 복잡도를 줄여보세요. 이는 모델이 너무 복잡해지는 것을 방지할 수 있습니다. 3. **특성 선택 (Feature Selection)*..
RandomForest 모델은 데이터의 각 특징이 범주형(categorical)인지 연속형(numerical)인지 직접적으로 인식하지 않습니다. 대신 데이터 과학자가 명시적으로 범주형 변수와 연속형 변수를 구분하여 적절한 전처리를 수행해야 합니다.범주형 변수 인식 및 전처리 방법데이터 타입을 통해 인식:Pandas에서 object, category 타입을 가진 열은 일반적으로 범주형 변수로 간주됩니다.유일 값의 개수를 통해 인식:열에 포함된 고유 값의 개수가 상대적으로 적으면 범주형 변수로 간주할 수 있습니다.명시적으로 지정:데이터 과학자가 도메인 지식을 바탕으로 범주형 변수를 명시적으로 지정합니다.예제 코드: 범주형 변수 인식 및 원-핫 인코딩다음은 Pandas를 사용하여 범주형 변수를 인식하고, 이를..
1. 추가 데이터 통합외부 데이터: 공휴일, 기후 조건, 경제 지표 등 외부 데이터를 모델에 포함시키면 예측의 정확도를 높일 수 있습니다. Prophet은 공휴일과 특별 이벤트를 모델에 포함시키는 기능을 제공합니다.프로모션 데이터: 판매 촉진 행사 정보가 있다면, 이를 모델에 포함시켜 판매량 증가 예측을 개선할 수 있습니다.2. 하이퍼파라미터 조정계절성 조정: 주간, 연간 계절성의 파라미터를 조정하거나, 데이터에 맞는 새로운 계절성을 정의할 수 있습니다.변경점(changepoint) 조정: Prophet 모델의 변경점 감도를 조정하여 모델이 추세의 변화를 더 잘 감지하도록 할 수 있습니다. changepoint_prior_scale의 값을 조정해 보세요.3. 피쳐 엔지니어링라그 변수: 과거 판매 데이터의..
- Total
- Today
- Yesterday
- Hugging Face
- RAG
- 리스트
- nlp
- t5
- Python
- 코딩테스트
- classification
- English
- cnn
- Array
- Transformer
- LLM
- Numpy
- recursion #재귀 #자료구조 # 알고리즘
- 오블완
- clustering
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- 해시
- speaking
- 손실함수
- LIST
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- Github
- git
- Lora
- PEFT
- 티스토리챌린지
- 파이썬
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |