다중 클래스 문제는 이진 분류가 아닌 다중 분류 문제를 의미합니다. 이를 조금 더 자세히 설명하면 다음과 같습니다:이진 분류 (Binary Classification)이진 분류는 두 개의 클래스(또는 범주) 중 하나로 데이터를 분류하는 문제를 말합니다. 예를 들어:이메일이 스팸인지 아닌지를 분류 (스팸 vs. 정상 메일)환자가 특정 질병이 있는지 없는지를 분류 (질병 있음 vs. 없음)이진 분류 문제에서는 일반적으로 두 개의 레이블을 사용하며, Gini Index나 이진 크로스 엔트로피 손실 함수를 사용하여 모델을 학습시킵니다.다중 클래스 분류 (Multiclass Classification)다중 클래스 분류는 두 개 이상의 클래스 중 하나로 데이터를 분류하는 문제를 말합니다. 예를 들어:손글씨 숫자 인..
Classification에서의 "Measuring Impurity for Split"는 결정 트리와 같은 분류 알고리즘에서 사용되는 개념으로, 데이터를 어떻게 나눌지 결정하는 기준입니다. 이를 통해 분할된 데이터의 순도(Homogeneity)를 최대화하고, 불순도(Impurity)나 불확실성(Uncertainty)을 최소화하려고 합니다.여기서 중요한 개념을 쉽게 설명하면 다음과 같습니다:순도(Homogeneity)와 불순도(Impurity)순도(Homogeneity): 데이터가 얼마나 잘 모여 있는지, 즉 같은 클래스에 속하는 데이터가 얼마나 많은지를 나타냅니다. 순도가 높을수록 같은 클래스의 데이터가 많이 모여 있다는 의미입니다.불순도(Impurity): 데이터가 얼마나 섞여 있는지, 즉 서로 다른 ..
Classification에서 Loss Function(손실 함수)은 모델이 예측한 값과 실제 값 사이의 차이를 측정하는 함수로, 모델을 학습시키는 데 중요한 역할을 합니다. 손실 함수는 모델의 예측 성능을 평가하고, 최적화 과정에서 이를 최소화함으로써 모델의 성능을 향상시킵니다. 다양한 분류 문제에 맞춰 여러 종류의 손실 함수가 사용되며, 대표적인 예로는 다음과 같습니다.1. 크로스 엔트로피 손실 (Cross-Entropy Loss)크로스 엔트로피 손실 함수는 분류 문제에서 가장 많이 사용되는 손실 함수 중 하나입니다. 특히, 다중 클래스 분류 문제에서 소프트맥스 활성화 함수와 함께 사용됩니다. 크로스 엔트로피 손실 함수는 주로 로지스틱 회귀(logistic regression)나 신경망(neural ..
회귀(Regression)와 분류(Classification)는 머신 러닝의 두 가지 주요 문제 유형입니다. 이 두 가지 문제는 데이터의 특성과 목표에 따라 모델을 학습시키는 방식이 다릅니다. 다음은 회귀와 분류의 주요 차이점을 설명한 내용입니다.회귀 (Regression)정의회귀는 연속적인 숫자 값을 예측하는 문제입니다. 목표 변수(종속 변수)는 연속적이며, 모델의 출력도 연속적인 값입니다.예시주택 가격 예측주식 시장 예측날씨 예측 (온도, 강수량 등)특정 시간 동안의 매출 예측알고리즘 예시선형 회귀 (Linear Regression)다항 회귀 (Polynomial Regression)릿지 회귀 (Ridge Regression)라쏘 회귀 (Lasso Regression)서포트 벡터 회귀 (Support..
스케일링(Scaling)은 머신 러닝과 데이터 분석에서 특성(피처)들의 값을 일정한 범위로 조정하는 전처리 과정입니다. 데이터 스케일링을 통해 모델 학습이 더 빠르고 효율적으로 이루어지며, 특정 알고리즘의 성능이 향상될 수 있습니다. 스케일링이 중요한 이유는 각 특성의 크기나 범위가 달라서 발생하는 문제를 해결하기 위해서입니다.주요 스케일링 방법표준화 (Standardization)정의: 특성의 값을 평균이 0이고 표준편차가 1이 되도록 변환합니다.수식: ( z = \frac{x - \mu}{\sigma} ) 𝑧=𝑥−𝜇𝜎z=σx−μ ( x ): x: 원본 특성 값( \mu ): μ: 특성의 평균값( \sigma ): σ: 특성의 표준편차장점: 표준화는 특성의 분포가 정규분포를 따를 때 특히 유..
이 이미지에서는 다양한 최적화 알고리즘에 대해 설명하고 있습니다. 각 알고리즘은 기계 학습 모델의 손실 함수를 최소화하기 위해 사용되며, 서로 다른 방식으로 학습률과 스텝 크기를 조정합니다. 이를 이해하기 쉽게 하나씩 설명해드리겠습니다.1. GD (Gradient Descent)설명: 모든 데이터를 사용하여 손실 함수의 기울기를 계산하고, 그 방향으로 이동하여 최소값을 찾습니다.특징: 모든 데이터를 사용하기 때문에 계산 비용이 큽니다.예시:import numpy as np#X: 독립 변수(특성) 데이터. 여기서는 𝑚×𝑛 형태의 2차원 배열입니다.#y: 종속 변수(목표) 데이터. 길이가 𝑚인 1차원 배열입니다.#learning_rate: 학습률. 각 반복에서 계수를 얼마나 크게 업데이트할지를 결정합니..
특성 선택(Feature Selection)은 머신 러닝 모델을 구축할 때 중요한 특성(변수)만 선택하여 모델의 성능을 향상시키고, 모델의 복잡도를 줄이는 과정입니다. 특성 선택을 통해 불필요한 특성을 제거하면 모델이 더 간단해지고, 과적합(overfitting)을 방지할 수 있으며, 계산 비용도 줄일 수 있습니다. 다음은 대표적인 특성 선택 기법들입니다.1. 필터 방법 (Filter Methods)필터 방법은 데이터의 통계적 특성을 기반으로 특성을 선택합니다. 모델을 학습하기 전에 특성을 선택하며, 빠르고 간단한 방법입니다.(1) 분산 임계값 (Variance Threshold)정의: 분산이 낮은 특성은 정보를 거의 제공하지 않으므로, 일정 임계값 이하의 분산을 가진 특성을 제거합니다.예시: 분산이 0..
모델 평가 방법은 머신 러닝 모델이 얼마나 잘 작동하는지를 판단하는 데 사용됩니다. 여기서는 다양한 모델 평가 방법을 간단히 설명하겠습니다.1. 회귀 모델 평가 방법(1) 평균 제곱 오차 (Mean Squared Error, MSE)정의: 예측값과 실제값의 차이의 제곱 평균.공식: MSE=1𝑛∑𝑖=1𝑛(𝑦𝑖−𝑦^𝑖)2MSE=n1∑i=1n(yi−y^i)2특징: 값이 클수록 모델의 예측 성능이 낮음을 의미합니다.(2) 평균 절대 오차 (Mean Absolute Error, MAE)정의: 예측값과 실제값의 절대 차이의 평균.공식: MAE=1𝑛∑𝑖=1𝑛∣𝑦𝑖−𝑦^𝑖∣MAE=n1∑i=1n∣yi−y^i∣특징: 이상치(outlier)에 덜 민감합니다.(3) 결정 계수 (R-..
- Total
- Today
- Yesterday
- clustering
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- recursion #재귀 #자료구조 # 알고리즘
- cnn
- Lora
- LIST
- 손실함수
- nlp
- English
- PEFT
- t5
- Numpy
- Python
- Transformer
- Array
- 코딩테스트
- 해시
- 파이썬
- Github
- Hugging Face
- RAG
- 티스토리챌린지
- 오블완
- classification
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- speaking
- LLM
- git
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- 리스트
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |