Table of Contents

ML

회귀(Regression)와 분류(Classification)

꼬꼬마코더 2024. 5. 28. 23:01
728x90

회귀(Regression)와 분류(Classification)는 머신 러닝의 두 가지 주요 문제 유형입니다. 이 두 가지 문제는 데이터의 특성과 목표에 따라 모델을 학습시키는 방식이 다릅니다. 다음은 회귀와 분류의 주요 차이점을 설명한 내용입니다.

회귀 (Regression)

정의

회귀는 연속적인 숫자 값을 예측하는 문제입니다. 목표 변수(종속 변수)는 연속적이며, 모델의 출력도 연속적인 값입니다.

예시

  • 주택 가격 예측
  • 주식 시장 예측
  • 날씨 예측 (온도, 강수량 등)
  • 특정 시간 동안의 매출 예측

알고리즘 예시

  • 선형 회귀 (Linear Regression)
  • 다항 회귀 (Polynomial Regression)
  • 릿지 회귀 (Ridge Regression)
  • 라쏘 회귀 (Lasso Regression)
  • 서포트 벡터 회귀 (Support Vector Regression, SVR)
  • 결정 트리 회귀 (Decision Tree Regression)
  • 랜덤 포레스트 회귀 (Random Forest Regression)

평가 지표

  • 평균 제곱 오차 (Mean Squared Error, MSE)
  • 평균 절대 오차 (Mean Absolute Error, MAE)
  • 결정 계수 (R-squared, ( R^2 ))
  • 평균 절대 백분율 오차 (Mean Absolute Percentage Error, MAPE)

예시 코드 (선형 회귀)

from sklearn.linear_model import LinearRegression
import numpy as np

# 예시 데이터
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 3, 5, 7, 11])

# 모델 학습
model = LinearRegression()
model.fit(X, y)

# 예측
predictions = model.predict(np.array([[6], [7]]))
print(predictions)

분류 (Classification)

정의

분류는 범주형 데이터를 예측하는 문제입니다. 목표 변수는 이산적인 클래스 또는 레이블이며, 모델의 출력은 이러한 클래스 중 하나입니다.

예시

  • 이메일 스팸 필터링 (스팸/비스팸)
  • 질병 진단 (양성/음성)
  • 이미지 분류 (고양이/개/새 등)
  • 고객 이탈 예측 (이탈/유지)

알고리즘 예시

평가 지표

  • 정확도 (Accuracy)
  • 정밀도 (Precision)
  • 재현율 (Recall)
  • F1 점수 (F1 Score)
  • ROC 곡선 (Receiver Operating Characteristic Curve)
  • AUC (Area Under the ROC Curve)

예시 코드 (로지스틱 회귀)

from sklearn.linear_model import LogisticRegression
import numpy as np

# 예시 데이터
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([0, 0, 1, 1, 1])

# 모델 학습
model = LogisticRegression()
model.fit(X, y)

# 예측
predictions = model.predict(np.array([[1.5], [3.5]]))
print(predictions)

주요 차이점 요약

  1. 출력 값:
    • 회귀: 연속적인 값 (예: 주택 가격, 온도)
    • 분류: 이산적인 클래스 또는 레이블 (예: 스팸/비스팸, 고양이/개/새)
  2. 목표 변수:
    • 회귀: 연속형 변수
    • 분류: 범주형 변수
  3. 평가 지표:
    • 회귀: MSE, MAE, ( R^2 ) 등
    • 분류: 정확도, 정밀도, 재현율, F1 점수, ROC-AUC 등

요약

  • 회귀(Regression): 연속적인 숫자 값을 예측하는 문제로, 주택 가격 예측, 주식 시장 예측 등이 포함됩니다.
  • 분류(Classification): 범주형 데이터를 예측하는 문제로, 이메일 스팸 필터링, 질병 진단 등이 포함됩니다.

각 문제 유형에 맞는 적절한 알고리즘과 평가 지표를 사용하여 모델을 학습시키고 평가합니다.

 

객관식 문제

 

문제 1:

다음 중 회귀(Regression) 문제의 예시는 무엇인가요?

A. 스팸 이메일을 분류하기

B. 고양이와 개를 이미지로 분류하기

C. 주택 가격 예측하기

D. 고객 이탈 여부 예측하기

정답: C. 주택 가격 예측하기

문제 2:

다음 중 분류(Classification) 문제의 예시는 무엇인가요?

A. 주택 가격 예측하기

B. 주식 시장 예측하기

C. 온도 예측하기

D. 질병 진단 (양성/음성)

정답: D. 질병 진단 (양성/음성)

문제 3:

회귀 모델의 평가 지표로 적합한 것은 무엇인가요?

A. 정밀도 (Precision)

B. 평균 제곱 오차 (Mean Squared Error, MSE)

C. 재현율 (Recall)

D. 정확도 (Accuracy)

정답: B. 평균 제곱 오차 (Mean Squared Error, MSE)

문제 4:

다음 중 분류 모델의 평가 지표로 적합하지 않은 것은 무엇인가요?

A. 정확도 (Accuracy)

B. 정밀도 (Precision)

C. 평균 절대 오차 (Mean Absolute Error, MAE)

D. F1 점수 (F1 Score)

정답: C. 평균 절대 오차 (Mean Absolute Error, MAE)