Table of Contents
728x90
특성 선택(Feature Selection)은 머신 러닝 모델을 구축할 때 중요한 특성(변수)만 선택하여 모델의 성능을 향상시키고, 모델의 복잡도를 줄이는 과정입니다. 특성 선택을 통해 불필요한 특성을 제거하면 모델이 더 간단해지고, 과적합(overfitting)을 방지할 수 있으며, 계산 비용도 줄일 수 있습니다. 다음은 대표적인 특성 선택 기법들입니다.
1. 필터 방법 (Filter Methods)
필터 방법은 데이터의 통계적 특성을 기반으로 특성을 선택합니다. 모델을 학습하기 전에 특성을 선택하며, 빠르고 간단한 방법입니다.
(1) 분산 임계값 (Variance Threshold)
- 정의: 분산이 낮은 특성은 정보를 거의 제공하지 않으므로, 일정 임계값 이하의 분산을 가진 특성을 제거합니다.
- 예시: 분산이 0에 가까운 특성은 거의 변하지 않는 값이므로 제거합니다.
(2) 상관 계수 (Correlation Coefficient)
- 정의: 각 특성과 종속 변수 간의 상관 계수를 계산하여 상관 계수가 높은 특성을 선택합니다.
- 예시: 피어슨 상관 계수를 사용하여 종속 변수와 높은 상관 관계를 가진 특성을 선택합니다.
(3) 카이 제곱 검정 (Chi-Square Test)
- 정의: 특성과 종속 변수 간의 독립성을 검정하여, 종속 변수와 관련이 있는 특성을 선택합니다.
- 예시: 범주형 데이터에서 카이 제곱 검정을 사용하여 관련이 있는 특성을 선택합니다.
2. 래퍼 방법 (Wrapper Methods)
래퍼 방법은 모델 학습을 포함하여 특성의 조합을 평가합니다. 특성의 조합을 반복적으로 평가하여 최적의 특성 집합을 선택합니다. 이 방법은 계산 비용이 높지만, 성능이 좋습니다.
(1) 전진 선택 (Forward Selection)
- 정의: 하나씩 특성을 추가하면서 모델 성능이 향상되는지를 평가합니다.
- 예시: 공집합에서 시작하여 하나씩 특성을 추가하며 모델의 성능을 평가합니다.
(2) 후진 제거 (Backward Elimination)
- 정의: 모든 특성으로 시작하여 하나씩 제거하면서 모델 성능이 향상되는지를 평가합니다.
- 예시: 모든 특성을 포함한 상태에서 시작하여, 가장 덜 중요한 특성을 하나씩 제거합니다.
(3) 단계적 선택 (Stepwise Selection)
- 정의: 전진 선택과 후진 제거를 결합하여 특성을 추가하거나 제거하면서 모델 성능을 평가합니다.
- 예시: 전진 선택과 후진 제거를 번갈아 가며 특성을 선택하거나 제거합니다.
3. 임베디드 방법 (Embedded Methods)
임베디드 방법은 모델 학습 과정에서 특성을 선택합니다. 필터 방법과 래퍼 방법의 장점을 결합한 방식으로, 모델의 성능과 계산 효율성을 모두 고려합니다.
(1) Lasso 회귀 (Lasso Regression)
- 정의: 회귀 계수의 절대값 합에 페널티를 추가하여 불필요한 특성의 계수를 0으로 만듭니다.
- 예시: 라쏘 회귀는 중요한 특성만 남기고 불필요한 특성의 회귀 계수를 0으로 만듭니다.
(2) 릿지 회귀 (Ridge Regression)
- 정의: 회귀 계수의 제곱합에 페널티를 추가하여 특성의 중요도를 조절합니다.
- 예시: 릿지 회귀는 모든 특성을 사용하되, 특성의 회귀 계수를 작게 만들어 과적합을 방지합니다.
(3) 트리 기반 방법 (Tree-Based Methods)
- 정의: 의사 결정 나무와 같은 트리 기반 모델은 학습 과정에서 중요한 특성을 선택합니다.
- 예시: 랜덤 포레스트, 그래디언트 부스팅 트리 등이 특성 중요도를 평가하여 중요한 특성을 선택합니다.
요약
특성 선택은 머신 러닝 모델의 성능을 향상시키기 위해 중요한 과정입니다. 다양한 특성 선택 기법이 있으며, 각 기법은 특정 상황에서 더 효과적일 수 있습니다. 필터 방법은 빠르고 간단하지만 덜 정교하고, 래퍼 방법은 성능이 좋지만 계산 비용이 높으며, 임베디드 방법은 모델 학습 과정에서 특성을 선택하여 균형 잡힌 접근 방식을 제공합니다. 적절한 특성 선택 기법을 사용하면 모델의 성능을 크게 향상시킬 수 있습니다.
'ML' 카테고리의 다른 글
스케일링 (Scaling) (0) | 2024.05.28 |
---|---|
최적화 알고리즘(Optimization Algorithms) (0) | 2024.05.28 |
모델 평가 방법 (0) | 2024.05.28 |
베타𝛽계수 추정, 손실함수lossfunction, 편미분partial derivative, 폐쇄형 해Closed Form Solution (0) | 2024.05.28 |
머신러닝모델의 예측오류 Error = Noise(Data) + Variance + Bias (0) | 2024.05.28 |
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 티스토리챌린지
- 오블완
- English
- 파이썬
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- LIST
- t5
- recursion #재귀 #자료구조 # 알고리즘
- PEFT
- nlp
- Hugging Face
- 해시
- 손실함수
- Python
- RAG
- git
- Lora
- classification
- Numpy
- Github
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- Transformer
- LLM
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- cnn
- speaking
- 리스트
- 코딩테스트
- Array
- clustering
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함