Table of Contents
728x90
클러스터링은 비지도 학습이기 때문에 정답이 없습니다. 따라서 레이블(정답)을 활용한 기존의 external evaluation 는 평가지표로 활용하는 것은 맞지 않습니다. 또한 cluster내의 공간에 대해 평가하는 internal evaluation 역시 평가지표를 활용하기 어렵습니다. cluster들의 떨어진 정도를 비교하는 relative 방식을 주로 활용하여 measure를 찾고 elbow point를 찾는 것이 중요합니다.

External Evaluation Metrics (외부 평가 지표) :
외부 평가 지표는 클러스터링 결과를 사전에 알려진 레이블(정답)과 비교하여 평가합니다. 여기서의 레이블이라는 것은 룰베이스, 인간의 판단이라고 보시면 됩니다. 이를 통해 클러스터링이 실제 레이블과 얼마나 잘 일치하는지 평가할 수 있습니다.
- Rand Statistic
- 클러스터링 결과와 실제 레이블 간의 일치도를 측정합니다.
- 두 개의 데이터 포인트가 같은 클러스터에 속하는지 여부를 고려하여 계산합니다.
- -1에서 1 사이의 값을 가지며, 값이 클수록 클러스터링 결과가 실제 레이블과 잘 맞는 것을 의미합니다.
- Jaccard Coefficient
- 두 데이터 집합 간의 유사성을 측정합니다.
- 클러스터링된 데이터 포인트 쌍 중에서 같은 클러스터에 속하는 쌍의 비율을 나타냅니다.
- Folks and Mallows Index
- 클러스터링 결과와 실제 레이블 간의 일치도를 측정하는 지표 중 하나입니다.
- 군집 내 일치 쌍과 군집 간 불일치 쌍을 기반으로 계산합니다.
- (Normalized) Hubert T Statistic
- 두 군집 간의 유사성을 측정하는 통계 지표입니다.
- 클러스터링 결과와 실제 레이블의 유사성을 정량적으로 평가합니다.
Internal Evaluation Metrics (내부 평가 지표) :
내부 평가 지표는 클러스터의 품질을 데이터 자체의 특성을 기반으로 평가합니다. 레이블이 없는 상황에서도 사용할 수 있습니다.
- Cophenetic Correlation Coefficient
- 클러스터링 결과의 덴드로그램(계층적 클러스터링의 결과)을 기반으로 계산됩니다.
- 데이터 포인트 간의 실제 거리와 덴드로그램 상의 거리 간의 상관 관계를 측정합니다.
- Sum of Squared Error (SSE)
- 클러스터 내의 데이터 포인트와 클러스터 중심 간의 거리의 제곱 합입니다.
- SSE가 작을수록 클러스터 내 데이터 포인트가 클러스터 중심에 가깝다는 것을 의미합니다.
- Cohesion and Separation
- Cohesion (응집도): 클러스터 내 데이터 포인트 간의 유사성을 측정합니다.
- Separation (분리도): 다른 클러스터와의 분리를 측정합니다.
- 좋은 클러스터링은 높은 응집도와 높은 분리도를 갖습니다.
Relative Evaluation Metrics (상대 평가 지표) : 주로 활용
상대 평가 지표는 다른 클러스터링 결과와 비교하여 클러스터의 품질을 평가합니다.
- ★Dunn Family of Indices
- 클러스터 내의 최대 거리와 클러스터 간의 최소 거리를 비교하여 클러스터링의 품질을 평가합니다.
- 값이 클수록 클러스터 내의 데이터 포인트들이 더 가깝고, 클러스터 간의 거리가 더 멀다는 것을 의미합니다.
- Davies-Bouldin (DB) Index
- 클러스터 내의 응집도와 클러스터 간의 분리도를 모두 고려하는 지표입니다.
- DB 지수는 클러스터의 수와 클러스터링의 품질 간의 균형을 측정합니다. 값이 작을수록 좋습니다.
- Semi-partial R-squared
- 클러스터링 결과의 설명력을 평가합니다.
- 클러스터링이 데이터의 변동성을 얼마나 잘 설명하는지 측정합니다.
- SD Validity Index
- 클러스터링의 응집도와 분리도를 동시에 고려합니다.
- 다양한 클러스터링 알고리즘과의 비교에 적합합니다.
- ★ Silhouette (실루엣)
- 각 데이터 포인트의 실루엣 값은 해당 포인트가 속한 클러스터 내의 응집도와 다른 클러스터 간의 분리도를 기반으로 계산됩니다.
- 실루엣 값이 1에 가까울수록 해당 데이터 포인트가 잘 속한 클러스터에 있으며, 다른 클러스터와 잘 분리되어 있음을 의미합니다.
결론
- External 지표는 실제 레이블과 비교하여 클러스터링 결과의 정확성을 평가합니다.
- Internal 지표는 클러스터링 결과의 품질을 데이터 자체의 특성만으로 평가합니다.
- Relative 지표는 다른 클러스터링 결과와 비교하여 상대적인 품질을 평가합니다.
이러한 지표들은 각각의 특성과 강점을 가지고 있으므로, 다양한 지표를 사용하여 클러스터링 결과를 종합적으로 평가하는 것이 좋습니다. 특정한 상황에 맞는 지표를 선택하여 클러스터링의 성능을 효과적으로 평가할 수 있습니다.
'ML' 카테고리의 다른 글
데이터 어노테이션(data annotation) (1) | 2024.06.02 |
---|---|
로지스틱 회귀(Logistic Regression) (1) | 2024.06.02 |
[패스트캠퍼스] Upstage AI Lab 3기 학습 블로그_ ML 프로젝트 기본 이론 : 머신러닝 클러스터링 평가지표 Clustering Evaluation Metrics (0) | 2024.05.31 |
Clustering 클러스터링 (1) | 2024.05.31 |
Model black box, XAI: LIME, SHAP (0) | 2024.05.31 |
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- recursion #재귀 #자료구조 # 알고리즘
- classification
- 오블완
- English
- Github
- speaking
- cnn
- 코딩테스트
- 리스트
- Array
- t5
- 해시
- Python
- 손실함수
- nlp
- Transformer
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- Numpy
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- Hugging Face
- 파이썬
- PEFT
- RAG
- clustering
- LLM
- git
- LIST
- 티스토리챌린지
- Lora
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함