
클러스터링은 비지도 학습이기 때문에 정답이 없습니다. 따라서 레이블(정답)을 활용한 기존의 external evaluation 는 평가지표로 활용하는 것은 맞지 않습니다. 또한 cluster내의 공간에 대해 평가하는 internal evaluation 역시 평가지표를 활용하기 어렵습니다. cluster들의 떨어진 정도를 비교하는 relative 방식을 주로 활용하여 measure를 찾고 elbow point를 찾는 것이 중요합니다. External Evaluation Metrics (외부 평가 지표) : 외부 평가 지표는 클러스터링 결과를 사전에 알려진 레이블(정답)과 비교하여 평가합니다. 여기서의 레이블이라는 것은 룰베이스, 인간의 판단이라고 보시면 됩니다. 이를 통해 클러스터링이 실제 레이블과 얼마나..
클러스터링 평가지표는 클러스터링 알고리즘이 생성한 클러스터의 품질을 평가하는 데 사용됩니다. 이 지표들은 주로 내부 평가 지표와 외부 평가 지표로 나뉩니다.내부 평가 지표 (Internal Evaluation Metrics)내부 평가 지표는 클러스터의 품질을 데이터 자체의 특성을 기반으로 평가합니다. 이는 외부 레이블이 없는 경우에도 사용할 수 있습니다.Silhouette Score (실루엣 점수)각 데이터 포인트의 실루엣 계수는 해당 포인트가 속한 클러스터 내의 응집도와 다른 클러스터 간의 분리도를 기반으로 계산됩니다.실루엣 계수는 -1에서 1 사이의 값을 가지며, 값이 클수록 클러스터링이 잘 된 것을 의미합니다.1에 가까울수록 데이터 포인트가 잘 맞는 클러스터에 속해 있고, 다른 클러스터와 잘 분리되..

클러스터링(Clustering)은 데이터 분석에서 데이터를 비슷한 특성을 가진 그룹으로 나누는 비지도 학습(Unsupervised Learning)의 한 기법입니다. 클러스터링은 데이터 세트 내의 패턴을 발견하고, 이를 통해 데이터를 이해하거나 유용한 정보를 추출하는 데 사용됩니다. 클러스터링은 다양한 분야에서 활용될 수 있으며, 몇 가지 대표적인 알고리즘이 있습니다. 아래에서는 클러스터링의 개념, 주요 알고리즘, 그리고 각 알고리즘의 장단점에 대해 자세히 설명하겠습니다.클러스터링의 개념클러스터링은 데이터 포인트를 유사한 특성을 가진 그룹(클러스터)으로 묶는 과정입니다. 각 클러스터 내의 데이터 포인트는 서로 유사성이 높으며, 다른 클러스터의 데이터 포인트와는 유사성이 낮습니다. 클러스터링은 다음과 같은..
클러스터링에서 유사성 또는 거리는 데이터 포인트들 간의 유사성을 측정하는 중요한 개념입니다. 유사성을 정의하는 방법에 따라 클러스터링의 결과가 달라질 수 있으며, 다양한 거리 계산 방법이 존재합니다. 여기에서는 주로 사용되는 거리 계산 방법들을 자세히 설명하겠습니다.1. 유클리드 거리 (Euclidean Distance)유클리드 거리는 두 점 사이의 직선 거리를 측정하는 방법으로, 가장 많이 사용되는 거리 계산 방법 중 하나입니다. 2차원 공간에서 두 점 ((x_1, y_1))와 ((x_2, y_2)) 사이의 유클리드 거리는 다음과 같이 계산됩니다.[ \text{Euclidean Distance} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} ]일반적으로 (n)차원 공간에서는 다음..
클러스터링은 데이터 분석 및 머신 러닝에서 널리 사용되는 기법으로, 유사한 특성을 가진 데이터 포인트들을 그룹으로 묶는 방법을 의미합니다. 클러스터링은 주로 탐색적 데이터 분석, 패턴 인식, 이미지 분석, 시장 세분화 등 다양한 분야에서 활용됩니다. 클러스터링의 주요 목적은 데이터의 구조를 이해하고, 데이터 내의 자연스러운 그룹이나 패턴을 발견하는 것입니다.클러스터링 알고리즘의 종류와 주요 개념에 대해 자세히 설명하겠습니다.1. 클러스터링의 주요 개념클러스터(Cluster): 유사한 특성을 가진 데이터 포인트들의 모음입니다. 각 클러스터 내의 데이터 포인트들은 서로 유사성이 높고, 다른 클러스터의 데이터 포인트들과는 유사성이 낮습니다.유사성(Similarity) 또는 거리(Distance): 데이터 포인..
- Total
- Today
- Yesterday
- t5
- Python
- 파이썬
- 오블완
- classification
- 리스트
- 티스토리챌린지
- 손실함수
- Numpy
- clustering
- Github
- Lora
- LLM
- RAG
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- PEFT
- cnn
- speaking
- recursion #재귀 #자료구조 # 알고리즘
- nlp
- English
- 코딩테스트
- Array
- 해시
- Hugging Face
- git
- Transformer
- LIST
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |