차원의 저주 Curse of Dimensionality"차원의 저주(Curse of Dimensionality)"는 고차원 데이터에서 발생하는 다양한 문제들을 설명하는 용어입니다. 차원의 저주가 발생하는 이유는 데이터의 차원이 증가함에 따라 데이터가 점점 희소해지고, 분석 및 모델링의 어려움이 증가하기 때문입니다. 차원의 저주가 발생하는 주요 문제와 그 해결 방법에 대해 자세히 설명하겠습니다.차원의 저주의 주요 문제데이터 희소성고차원 공간에서 데이터 포인트는 매우 희소하게 분포합니다. 이는 대부분의 공간이 비어 있고, 데이터 포인트 간의 거리가 멀어지는 결과를 초래합니다.예를 들어, 1차원 공간에서 10개의 데이터 포인트는 10개의 구간으로 나뉘지만, 10차원 공간에서는 10^10개의 구간으로 나뉘게 되..
데이터 어노테이션(data annotation)은 머신러닝 모델을 훈련시키기 위해 데이터셋에 라벨(주석)을 다는 과정을 말합니다. 이 과정은 모델이 학습할 수 있는 고품질 데이터를 생성하는 데 매우 중요합니다. 데이터 어노테이션 가이드는 일관되고 정확한 라벨링을 보장하기 위해 어노테이터(annotation 작업자)들에게 제공되는 지침서입니다.데이터 어노테이션의 중요성모델 성능 향상: 정확한 라벨링은 머신러닝 모델이 더 나은 성능을 발휘할 수 있도록 도와줍니다.일관성 유지: 여러 명의 어노테이터가 동일한 기준을 사용하여 라벨링함으로써 데이터셋의 일관성을 유지할 수 있습니다.오류 감소: 명확한 지침은 어노테이션 오류를 줄이고 데이터 품질을 높입니다.데이터 어노테이션 가이드의 주요 요소프로젝트 개요목적: 어노..
로지스틱 회귀(Logistic Regression)는 이진 분류 문제에 사용되는 통계적 방법입니다. 이 방법은 두 가지 가능한 결과 중 하나를 예측하는 데 목적이 있습니다. 로지스틱 회귀는 종속 변수가 범주형이며 이진(즉, 0과 1의 두 가지 값만 가질 수 있음)일 때 사용됩니다.로지스틱 회귀의 개념과 목적이진 분류: 로지스틱 회귀는 데이터를 두 개의 클래스 중 하나로 분류하는 데 사용됩니다 (예: 성공/실패, 예/아니오, 스팸/정상).확률 예측: 특정 입력이 특정 클래스에 속할 확률을 예측합니다. 출력은 0과 1 사이의 확률 값입니다.로지스틱 함수 (시그모이드 함수)로지스틱 회귀 모델은 예측 값을 확률로 변환하기 위해 로지스틱 함수(시그모이드 함수)를 사용합니다.시그모이드 함수는 다음과 같이 정의됩니다..
클러스터링은 비지도 학습이기 때문에 정답이 없습니다. 따라서 레이블(정답)을 활용한 기존의 external evaluation 는 평가지표로 활용하는 것은 맞지 않습니다. 또한 cluster내의 공간에 대해 평가하는 internal evaluation 역시 평가지표를 활용하기 어렵습니다. cluster들의 떨어진 정도를 비교하는 relative 방식을 주로 활용하여 measure를 찾고 elbow point를 찾는 것이 중요합니다. External Evaluation Metrics (외부 평가 지표) : 외부 평가 지표는 클러스터링 결과를 사전에 알려진 레이블(정답)과 비교하여 평가합니다. 여기서의 레이블이라는 것은 룰베이스, 인간의 판단이라고 보시면 됩니다. 이를 통해 클러스터링이 실제 레이블과 얼마나..
클러스터링 평가지표는 클러스터링 알고리즘이 생성한 클러스터의 품질을 평가하는 데 사용됩니다. 이 지표들은 주로 내부 평가 지표와 외부 평가 지표로 나뉩니다.내부 평가 지표 (Internal Evaluation Metrics)내부 평가 지표는 클러스터의 품질을 데이터 자체의 특성을 기반으로 평가합니다. 이는 외부 레이블이 없는 경우에도 사용할 수 있습니다.Silhouette Score (실루엣 점수)각 데이터 포인트의 실루엣 계수는 해당 포인트가 속한 클러스터 내의 응집도와 다른 클러스터 간의 분리도를 기반으로 계산됩니다.실루엣 계수는 -1에서 1 사이의 값을 가지며, 값이 클수록 클러스터링이 잘 된 것을 의미합니다.1에 가까울수록 데이터 포인트가 잘 맞는 클러스터에 속해 있고, 다른 클러스터와 잘 분리되..
클러스터링(Clustering)은 데이터 분석에서 데이터를 비슷한 특성을 가진 그룹으로 나누는 비지도 학습(Unsupervised Learning)의 한 기법입니다. 클러스터링은 데이터 세트 내의 패턴을 발견하고, 이를 통해 데이터를 이해하거나 유용한 정보를 추출하는 데 사용됩니다. 클러스터링은 다양한 분야에서 활용될 수 있으며, 몇 가지 대표적인 알고리즘이 있습니다. 아래에서는 클러스터링의 개념, 주요 알고리즘, 그리고 각 알고리즘의 장단점에 대해 자세히 설명하겠습니다.클러스터링의 개념클러스터링은 데이터 포인트를 유사한 특성을 가진 그룹(클러스터)으로 묶는 과정입니다. 각 클러스터 내의 데이터 포인트는 서로 유사성이 높으며, 다른 클러스터의 데이터 포인트와는 유사성이 낮습니다. 클러스터링은 다음과 같은..
블랙박스 모델모델이 explainability도 높고 performance도 높으면 좋지만 explainability는 낮은데 performance만 좋은 경우들이 있습니다. 이런 경우를 우리는 모델이 블랙박스다 라고 표현합니다.모델이 블랙박스라는 뜻은 그 모델의 내부 작동 방식이 불투명하거나 이해하기 어렵다는 의미입니다. 주로 인공지능이나 머신러닝 모델에 대해 사용되는 용어로, 입력과 출력 사이의 관계는 알 수 있지만, 그 과정이 어떻게 이루어지는지는 명확하지 않거나 설명하기 어렵다는 점을 강조합니다.블랙박스 모델은 다음과 같은 특징이 있습니다:불투명성: 모델이 예측을 어떻게 하는지 내부 구조나 과정을 이해하기 어렵습니다.복잡성: 모델이 매우 복잡해서 사람이 일일이 분석하기 어려운 경우가 많습니다. 예..
Gradient Boosting Machine (GBM), XGBoost, LightGBM, CatBoost, NGBoost는 모두 Gradient Boosting 알고리즘에 기반한 앙상블 학습 방법입니다. 이들 알고리즘은 각각 고유한 최적화 및 특성을 가지고 있어 다양한 데이터와 문제 유형에 대해 탁월한 성능을 발휘합니다. 각 알고리즘의 원리와 특징을 자세히 설명하겠습니다.1. Gradient Boosting Machine (GBM)원리GBM은 여러 개의 약한 학습기(주로 결정 트리)를 순차적으로 학습시켜 강한 학습기를 만드는 방법입니다. 각 단계에서 새로운 약한 학습기는 이전 모델의 잔차(residual)를 예측하여 모델의 성능을 향상시킵니다. 모델의 예측은 모든 약한 학습기의 예측을 합산하여 이루어..
- Total
- Today
- Yesterday
- Python
- cnn
- 코딩테스트
- t5
- Array
- recursion #재귀 #자료구조 # 알고리즘
- Numpy
- Lora
- English
- 손실함수
- LLM
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- LIST
- 리스트
- git
- Github
- Transformer
- Hugging Face
- nlp
- clustering
- 해시
- speaking
- PEFT
- RAG
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- 오블완
- 티스토리챌린지
- 파이썬
- classification
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |