Table of Contents
이진분류Binary Classification/ 로지스틱 회귀Logistic Regression/ 이진 크로스엔트로피 손실 함수Binary Cross-Entropy Loss Function
꼬꼬마코더 2024. 4. 25. 19:53이진분류는 트레이닝 데이터의 특성과 그들간의 상관관계를 분석하여, 임의의 입력데이터를 사전에 정의된 두 가지 범주중 하나로 분류할 수 있는 예측모델을 만드는 과정
- 이메일 스팸 분류, Spam(1) 또는 Ham(0)
- 금융 사기 탐지, 사기 거래(1) 또는 정상 거래(0)
- 의료 진단, 암 조직(1) 또는 정상 조직(0)
로지스틱 회귀 알고리즘은
①트레이닝 데이터의 특성과 분포를 나타내는 최적의 직선을 찾고,
②해당 직선을 기준으로 데이터를 위(1)나 아래(0) 또는 왼쪽(1)이나 오른쪽(0) 등으로 분류하는 방법입니다.
이러한 로지스틱 회귀는 이진분류 시스템의 알고리즘 중에서도 정확도가 높은 알고리즘으로 알려져 있어서 딥러닝에서도기본적인 컴포넌트로 사용되고 있습니다.
로지스틱 회귀 알고리즘을 도식화하면 다음과 같습니다.
로지스틱 회귀 알고리즘에서 시그모이드 함수를 활용하여 이 점이 0에 가까운지 1에 가까운지 구분하게 되요.
시그모이드 함수는 일종의 마술 주문 같은 것이에요. 이 마법은 어떤 숫자를 넣으면, 그 숫자를 0과 1 사이의 숫자로 변신시켜 줘요. 이 마법이 유용한 이유는, 숫자가 아무리 커도, 아무리 작아도, 마법을 걸고 나면 항상 0과 1 사이로 조정되기 때문이에요.
예를 들어보면, 마치 빨간색 불빛이 있을 때 1로 바뀌고, 녹색 불빛이 있을 때 0으로 바뀌는 신호등 같아요. 만약 빨간 불빛이면 "멈춰!"라는 신호로, 녹색 불빛이면 "갈 수 있어!"라는 신호로 바꿔주는 거죠.
이 마법은 특히 컴퓨터가 예를 들어 "이 사진에 고양이가 있을까 없을까?" 같은 질문에 대해 예측할 때 사용돼요. 컴퓨터가 "네, 고양이가 있어요!"라고 확신하는 정도를 0과 1 사이의 숫자로 표현해 준다고 생각하면 돼요. 숫자가 1에 가까우면 고양이가 많이 보이는 거고, 0에 가까우면 고양이가 별로 안 보이는 거예요.
시그모이드 함수의 함수식 표현은 아래와 같으며 0,1 범위의 값으로 변환해줘요. 그리고 시그모이드 함수는 0과 1사이의 값으로 계산되므로 시그모이드 함수의 결과를 확률로 해석할 수도 있어요. 시그모이드 함수 값이 0.72라면, 결과가 나올 확률이 72%임을 의미하는 것이죠.
여기에서도 우리는 손실함수를 최소화해야 해요.
이진 분류에서 사용되는 손실함수 중 하나는 로지스틱 손실 함수라고 불리는데, 이것을 이진 크로스엔트로피 손실 함수라고도 해요. 이 함수는 실제 클래스 레이블과 예측 확률 사이의 차이를 측정하는 데 사용돼요.
이진 분류 문제에서는 결과가 두 가지 경우만 나타나요, 예를 들어 "고양이"(1) 또는 "고양이가 아님"(0). 여기서 로지스틱 손실 함수는 예측이 정확할수록 손실이 낮고, 예측이 틀릴수록 손실이 커지게 됩니다.
손실 함수의 수학적 표현은 다음과 같아요: 𝐿(𝑦,𝑦^)=−[𝑦log(𝑦^)+(1−𝑦)log(1−𝑦^)] 여기서 𝑦는 실제 레이블(0 또는 1), 𝑦^는 예측된 확률을 의미해요. 이 표현식은 실제 레이블이 1인 경우 예측 확률 𝑦^가 1에 가까울수록 손실이 낮아지고, 실제 레이블이 0인 경우 예측 확률 𝑦^가 0에 가까울수록 손실이 낮아지는 것을 보여줘요.
간단히 말해, 이 손실 함수는 예측이 정확하면 벌점을 적게 주고, 예측이 틀리면 많은 벌점을 주어 모델이 더 정확한 예측을 하도록 돕습니다.
'통계' 카테고리의 다른 글
왜도Skewness/ 첨도Kurtosis (0) | 2024.04.26 |
---|---|
변동계수 (0) | 2024.04.26 |
선형회귀 Linear Regression / 손실함수 Loss function (0) | 2024.04.25 |
상관분석 Correlation Analysis (0) | 2024.04.25 |
이원분산분석 Two-way ANOVA/ 상호작용 효과 Interaction effect (0) | 2024.04.25 |
- Total
- Today
- Yesterday
- Github
- LLM
- git
- 코딩테스트
- Hugging Face
- 리스트
- RAG
- Transformer
- t5
- 손실함수
- PEFT
- 해시
- clustering
- cnn
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- classification
- Lora
- Python
- LIST
- Array
- Numpy
- 오블완
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- recursion #재귀 #자료구조 # 알고리즘
- nlp
- English
- 파이썬
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- speaking
- 티스토리챌린지
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |