기본 개념오차(Error): 실제 값에서 예측 값(y_true - y_pred)을 뺀 값입니다. 모델이 예측한 값(모집단의 회귀식에서 얻은 값)과 실제 데이터 사이의 차이를 의미합니다. 일반적으로 모델의 성능을 평가할 때 사용되며, 모델이 데이터를 얼마나 잘 예측하는지를 나타냅니다. 이상적인 경우 오차는 0에 가깝습니다. 실제 데이터 생성 과정에서 발생하는 불확실성을 의미하며, 모델이 잡아낼 수 없는 데이터의 실제 변동성을 포함합니다. 오차는 주로 이론적이며 관측 불가능하다는 점에서 잔차와 다릅니다. 잔차(Residual): 통계 모델이나 머신러닝에서 관측된 값과 모델에 의해 예측된 값 사이의 차이 (표의 회귀식에서 얻은 값) 입니다. 모든 데이터 포인트에 대한 잔차의 분포를 분석함으로써 모델의 적합성..
왜도skewness데이터의 분포가 얼마나 비대칭인지 알기 위해 우리는 왜도skewness라는 표현을 씁니다. 그래프의 꼬리라고 생각하면 됩니다. 왜도값은 -1~+1까지입니다. 비대칭이 커질수록 왜도의 절대값은 커집니다.왜도값 양수: 평균>중앙값: 평균>중앙값>최빈값인 경우가 많다, positively skewed, right-skewed, 오른쪽으로 긍정적인 방향으로 긴 꼬리를 가지고 있다고 표현합니다. 왜도값 음수: 평균 평균중앙값 negatively skewed, left-skewed, 왼쪽으로 부적인 방향으로 긴 꼬리를 가지고 있다고 표현합니다.왜도값 0: 평균==중앙값(비슷한 경향), 평균=중앙값=최빈값인 경우가 많습니다. 첨도(Kurtosis)첨도(Kurtosis)는 데이터 분포의 뾰족한 정..
이진분류는 트레이닝 데이터의 특성과 그들간의 상관관계를 분석하여, 임의의 입력데이터를 사전에 정의된 두 가지 범주중 하나로 분류할 수 있는 예측모델을 만드는 과정이메일 스팸 분류, Spam(1) 또는 Ham(0)금융 사기 탐지, 사기 거래(1) 또는 정상 거래(0)의료 진단, 암 조직(1) 또는 정상 조직(0) 로지스틱 회귀 알고리즘은①트레이닝 데이터의 특성과 분포를 나타내는 최적의 직선을 찾고,②해당 직선을 기준으로 데이터를 위(1)나 아래(0) 또는 왼쪽(1)이나 오른쪽(0) 등으로 분류하는 방법입니다.이러한 로지스틱 회귀는 이진분류 시스템의 알고리즘 중에서도 정확도가 높은 알고리즘으로 알려져 있어서 딥러닝에서도기본적인 컴포넌트로 사용되고 있습니다. 로지스틱 회귀 알고리즘을 도식화하면 다음과 같습니..
선형회귀는 트레이닝 데이터를 사용하여 데이터의 특성과 상관관계를 분석하고, 이를 기반으로 모델을 학습시켜, 트레이닝데이터에 포함되지 않은 새로운 데이터에 대한 결과를 연속적인 숫자값으로 예측하는 과정입니다.부동산 가격 예측: 주택의 평균 방 개수(feature), 주택의 가격(target)임금 결정: 경력(feature), 특정 직원의 예상임금(target)선형회귀시스템에서의 학습이란 트레이닝 데이터의 분석을 통해 데이터의 분포를 가장 잘 표현하는 선형관계를 나타내는일차함수의 가중치𝑾와 바이어스𝒃를 찾아가는 과정입니다.여기에서 중요한 것은 직선 𝒚 = 𝑾𝒙 + 𝒃 함수의 계산 값 𝒚와 정답 𝒕의 차이(오차)를 최대한 작게 만드는 것입니다. 주어진 트레이닝 데이터를 바탕으로 오차들의 합, 즉..
ANOVA가 그룹 간의 평균 차이를 분석하는 데 중점을 두는 반면, 상관분석은 변수들 사이의 어느 정도의 선형적 관계가 있는지 파악하는 데 초점을 맞춥니다. 다음은 한 반의 학생 20명의 수학과 과학 점수를 조사한 것입니다.import matplotlib.pyplot as pltimport numpy as npimport scipy as spx = [90, 64, 94, 57, 82, 92, 84, 72, 52, 86, 73, 82, 78, 68, 54, 92, 65, 76, 83, 95]y = [86, 65, 89, 62, 74, 64, 98, 85, 62, 84, 84, 83, 59, 64, 55, 95, 70, 72, 88, 93]plt.scatter(x, y, color='b', s=20)plt...
이원분산분석두가지 기준이 되는 요인으로 비교하고자 하는 변수의 평균 차이가 집단 간에 존재하는지를 조사하는 것입니다. 즉,요인이 2개일때, 분산의 원인이 어디에 있는지를 밝힘으로써 요인에 영향이 있는가를 알 수 있습니다.술의 종류와 흡연 여부가 인간의 반응 시간에 미치는 영향교수법과 보상방법이 학업성취도에 미치는 영향편의점브랜드와 상권이 만족도에 미치는 영향 상호작용 효과이원분산분석이 일원분산분석과 다른 점은 요인이 두 개라는것입니다. 일원분산분석에서는편의점브랜드에 따른 만족도라는 1:1 요인에 따라 나타나는 측정치에 대해 평균비교를 하지만 이원분산분석에서는 기준이 되는 요인이 두 개이기 때문에 요인이 독립적으로 변수에 미치는 영향의 평균차이를 확인하는 주효과 검정 뿐만 아니라 요인들이 연관되어 변수에 ..
일원분산분석이란 독립변수가 하나일 때 분산의 원인이 집단 간 차이에 기인한 것인지를 분석하는 통계적 방법인종간 지능의 차이사회계층에 따른 사회에 대한 만족도 차이교수법에 따른 학업 성취의 차이 예시: 편의점 종류에 따라 고객의 만족도에 차이가 있을까?귀무가설:편의점 종류에 따른 고객의 만족도에는 차이가 없다.대립가설:편의점 종류에 따른 고객의 만족도에는 차이가 있다. 다음 코드를 통해 ANOVA분석을 실행해보자.import scipy as spimport numpy as npimport pingouin as pg# 데이터 생성data = { 'store': [1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3], ..
- Total
- Today
- Yesterday
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- cnn
- Lora
- speaking
- Array
- nlp
- clustering
- Numpy
- 리스트
- 해시
- Transformer
- classification
- Python
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- PEFT
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- 오블완
- Github
- t5
- LIST
- Hugging Face
- LLM
- 티스토리챌린지
- git
- 파이썬
- recursion #재귀 #자료구조 # 알고리즘
- English
- RAG
- 코딩테스트
- 손실함수
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |