'통계' 카테고리의 글 목록

선형회귀Linear Regression /다중선형회귀Multiple Linear Regression

기본 개념오차(Error): 실제 값에서 예측 값(y_true - y_pred)을 뺀 값입니다. 모델이 예측한 값(모집단의 회귀식에서 얻은 값)과 실제 데이터 사이의 차이를 의미합니다. 일반적으로 모델의 성능을 평가할 때 사용되며, 모델이 데이터를 얼마나 잘 예측하는지를 나타냅니다. 이상적인 경우 오차는 0에 가깝습니다. 실제 데이터 생성 과정에서 발생하는 불확실성을 의미하며, 모델이 잡아낼 수 없는 데이터의 실제 변동성을 포함합니다. 오차는 주로 이론적이며 관측 불가능하다는 점에서 잔차와 다릅니다. 잔차(Residual): 통계 모델이나 머신러닝에서 관측된 값과 모델에 의해 예측된 값 사이의 차이 (표의 회귀식에서 얻은 값) 입니다. 모든 데이터 포인트에 대한 잔차의 분포를 분석함으로써 모델의 적합성..

통계 2024. 4. 26. 14:28

왜도Skewness/ 첨도Kurtosis

왜도skewness데이터의 분포가 얼마나 비대칭인지 알기 위해 우리는 왜도skewness라는 표현을 씁니다. 그래프의 꼬리라고 생각하면 됩니다. 왜도값은 -1~+1까지입니다. 비대칭이 커질수록 왜도의 절대값은 커집니다.왜도값 양수: 평균>중앙값: 평균>중앙값>최빈값인 경우가 많다, positively skewed, right-skewed, 오른쪽으로 긍정적인 방향으로 긴 꼬리를 가지고 있다고 표현합니다. 왜도값 음수: 평균 평균중앙값 negatively skewed, left-skewed, 왼쪽으로 부적인 방향으로 긴 꼬리를 가지고 있다고 표현합니다.왜도값 0: 평균==중앙값(비슷한 경향), 평균=중앙값=최빈값인 경우가 많습니다. 첨도(Kurtosis)첨도(Kurtosis)는 데이터 분포의 뾰족한 정..

통계 2024. 4. 26. 12:06

변동계수

변동계수 = 표준편차 / 평균상대적으로 얼마나 많은 변동이 있는지 알기 위해 씁니다.A회사 평균매출액은 100억 B회사 평균매출액은 40억입니다. 여기서 각 회사 매출액의 변동은 얼마나 클까요?분산은 편차의 제곱의 평균값 표준편차는 분산을 제곱근 한 값입니다.여기서 A회사 평균매출액 표준편차는 12 B회사는 2라고 합시다.어느 회사가 연매출 변동이 클까요?A회사 = 12/ 100억 = 0.12B회사 = 2/ 40억 = 0.05A회사가 B회사보다 연매출변동이 큰 것을 알 수 있습니다.

통계 2024. 4. 26. 11:19

이진분류Binary Classification/ 로지스틱 회귀Logistic Regression/ 이진 크로스엔트로피 손실 함수Binary Cross-Entropy Loss Function

이진분류는 트레이닝 데이터의 특성과 그들간의 상관관계를 분석하여, 임의의 입력데이터를 사전에 정의된 두 가지 범주중 하나로 분류할 수 있는 예측모델을 만드는 과정이메일 스팸 분류, Spam(1) 또는 Ham(0)금융 사기 탐지, 사기 거래(1) 또는 정상 거래(0)의료 진단, 암 조직(1) 또는 정상 조직(0) 로지스틱 회귀 알고리즘은①트레이닝 데이터의 특성과 분포를 나타내는 최적의 직선을 찾고,②해당 직선을 기준으로 데이터를 위(1)나 아래(0) 또는 왼쪽(1)이나 오른쪽(0) 등으로 분류하는 방법입니다.이러한 로지스틱 회귀는 이진분류 시스템의 알고리즘 중에서도 정확도가 높은 알고리즘으로 알려져 있어서 딥러닝에서도기본적인 컴포넌트로 사용되고 있습니다. 로지스틱 회귀 알고리즘을 도식화하면 다음과 같습니..

통계 2024. 4. 25. 19:53

선형회귀 Linear Regression / 손실함수 Loss function

선형회귀는 트레이닝 데이터를 사용하여 데이터의 특성과 상관관계를 분석하고, 이를 기반으로 모델을 학습시켜, 트레이닝데이터에 포함되지 않은 새로운 데이터에 대한 결과를 연속적인 숫자값으로 예측하는 과정입니다.부동산 가격 예측: 주택의 평균 방 개수(feature), 주택의 가격(target)임금 결정: 경력(feature), 특정 직원의 예상임금(target)선형회귀시스템에서의 학습이란 트레이닝 데이터의 분석을 통해 데이터의 분포를 가장 잘 표현하는 선형관계를 나타내는일차함수의 가중치𝑾와 바이어스𝒃를 찾아가는 과정입니다.여기에서 중요한 것은 직선 𝒚 = 𝑾𝒙 + 𝒃 함수의 계산 값 𝒚와 정답 𝒕의 차이(오차)를 최대한 작게 만드는 것입니다. 주어진 트레이닝 데이터를 바탕으로 오차들의 합, 즉..

통계 2024. 4. 25. 17:35

상관분석 Correlation Analysis

ANOVA가 그룹 간의 평균 차이를 분석하는 데 중점을 두는 반면, 상관분석은 변수들 사이의 어느 정도의 선형적 관계가 있는지 파악하는 데 초점을 맞춥니다. 다음은 한 반의 학생 20명의 수학과 과학 점수를 조사한 것입니다.import matplotlib.pyplot as pltimport numpy as npimport scipy as spx = [90, 64, 94, 57, 82, 92, 84, 72, 52, 86, 73, 82, 78, 68, 54, 92, 65, 76, 83, 95]y = [86, 65, 89, 62, 74, 64, 98, 85, 62, 84, 84, 83, 59, 64, 55, 95, 70, 72, 88, 93]plt.scatter(x, y, color='b', s=20)plt...

통계 2024. 4. 25. 15:31

이원분산분석 Two-way ANOVA/ 상호작용 효과 Interaction effect

이원분산분석두가지 기준이 되는 요인으로 비교하고자 하는 변수의 평균 차이가 집단 간에 존재하는지를 조사하는 것입니다. 즉,요인이 2개일때, 분산의 원인이 어디에 있는지를 밝힘으로써 요인에 영향이 있는가를 알 수 있습니다.술의 종류와 흡연 여부가 인간의 반응 시간에 미치는 영향교수법과 보상방법이 학업성취도에 미치는 영향편의점브랜드와 상권이 만족도에 미치는 영향 상호작용 효과이원분산분석이 일원분산분석과 다른 점은 요인이 두 개라는것입니다. 일원분산분석에서는편의점브랜드에 따른 만족도라는 1:1 요인에 따라 나타나는 측정치에 대해 평균비교를 하지만 이원분산분석에서는 기준이 되는 요인이 두 개이기 때문에 요인이 독립적으로 변수에 미치는 영향의 평균차이를 확인하는 주효과 검정 뿐만 아니라 요인들이 연관되어 변수에 ..

통계 2024. 4. 25. 15:12

일원분산분석 One-Way ANOVA / 사후분석 post-hoc analysis

일원분산분석이란 독립변수가 하나일 때 분산의 원인이 집단 간 차이에 기인한 것인지를 분석하는 통계적 방법인종간 지능의 차이사회계층에 따른 사회에 대한 만족도 차이교수법에 따른 학업 성취의 차이 예시: 편의점 종류에 따라 고객의 만족도에 차이가 있을까?귀무가설:편의점 종류에 따른 고객의 만족도에는 차이가 없다.대립가설:편의점 종류에 따른 고객의 만족도에는 차이가 있다. 다음 코드를 통해 ANOVA분석을 실행해보자.import scipy as spimport numpy as npimport pingouin as pg# 데이터 생성data = { 'store': [1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3], ..

통계 2024. 4. 25. 12:34

문과생CS정복기

티스토리툴바

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31