문과생CS정복기

map함수 모든 값에 특정 함수를 적용시키기

Python에서 map 함수는 주로 시퀀스의 모든 항목에 함수를 적용하여 결과를 반환하는 데 사용됩니다. 이 함수는 두 가지 주요 매개변수를 받습니다: 하나는 적용할 함수이고, 다른 하나는 이 함수가 적용될 하나 이상의 이터러블(리스트, 튜플 등)입니다.map 함수의 기본 구조는 다음과 같습니다:map(function, iterable, ...)function: 각 요소에 적용할 함수입니다. 이 함수는 한 개의 입력을 받고 결과를 반환해야 합니다.iterable: 함수가 적용될 데이터를 포함하고 있는 이터러블 객체입니다. 여러 이터러블을 전달할 수도 있으며, 이 경우 함수는 해당 이터러블들의 요소를 차례대로 인자로 받습니다.map 함수는 결과를 직접 리스트나 다른 형태로 반환하지 않습니다. 대신, map..

Python 2024. 4. 28. 11:14

list를 활용한 함수

Python의 `list` 객체에는 여러 내장 함수가 있어서, 리스트와 관련된 다양한 작업을 수행할 수 있습니다. 여기에 `list`에서 바로 사용할 수 있는 몇 가지 유용한 메소드를 소개합니다:1. **`append(x)`** - 리스트의 끝에 새로운 항목 `x`를 추가합니다.2. **`extend(iterable)`** - 리스트 끝에 반복 가능한 `iterable`의 모든 항목을 추가합니다.3. **`insert(i, x)`** - 지정된 위치 `i`에 항목 `x`를 삽입합니다.4. **`remove(x)`** - 리스트에서 첫 번째로 나오는 `x`를 삭제합니다. `x`가 리스트에 없으면 오류를 발생시킵니다.5. **`pop([i])`** - 지정된 위치 `i`의 항목을 리스트에서 제거하고 그 항목..

Python 2024. 4. 28. 11:09

선형회귀Linear Regression /다중선형회귀Multiple Linear Regression

기본 개념오차(Error): 실제 값에서 예측 값(y_true - y_pred)을 뺀 값입니다. 모델이 예측한 값(모집단의 회귀식에서 얻은 값)과 실제 데이터 사이의 차이를 의미합니다. 일반적으로 모델의 성능을 평가할 때 사용되며, 모델이 데이터를 얼마나 잘 예측하는지를 나타냅니다. 이상적인 경우 오차는 0에 가깝습니다. 실제 데이터 생성 과정에서 발생하는 불확실성을 의미하며, 모델이 잡아낼 수 없는 데이터의 실제 변동성을 포함합니다. 오차는 주로 이론적이며 관측 불가능하다는 점에서 잔차와 다릅니다. 잔차(Residual): 통계 모델이나 머신러닝에서 관측된 값과 모델에 의해 예측된 값 사이의 차이 (표의 회귀식에서 얻은 값) 입니다. 모든 데이터 포인트에 대한 잔차의 분포를 분석함으로써 모델의 적합성..

통계 2024. 4. 26. 14:28

왜도Skewness/ 첨도Kurtosis

왜도skewness데이터의 분포가 얼마나 비대칭인지 알기 위해 우리는 왜도skewness라는 표현을 씁니다. 그래프의 꼬리라고 생각하면 됩니다. 왜도값은 -1~+1까지입니다. 비대칭이 커질수록 왜도의 절대값은 커집니다.왜도값 양수: 평균>중앙값: 평균>중앙값>최빈값인 경우가 많다, positively skewed, right-skewed, 오른쪽으로 긍정적인 방향으로 긴 꼬리를 가지고 있다고 표현합니다. 왜도값 음수: 평균 평균중앙값 negatively skewed, left-skewed, 왼쪽으로 부적인 방향으로 긴 꼬리를 가지고 있다고 표현합니다.왜도값 0: 평균==중앙값(비슷한 경향), 평균=중앙값=최빈값인 경우가 많습니다. 첨도(Kurtosis)첨도(Kurtosis)는 데이터 분포의 뾰족한 정..

통계 2024. 4. 26. 12:06

변동계수

변동계수 = 표준편차 / 평균상대적으로 얼마나 많은 변동이 있는지 알기 위해 씁니다.A회사 평균매출액은 100억 B회사 평균매출액은 40억입니다. 여기서 각 회사 매출액의 변동은 얼마나 클까요?분산은 편차의 제곱의 평균값 표준편차는 분산을 제곱근 한 값입니다.여기서 A회사 평균매출액 표준편차는 12 B회사는 2라고 합시다.어느 회사가 연매출 변동이 클까요?A회사 = 12/ 100억 = 0.12B회사 = 2/ 40억 = 0.05A회사가 B회사보다 연매출변동이 큰 것을 알 수 있습니다.

통계 2024. 4. 26. 11:19

이진분류Binary Classification/ 로지스틱 회귀Logistic Regression/ 이진 크로스엔트로피 손실 함수Binary Cross-Entropy Loss Function

이진분류는 트레이닝 데이터의 특성과 그들간의 상관관계를 분석하여, 임의의 입력데이터를 사전에 정의된 두 가지 범주중 하나로 분류할 수 있는 예측모델을 만드는 과정이메일 스팸 분류, Spam(1) 또는 Ham(0)금융 사기 탐지, 사기 거래(1) 또는 정상 거래(0)의료 진단, 암 조직(1) 또는 정상 조직(0) 로지스틱 회귀 알고리즘은①트레이닝 데이터의 특성과 분포를 나타내는 최적의 직선을 찾고,②해당 직선을 기준으로 데이터를 위(1)나 아래(0) 또는 왼쪽(1)이나 오른쪽(0) 등으로 분류하는 방법입니다.이러한 로지스틱 회귀는 이진분류 시스템의 알고리즘 중에서도 정확도가 높은 알고리즘으로 알려져 있어서 딥러닝에서도기본적인 컴포넌트로 사용되고 있습니다. 로지스틱 회귀 알고리즘을 도식화하면 다음과 같습니..

통계 2024. 4. 25. 19:53

선형회귀 Linear Regression / 손실함수 Loss function

선형회귀는 트레이닝 데이터를 사용하여 데이터의 특성과 상관관계를 분석하고, 이를 기반으로 모델을 학습시켜, 트레이닝데이터에 포함되지 않은 새로운 데이터에 대한 결과를 연속적인 숫자값으로 예측하는 과정입니다.부동산 가격 예측: 주택의 평균 방 개수(feature), 주택의 가격(target)임금 결정: 경력(feature), 특정 직원의 예상임금(target)선형회귀시스템에서의 학습이란 트레이닝 데이터의 분석을 통해 데이터의 분포를 가장 잘 표현하는 선형관계를 나타내는일차함수의 가중치𝑾와 바이어스𝒃를 찾아가는 과정입니다.여기에서 중요한 것은 직선 𝒚 = 𝑾𝒙 + 𝒃 함수의 계산 값 𝒚와 정답 𝒕의 차이(오차)를 최대한 작게 만드는 것입니다. 주어진 트레이닝 데이터를 바탕으로 오차들의 합, 즉..

통계 2024. 4. 25. 17:35

상관분석 Correlation Analysis

ANOVA가 그룹 간의 평균 차이를 분석하는 데 중점을 두는 반면, 상관분석은 변수들 사이의 어느 정도의 선형적 관계가 있는지 파악하는 데 초점을 맞춥니다. 다음은 한 반의 학생 20명의 수학과 과학 점수를 조사한 것입니다.import matplotlib.pyplot as pltimport numpy as npimport scipy as spx = [90, 64, 94, 57, 82, 92, 84, 72, 52, 86, 73, 82, 78, 68, 54, 92, 65, 76, 83, 95]y = [86, 65, 89, 62, 74, 64, 98, 85, 62, 84, 84, 83, 59, 64, 55, 95, 70, 72, 88, 93]plt.scatter(x, y, color='b', s=20)plt...

통계 2024. 4. 25. 15:31

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

티스토리툴바