CS-Sprint 1

cs-sprint1

Jetzt loslegen. Gratis!
oder registrieren mit Ihrer E-Mail-Adresse
CS-Sprint 1 von Mind Map: CS-Sprint 1

1. Linear Algebra

1.1. vector

1.1.1. 두 벡터를 더한 것은 두 벡터를 원점과 연결한 것과 같다

1.1.2. 벡터의 곱셈은 행렬의 곱셈과 같다

1.1.2.1. matmul

1.1.2.2. dot

1.1.2.2.1. 내적값(각 요소들끼리의 곱 더하기)

1.2. array

1.2.1. dimension

1.3. metrix

1.3.1. 역행렬

1.3.2. eye, diagonal

1.4. Regression

1.4.1. projection

1.4.1.1. 데이터셋의 분산을 유지하면서 차원을 줄이는 것

1.4.1.1.1. cov(데이터의 분산이 어떤 방향으로 있는지)

1.4.1.1.2. corr (연결계수)

1.5. PCA

1.5.1. 차원축소

1.6. clustering

1.6.1. K-means

1.6.1.1. flat

1.6.1.2. centeroid(중심점)

1.6.2. hierarchical

1.7. 정규화

1.7.1. StandardScaler

1.7.1.1. (obs-mean)/std

1.7.1.1.1. Z-distribution

1.7.2. Min-Max

1.8. 보다 array 사용 권장

1.9. det=0

1.9.1. 역행렬 없음

1.9.1.1. 선형종속

1.9.1.1.1. 차원축소 가능

1.9.1.1.2. rank가 줄어듬

1.10. span

1.10.1. 벡터들끼리 만들 수 있는 공간

1.11. basis

1.11.1. 공간을 이루는 모든 벡터들

2. pandas

2.1. groupby

2.2. tidy

2.2.1. pivot-table

2.2.1.1. agg(sum, mean)

2.2.2. melt

2.2.2.1. crosstab

2.2.2.1.1. count

2.2.2.2. reset_index()

2.3. one hot encoding

2.3.1. categorical data -> 0,0,1

2.4. filter

2.4.1. df[df.isin]

2.4.2. df[~df.isin]

2.5. concat

2.5.1. axis

2.6. merge

2.6.1. inner

2.6.2. outer

2.6.3. on (기준점)

3. heatmap

3.1. feature간의 연관성 시각화

4. 머신러닝

4.1. 지도학습

4.1.1. label(정답) 제공

4.1.1.1. 주식가격예측

4.2. 비지도학습

4.2.1. 라벨 제공 x

4.2.1.1. 클러스터링

4.2.1.1.1. 사진으로 객체 분류

4.3. 보상학습

4.3.1. 알파고

5. EDA

5.1. 시각화

5.1.1. pd.plot

5.1.1.1. 빠르게 시각화 가능.

5.1.2. matplotlib

5.1.2.1. 커스텀할 수 있음

5.1.3. seaborn

5.1.3.1. hue

5.1.3.1.1. 특정 feature에 색깔 다르게 해서 시각화

5.1.3.2. Facet

5.1.3.2.1. 특정 feature 대해서 그래프 분리해서 비교

5.1.4. plotly

5.1.4.1. 반응형. 확대, 애니메이션 가능.

5.1.5. 목표와 가설을 세우는 게 중요.

5.2. 전처리

5.2.1. null, na, NaN, 0

5.2.1.1. isna

5.2.1.2. isnull

5.2.1.3. fillna(0)

5.2.2. Categorical Data

5.2.2.1. object

5.2.3. Continuous Data

5.2.3.1. numeric

5.2.3.1.1. describe()

5.2.4. 형변환

5.2.4.1. apply

5.2.4.2. astype()

5.2.4.3. pd.to_numeric

5.2.5. replace(a,b)

5.3. 도메인 지식

5.3.1. 원래 잘 아는 분야의 지식

6. Statistics

6.1. Frequentist

6.1.1. 평균 비교

6.1.1.1. 한 집단의 평균과 특정값 비교

6.1.1.1.1. one-sample t-test

6.1.1.2. 두 집단의 평균 비교

6.1.1.2.1. two-sample t-test

6.1.1.3. 3개 집단 이상 평균 비교, 일원분산

6.1.1.3.1. Anova

6.1.2. 분산 비교

6.1.2.1. One Sample Chi-Square Test

6.1.3. 연관성, 독립성 확인

6.1.3.1. Two-Sample Chi-Square Test

6.1.3.2. Two-Sample Chi-Square Test

6.1.4. Confidence level

6.1.4.1. 0.95

6.1.4.2. 모수가 표본집단에 95% 확률로 존재

6.1.5. Confidence Interval

6.1.5.1. mean += interval

6.1.5.1.1. 신뢰구간이 넓을수록 예측 정확하지 않음

6.1.6. Standard Error

6.1.6.1. 표본을 뽑을 때마다 값이 달라져 생기는 분산 차이(분포 차이?)

6.1.7. t-distribution

6.1.7.1. 샘플의 크기가 작을 때, 샘플이 클 수록 정규 분포를 따름

6.1.7.2. 큰 수의 법칙

6.1.8. z-distributin

6.1.8.1. 중심극한정리 CLT

6.1.8.1.1. 표본집단의 수가 커질수록 z-분포를 따른다

6.1.8.2. 정규 분포

6.1.8.2.1. poission, 베르누이...

6.2. Beyesian

6.2.1. 조건부확률

6.2.2. tp/tp+fp

6.2.2.1. 양성예측도