1. Statistics
1.1. Continuous
1.1.1. 평균에 대한 차이 검증
1.1.2. t-test
1.1.2.1. one sample
1.1.2.1.1. 특정 점수와 비교
1.1.2.2. two sample
1.1.2.2.1. 독립집단
1.1.2.2.2. 반복측정
1.1.3. f-test
1.1.3.1. 세집단 이상일 경우
1.1.3.2. one-way anova
1.1.3.3. two-way anova
1.2. Categorical
1.2.1. Chi square test
1.2.1.1. 적합도 goodness of fit test
1.2.1.1.1. 관찰된 비율값이 기대값과 같은가
1.2.1.2. 동질성 test of homogenity
1.2.1.2.1. 두 집단의 분포가 동질한가?
1.2.1.3. 독립성 test for independence
1.2.1.3.1. Contingency table에서 두 개 이상의 변수가 서로 독립인지 검증 two-way라고 할 수 있음
1.3. Confidence interval - 신뢰구간
1.3.1. 표본을 무수히 많이 뽑고 신뢰구간을 구했을 때, 그중 95%는 모수 세타를 포함하고, 나머지는 포함하지 않을 것.
1.4. 중심극한정리
1.4.1. 모집단으로부터 추출한 표본의 크기가 충분히 크다면, 표본평균들이 이루는 분포는 정규분포를 따른다.
1.5. Bayse 이론
1.5.1. 사전정보 'prior'를 통해 사후확률을 업데이트 해 가는 방법
1.6. Degree of freedom
1.6.1. 불편추정량(bias가 0인 추정량)을 만들기 위해서 만들어진 개념
1.6.2. 주어진 조건하에서 통계적 제한을 받지 않고 자유롭게 변화될 수 있는 요소의 수
1.6.3. 해당 parameter를 결정짓기 위한 독립적으로 정해질 수 있는 값의 수.
1.7. FDR
1.7.1. False discovery rate 의 개념
2. Linear Algebra
2.1. 개념
2.1.1. Linear combinations
2.1.1.1. Span
2.1.1.1.1. 주어진 벡터의 조합으로(선형조합)으로 만들 수 있는 모든 벡터의 집합
2.1.1.2. 선형 - independence
2.1.1.3. 선형 - dependence
2.1.1.4. Basis vector
2.1.1.4.1. 벡터 공간을 span하는 선형 독립인 벡터의 집합
2.1.1.4.2. basis vector는 independent
2.1.1.4.3. 공간 전체를 span할 수 있어야 함
2.1.1.5. Gaussian Elimination
2.1.1.5.1. row-Echelon-form으로 바꾸는 계산과정
2.1.2. Projection
2.1.2.1. 차원축소와 관계됨
2.1.2.2. 두 벡터가 있을 때, 한 벡터를 다른 벡터에 그림자처럼 투영
2.1.2.3. 두 벡터의 내적(스칼라)에 단위벡터 곱한다.
2.1.3. Vector / Matrix
2.1.3.1. Dot product
2.1.3.2. Norm
2.1.3.3. Identity matrix
2.1.3.4. Determinant
2.1.3.5. Inverse
2.1.3.5.1. 매트릭스에 역행렬을 곱하면 항상, 단위 매트릭스(identity matrix)가 된다.
2.1.3.5.2. 매트릭스 곱은 있지만 나눗셈이 없기 때문에 중요하다.
2.1.3.5.3. 행렬식(determinant) 이 = 0 이면 안된다.
2.1.3.6. Orthogonality
2.1.3.6.1. 좌표상에 위치한 거의 모든 벡터는 다른 벡터와 작게라도 상관이 있지만
2.1.3.6.2. 수직하는 벡터는 상관이 없다.
2.1.3.6.3. 수직하는 벡터는 내적이 0이다
2.1.3.6.4. orthogonal Basis
2.1.4. eigen value / eigen vector
2.1.4.1. 선형 변환 후에도 원래의 span에서 스칼라 곱만큼 크기만 변화할 뿐, 축이 바뀌지 않는 벡터와 크기
3. 차원축소
3.1. PCA
3.1.1. 원본 데이터의 정보를 최대한 유지하면서 차원을 축소
3.1.1.1. 데이터의 정보 == 결국 분산
3.1.2. Screeplot
3.2. K-mean cluster
3.2.1. 비지도 학습
3.2.2. 데이터의 연관된 feature를 바탕으로 유사그룹을 생성
3.2.3. Elbow method
3.3. Overfitting 문제
4. EDA
4.1. Exploratory Data Analysis
4.1.1. 시각화를 통한 패턴
4.1.2. 데이터의 특이성확인
4.1.2.1. Missing data! padas 기술적인 측면
4.1.3. 시각적 표현 - 가설수립
4.2. Feature Engineering
4.2.1. Feature들의 조합
4.2.2. 데이터 다루기
4.2.2.1. Concat & Merge
4.2.2.1.1. SQL 관계형 DB Join
4.2.2.2. Tydy form
4.2.2.2.1. vs, Wide form
4.2.2.2.2. Tydy는 간단히 1raw 1data point
4.2.3. Type Casting
4.2.3.1. casting에 대한 프로그래밍적 지식 공부
4.3. 시각화
4.3.1. matplotlib
4.3.1.1. seaborn
4.3.2. plotly
4.3.3. bokeh
4.3.3.1. 새로운 도구들에 대한 학습 필요
5. Project
6. Github
6.1. Opensorce
6.1.1. 프로젝트 파일을 여러 사람과 동공 작업
6.2. 버전관리 도구
6.2.1. fork
6.2.2. Pull request