Начать. Это бесплатно
или регистрация c помощью Вашего email-адреса
CS-Section 2 создатель Mind Map: CS-Section 2

1. Predictive Modeling

1.1. Permutation Importances

1.2. PDP

1.2.1. 특정 feature와 타깃과의 연관성을 보여줌

1.3. SHAP

1.3.1. 개별 데이터의 예측의 이유를 보여줌

2. make_pipeline

2.1. 전처리, 모델링을 하나의 과정으로 묶음

3. Cross Validation

3.1. cross_val_score()

3.2. cross_validate()를 쓰면 더 다양한 지표를 볼 수 있음

3.2.1. 둘다 stratified 한 방식으로 데이터를 나눈다

3.3. Test데이터로 cv하면 데이터가 유출되니 주의, 무조건 train 데이터로 cv하기

3.4. cv 수를 3->5->10으로 늘릴수록 훈련 데이터가 많아지기 때문에 성능이 좋아진다.

3.5. train / validation / test 데이터를 인위적으로 나누는 건 hold-out 기법

3.6. RamdomSearchCV

3.6.1. 가능한 조합을 iter의 개수만큼 돌음

3.6.1.1. best_score

3.6.1.2. best_estimator

3.7. GridSearchCV

3.7.1. 가능한 모든 조합을 다 돌음

4. feature engineering

4.1. 특성간에 얻어질 수 있는 새로운 특성을 만들어 추가하는 것

4.2. 사용하지 않을 특성을 삭제하는 것

4.2.1. 모델로도 할 수 있다.. SelectFromModel

4.2.2. 랜덤포레스트 등의 모델에서는 중요한 특성을 걸러주는 효과가 있음

5. 평가지표(score)

5.1. R2(회귀)

5.1.1. 예측과 데이터셋의 연관성, 0~1까지의 값, 클 수록 좋다

5.2. accuracy(분류)

5.2.1. 분류모델의 기본 score

5.3. f-1

5.3.1. 불균형 클래스인 경우 accuracy보다 유용

5.3.1.1. precision

5.3.1.1.1. 정밀도

5.3.1.2. recall

5.3.1.2.1. 재현율

5.3.1.3. threshold

5.3.1.3.1. 임계점(기준) - 이 값을 기준으로 분류

5.3.1.4. classification_report

5.4. auc_roc

5.4.1. roc 커브 아래의 값, 클 수록 정확한 모델

5.5. mae

5.5.1. 오차의 절대값

5.6. mse, rmse

5.6.1. 오차를 제곱하고 나누는 값, 아웃라이어에 덜 민감

6. Linear Model

6.1. baseline model

6.1.1. 회귀에선 평균 값 사용

6.1.2. 예측에서는 최빈값 사용(median)

6.2. Predictive Model(예측 모델)

6.2.1. 데이터에 가장 잘 맞는(best fit) 직선을 그리는 것

6.2.2. 비용함수(cost function)을 최소화하는 모델을 찾는 과정

6.2.3. Linear Regresson(OLS)

6.2.3.1. 계수(coefficient)

6.2.3.1.1. 기울기

6.2.4. RidgeCV

6.2.4.1. alpha값 조정

6.2.4.1.1. 알파값이 높을수록 기울기가 낮아지고, bias가 작아짐

6.2.5. multiclass Regression

6.2.5.1. 다수의 feature를 학습에 사용

6.2.5.2. polymonial 다항식

6.2.5.2.1. 특성간의 곱, 상호작용을 더해서 의미있는 feature 찾기

6.3. taular data

7. Tree Based Model

7.1. Decision Tree

7.1.1. 한 개의 트리

7.1.1.1. 시각화해서 보여주기 좋음

7.1.1.1.1. 과적합되기 쉬움

8. Ensemble model

8.1. RandomForest

8.1.1. 여러 개 트리의 평균, 숲

8.1.1.1. 성능이 웬만하면 좋다

8.1.1.2. Out of Bag 샘플 사용

8.1.1.2.1. oob_score_

8.1.1.3. 회귀, 분류 문제 다 적용 가능

8.2. Adaboost

8.2.1. 에러에 가중치

8.3. GradientBoost

8.3.1. XGBboost

8.3.1.1. 역시 에러의 가중치

8.3.1.2. learning_rate

8.3.1.3. 하이퍼파리미터 성능이 중요

9. Wrangling

9.1. 새 feature를 만드는 것

9.1.1. 데이터셋에 없는 정보들을 추가하는 것

9.2. merge

9.3. concat