머신러닝 학습에 대한 기본 흐름
업데이트:
카테고리: 파이썬 머신러닝 완벽 가이드
챕터 2까지는 분류기를 사용해서 머신러닝의 학습 방법에 대해 간단하게 알아보았습니다. 미래를 위해 대략적인 머신러닝 학습에 대한 flow를 기록해보고자 합니다.
-
머신러닝을 학습하거나 프로젝트를 진행할 때, 가장 기본적으로 해야하는 것은 학습에 사용할 수 있는 feature를 찾는 것이 굉장히 중요하다. 특히 원본 데이터들을 가공할 때는 어떤 특징(feature)들을 보면 결과 데이터를 예측할 수 있을까를 생각하면서 어떤 특징(feature)들을 찾으려고 노력해야 합니다.
-
특징들을 찾으면 머신러닝 혹은 딥러닝 모델을 사용해서 학습을 시킵니다. 이때, scikit-learn을 이용할 경우, Kfold, StratifedKFold, cross_val_score 등의 방법이 있는데 특히 GridSearchCV를 사용할 수 있으면 최대한 사용하는 것이 좋습니다. 왜냐하면, 최적의 하이퍼 파라미터도 같이 찾아낼 수 있기 때문입니다!
-
GridSearchCV를 사용해서 학습을 하기 전, train_test_split을 이용해서 test 셋을 미리 추출해야 하게 됩니다. 추출 전에 특히, 분류기의 경우에는 데이터가 “문자열 데이터”인 경우에는 “숫자형 데이터”로 바꾸는 것이 좋습니다.
-
GridSearchCV를 사용하면 자동으로 train과 validation 셋을 이용해서 score를 출력받을 수 있고 bestestimator, bestparameter들을 얻어낼 수 있으니 test셋에 대해 최종적인 결과를 비교할 수 있습니다.