업데이트:

카테고리:

챕터 2까지는 분류기를 사용해서 머신러닝의 학습 방법에 대해 간단하게 알아보았습니다. 미래를 위해 대략적인 머신러닝 학습에 대한 flow를 기록해보고자 합니다.

  1. 머신러닝을 학습하거나 프로젝트를 진행할 때, 가장 기본적으로 해야하는 것은 학습에 사용할 수 있는 feature를 찾는 것이 굉장히 중요하다. 특히 원본 데이터들을 가공할 때는 어떤 특징(feature)들을 보면 결과 데이터를 예측할 수 있을까를 생각하면서 어떤 특징(feature)들을 찾으려고 노력해야 합니다.

  2. 특징들을 찾으면 머신러닝 혹은 딥러닝 모델을 사용해서 학습을 시킵니다. 이때, scikit-learn을 이용할 경우, Kfold, StratifedKFold, cross_val_score 등의 방법이 있는데 특히 GridSearchCV를 사용할 수 있으면 최대한 사용하는 것이 좋습니다. 왜냐하면, 최적의 하이퍼 파라미터도 같이 찾아낼 수 있기 때문입니다!

  3. GridSearchCV를 사용해서 학습을 하기 전, train_test_split을 이용해서 test 셋을 미리 추출해야 하게 됩니다. 추출 전에 특히, 분류기의 경우에는 데이터가 “문자열 데이터”인 경우에는 “숫자형 데이터”로 바꾸는 것이 좋습니다.

  4. GridSearchCV를 사용하면 자동으로 train과 validation 셋을 이용해서 score를 출력받을 수 있고 bestestimator, bestparameter들을 얻어낼 수 있으니 test셋에 대해 최종적인 결과를 비교할 수 있습니다.

최대 1 분 소요