KNN 모델을 지도학습의 분류로 학습시켜 Iris 붓꽃 품종 분류 실습하다. 전 글에서 다뤘던 지도학습의 7단계 과정으로 Iris 붓꽃 품종 분류를 하고 일반화, 과대적합, 과소적합 개념들과 문제데이터, 정답데이터를 분리하고 각각의 데이터를 훈련데이터, 평가데이터를 비율에 맞춰서 나눠야 하는데 기존에 사용했던 인덱싱의 문제점을 설명하고 새롭게 train_test_split( ) 함수를 사용해서 나누는 방법도 설명하겠다. 1. 문제 정의 머신러닝 모델 학습의 목표를 구상하는 서류작성 단계?로 생각하기 목표 : 붓꽃의 품종을 구분하는 머신러닝 모델 만들기 사용할 학습 방법 : 지도학습 - 분류 2. 데이터 수집 sklearn에서 기본적으로 제공하는 Iris 데이터셋을 사용하기 때문에 딱히 csv파일을 읽는다..
KNN
KNN 모델의 알고리즘을 이해하고 하이퍼 파라미터 튜닝을 배우다. 1. KNN 모델 알고리즘 현재 KNN 모델을 공부하고 있다. KNN 모델은 지도학습에서 분류 방법으로 학습하는 머신러닝 모델이다. KNN은 K-Nearest Neighbors의 줄임말이다. KNN은 거리기반으로 학습을 하는데 무슨 소리냐면 KNN에서 K는 미지수인데 K값에 따라 가까운 이웃의 수를 결정한다. K가 만약 3이면 주변 3개의 이웃의 데이터를 보고 스스로 예측한다. KNN 모델은 지도학습의 분류와 회귀, 두 곳 다 사용할 수 있는데 분류에서는 문자형태로 정답이 있기 때문에 이웃 중에서 가장 많은 값으로 예측한다. 회귀는 정답 데이터가 연속된 수치데이터이기 때문에 이웃 값의 평균값으로 예측한다. knn_model2 = KNeig..