One-hot인코딩

· 머신러닝
결정트리 모델로 버섯 데이터를 식용과 독성으로 구분하다. 1. 문제정의 버섯의 22가지 특징을 활용해서 식용 / 독성을 분류한다. 2. 데이터 수집 import pandas as pd mushroom = pd.read_csv("./data/mushroom.csv") mushroom.head(10) # 행(8124), 열(특성22개, 정답1개) 버섯 데이터를 확인해보면 데이터가 수치형이 아니라 문자형으로 되어있는 것을 알 수 있다. 첫 번째 컬럼인 poisonous는 정답데이터이다. e : 식용, p : 독성이다. 따라서 이후에 데이터를 나눌 때 문제 데이터(X)는 첫 번째 컬럼을 제외한 나머지 컬럼이고, 정답 데이터(y)는 첫 번째 컬럼만 있으면 된다. 3. 데이터 전처리 데이터 전처리 단계에서는 결측치..
이뮨01
'One-hot인코딩' 태그의 글 목록