결정트리

· 머신러닝
결정트리 모델로 버섯 데이터를 식용과 독성으로 구분하다. 1. 문제정의 버섯의 22가지 특징을 활용해서 식용 / 독성을 분류한다. 2. 데이터 수집 import pandas as pd mushroom = pd.read_csv("./data/mushroom.csv") mushroom.head(10) # 행(8124), 열(특성22개, 정답1개) 버섯 데이터를 확인해보면 데이터가 수치형이 아니라 문자형으로 되어있는 것을 알 수 있다. 첫 번째 컬럼인 poisonous는 정답데이터이다. e : 식용, p : 독성이다. 따라서 이후에 데이터를 나눌 때 문제 데이터(X)는 첫 번째 컬럼을 제외한 나머지 컬럼이고, 정답 데이터(y)는 첫 번째 컬럼만 있으면 된다. 3. 데이터 전처리 데이터 전처리 단계에서는 결측치..
· 머신러닝
지도학습의 분류 학습으로 머신러닝 Decision Tree 모델을 배우다. 학습목표 Decision Tree 알고리즘 이해 Label Encoding, One-hot Encoding을 이해 교차 검증 기법을 이해 Encoding이란 범주형 데이터, 즉 문자 데이터를 수치형 데이터로 변환하는 것이다. 반대로 수치형 데이터를 범주형 데이터로 변환하는 것은 Binning이다. 교차 검증 기법은 모든 데이터를 나눠서 학습하고 검증하는 방법이라고 알고 있으면 된다. 1. Decision Tree(결정 트리) 모델 Decision Tree(결정트리) 모델은 위의 예시(그림 1)를 보면 이해하기 쉽다. 첫 번째로 모든 데이터를 잘 분류할 수 있게 질문을 한다. 그 질문에 맞게 데이터를 분류하고 또 질문해서 분류를 하..
이뮨01
'결정트리' 태그의 글 목록