Data Analyst KIM
레이블 인코딩(Label encoding) vs 원-핫 인코딩(One-Hot encoding) 비교 본문
데이터 분석/Python | SQL | BI Tools
레이블 인코딩(Label encoding) vs 원-핫 인코딩(One-Hot encoding) 비교
김두연 2023. 6. 19. 22:56반응형
데이터 분석을 하기 위해서 문자열을 숫자형으로 변형을 하는 것을 인코딩이라고 한다.
대표적으로 레이블 인코딩(Label encoding)과 원-핫 인코딩(One-Hot encoding)을 사용한다.
그렇다면 레이블 / 원-핫을 언제 사용하는 것이 좋을까?
레이블 인코딩(Label encoding)은 문자열의 unique값을 숫자로 바꾸는 방법이다.
1,2,3처럼 숫자값으로 변환이 되어서 숫자값을 가중치로 잘못 인식하여 값에 왜곡이 생길 수 있다.
예측 성능의 저하를 일으킬 수 있다. 레이블 인코딩(Label encoding)은 선형회귀와 비슷한 ML알고리즘에서는 잘 사용하지 않는다. 주로 트리계열의 ML알고리즘에서 레이블 인코딩을 사용한다.
(트리계열은 숫자의 고유적인 특성을 반영하지 않는다)
원-핫 인코딩(One-Hot encoding)은 1 또는 0의 이진수를 가진다.
레이블의 사용하기 힘들 때는 원-핫을 사용하는 것이 좋다. 일반적으로 원-핫을 많이 사용한다.
단점은 범주만큼 컬럼이 늘어나기 때문에 다중공선성의 문제점이 발생할 수 있다.
다중공선성이란 독립변수들 간의 강한 상관관계를 나타내는 것이다.
다중공선성을 진단하는 방법은 대표적으로 VIF(분산팽창요인)>10 이면 다중공선성의 문제가 있다고 한다.
해결방법은 상관관계가 높은 독립변수중 하나 또는 일부를 제거하거나, 주성분 분석을 활용할 수 있다.
반응형
'데이터 분석 > Python | SQL | BI Tools' 카테고리의 다른 글
[Python] 데이터 시각화(Matplotlib,Seaborn) (0) | 2023.07.02 |
---|---|
[SQL] 데이터 가공하기(case when, cast, concat, join) (0) | 2023.06.27 |
[프로그래머스Lv.2] 3월에 태어난 여성 회원 목록 출력하기 (0) | 2023.06.11 |
[로지스틱 회귀분석] 유방암 데이터를 이용해서 모델링 (0) | 2023.05.30 |
[Markdown] 주피터 노트북 마크다운 정리(feat.슈퍼짱짱님) (0) | 2023.05.23 |