Data Analyst KIM

레이블 인코딩(Label encoding) vs 원-핫 인코딩(One-Hot encoding) 비교 본문

데이터 분석/Python | SQL | BI Tools

레이블 인코딩(Label encoding) vs 원-핫 인코딩(One-Hot encoding) 비교

김두연 2023. 6. 19. 22:56
반응형

데이터 분석을 하기 위해서 문자열을 숫자형으로 변형을 하는 것을 인코딩이라고 한다.

대표적으로 레이블 인코딩(Label encoding)과 원-핫 인코딩(One-Hot encoding)을 사용한다.

 

 

그렇다면 레이블 / 원-핫을 언제 사용하는 것이 좋을까?

 

레이블 인코딩(Label encoding)은 문자열의 unique값을 숫자로 바꾸는 방법이다.

1,2,3처럼 숫자값으로 변환이 되어서 숫자값을 가중치로 잘못 인식하여 값에 왜곡이 생길 수 있다.

예측 성능의 저하를 일으킬 수 있다. 레이블 인코딩(Label encoding)은 선형회귀와 비슷한 ML알고리즘에서는 잘 사용하지 않는다. 주로 트리계열의 ML알고리즘에서 레이블 인코딩을 사용한다.

(트리계열은 숫자의 고유적인 특성을 반영하지 않는다)

 

원-핫 인코딩(One-Hot encoding)은 1 또는 0의 이진수를 가진다. 

레이블의 사용하기 힘들 때는 원-핫을 사용하는 것이 좋다. 일반적으로 원-핫을 많이 사용한다.

단점은 범주만큼 컬럼이 늘어나기 때문에 다중공선성의 문제점이 발생할 수 있다.

다중공선성이란 독립변수들 간의 강한 상관관계를 나타내는 것이다.

 

다중공선성을 진단하는 방법은 대표적으로 VIF(분산팽창요인)>10 이면 다중공선성의 문제가 있다고 한다.

해결방법은 상관관계가 높은 독립변수중 하나 또는 일부를 제거하거나, 주성분 분석을 활용할 수 있다.

 

 

반응형