일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- GA4
- 구글애널리틱스4
- 벚꽃개화시기
- Google Analytics
- 얼음여왕
- 영화 올드 줄거리
- 티스토리
- 벚꽃
- 미라클 모닝
- 코딩
- 명상
- 수명예측 인공지능
- 6시 기상
- 채용공고
- 데이터 분석
- 구글애널리틱스
- 감사인사
- 독서
- 데이터문해력
- GA
- Python
- ㅂㅂ
- 기사스크랩
- 프로그래머스
- 니다
- 코오롱베네트
- 알파줄거리
Archives
- Today
- Total
Data Analyst KIM
레이블 인코딩(Label encoding) vs 원-핫 인코딩(One-Hot encoding) 비교 본문
데이터 분석/Python | SQL | BI Tools
레이블 인코딩(Label encoding) vs 원-핫 인코딩(One-Hot encoding) 비교
김두연 2023. 6. 19. 22:56반응형
데이터 분석을 하기 위해서 문자열을 숫자형으로 변형을 하는 것을 인코딩이라고 한다.
대표적으로 레이블 인코딩(Label encoding)과 원-핫 인코딩(One-Hot encoding)을 사용한다.
그렇다면 레이블 / 원-핫을 언제 사용하는 것이 좋을까?
레이블 인코딩(Label encoding)은 문자열의 unique값을 숫자로 바꾸는 방법이다.
1,2,3처럼 숫자값으로 변환이 되어서 숫자값을 가중치로 잘못 인식하여 값에 왜곡이 생길 수 있다.
예측 성능의 저하를 일으킬 수 있다. 레이블 인코딩(Label encoding)은 선형회귀와 비슷한 ML알고리즘에서는 잘 사용하지 않는다. 주로 트리계열의 ML알고리즘에서 레이블 인코딩을 사용한다.
(트리계열은 숫자의 고유적인 특성을 반영하지 않는다)
원-핫 인코딩(One-Hot encoding)은 1 또는 0의 이진수를 가진다.
레이블의 사용하기 힘들 때는 원-핫을 사용하는 것이 좋다. 일반적으로 원-핫을 많이 사용한다.
단점은 범주만큼 컬럼이 늘어나기 때문에 다중공선성의 문제점이 발생할 수 있다.
다중공선성이란 독립변수들 간의 강한 상관관계를 나타내는 것이다.
다중공선성을 진단하는 방법은 대표적으로 VIF(분산팽창요인)>10 이면 다중공선성의 문제가 있다고 한다.
해결방법은 상관관계가 높은 독립변수중 하나 또는 일부를 제거하거나, 주성분 분석을 활용할 수 있다.
반응형
'데이터 분석 > Python | SQL | BI Tools' 카테고리의 다른 글
[Python] 데이터 시각화(Matplotlib,Seaborn) (0) | 2023.07.02 |
---|---|
[SQL] 데이터 가공하기(case when, cast, concat, join) (0) | 2023.06.27 |
[프로그래머스Lv.2] 3월에 태어난 여성 회원 목록 출력하기 (0) | 2023.06.11 |
[로지스틱 회귀분석] 유방암 데이터를 이용해서 모델링 (0) | 2023.05.30 |
[Markdown] 주피터 노트북 마크다운 정리(feat.슈퍼짱짱님) (0) | 2023.05.23 |