일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 |
Tags
- GA
- 채용공고
- 독서
- 코딩
- 알파줄거리
- 명상
- GA4
- 미라클 모닝
- 데이터 분석
- 수명예측 인공지능
- 니다
- Google Analytics
- 감사인사
- 벚꽃개화시기
- 코오롱베네트
- 데이터문해력
- 6시 기상
- 구글애널리틱스
- 구글애널리틱스4
- ㅂㅂ
- 프로그래머스
- 티스토리
- 얼음여왕
- Python
- 영화 올드 줄거리
- 기사스크랩
- 벚꽃
Archives
- Today
- Total
목록2023/06/19 (1)
Data Analyst KIM
레이블 인코딩(Label encoding) vs 원-핫 인코딩(One-Hot encoding) 비교
데이터 분석을 하기 위해서 문자열을 숫자형으로 변형을 하는 것을 인코딩이라고 한다. 대표적으로 레이블 인코딩(Label encoding)과 원-핫 인코딩(One-Hot encoding)을 사용한다. 그렇다면 레이블 / 원-핫을 언제 사용하는 것이 좋을까? 레이블 인코딩(Label encoding)은 문자열의 unique값을 숫자로 바꾸는 방법이다. 1,2,3처럼 숫자값으로 변환이 되어서 숫자값을 가중치로 잘못 인식하여 값에 왜곡이 생길 수 있다. 예측 성능의 저하를 일으킬 수 있다. 레이블 인코딩(Label encoding)은 선형회귀와 비슷한 ML알고리즘에서는 잘 사용하지 않는다. 주로 트리계열의 ML알고리즘에서 레이블 인코딩을 사용한다. (트리계열은 숫자의 고유적인 특성을 반영하지 않는다) 원-핫 인..
데이터 분석/Python | SQL | BI Tools
2023. 6. 19. 22:56