일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터문해력
- 구글애널리틱스
- 구글애널리틱스4
- 영화 올드 줄거리
- 감사인사
- 얼음여왕
- 기사스크랩
- 미라클 모닝
- 벚꽃
- 알파줄거리
- GA
- 티스토리
- 코딩
- Python
- 독서
- 프로그래머스
- 채용공고
- ㅂㅂ
- 데이터 분석
- 명상
- GA4
- 6시 기상
- 니다
- 코오롱베네트
- Google Analytics
- 벚꽃개화시기
- 수명예측 인공지능
- Today
- Total
목록데이터 분석/Python | SQL | BI Tools (40)
Data Analyst KIM
데이터 분석을 하기 위해서 문자열을 숫자형으로 변형을 하는 것을 인코딩이라고 한다. 대표적으로 레이블 인코딩(Label encoding)과 원-핫 인코딩(One-Hot encoding)을 사용한다. 그렇다면 레이블 / 원-핫을 언제 사용하는 것이 좋을까? 레이블 인코딩(Label encoding)은 문자열의 unique값을 숫자로 바꾸는 방법이다. 1,2,3처럼 숫자값으로 변환이 되어서 숫자값을 가중치로 잘못 인식하여 값에 왜곡이 생길 수 있다. 예측 성능의 저하를 일으킬 수 있다. 레이블 인코딩(Label encoding)은 선형회귀와 비슷한 ML알고리즘에서는 잘 사용하지 않는다. 주로 트리계열의 ML알고리즘에서 레이블 인코딩을 사용한다. (트리계열은 숫자의 고유적인 특성을 반영하지 않는다) 원-핫 인..
프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr SELECT MEMBER_ID, MEMBER_NAME, GENDER, DATE_FORMAT(DATE_OF_BIRTH, '%Y-%m-%d') AS DATE_OF_BIRTH FROM MEMBER_PROFILE WHERE MONTH(DATE_OF_BIRTH)=3 AND GENDER='W' AND TLNO IS NOT NULL ORDER BY MEMBER_ID;
로지스틱 회귀분석을 이용하여 유방암 예측하기 1. 패키지 불러오기 import pandas as pd from sklearn import datasets from sklearn.metrics import * # For accuacy_score from sklearn.preprocessing import StandardScaler # 데이터 정규화 from sklearn.model_selection import train_test_split # 데이터 분할 from sklearn.linear_model import LogisticRegression # 로지스틱 from sklearn.model_selection import GridSearchCV # 그리드 서치 2. 데이터셋 불러오기 dataset = d..
최근 마크다운의 중요성을 깨닫고 적용을 하며 공부를 하고 있다. 다른 블로그를 보며 참고하여 공부를 했는데 정리가 잘되어있는 블로그가 있어서 공유하고자 한다. [Markdown] Jupyter Notebook :: 주피터 노트북 마크다운 정리 주피터 노트북에서 마크다운을 활용하는 여러가지 기능들을 소개하고자 한다. 마크다운이란? 먼저, 마크다운이란 일반 텍스트 문서의 양식을 편집하는 문법으로, HTML의 형태로 변환이 가능하다 leedakyeong.tistory.com
실제 매출데이터라면 어떻게 구성되어 있을까? 문자열(고정값) ==> sum 불가능 - 카테고리 - 상품번호 - 매출발생위치(지역,플랫폼,...) - 매출발생성격(B2B/B2C,Lage/Middle/Small) - 날짜 숫자열(변동값) ==> sum 가능 - 거래액(gmv등) - 매출액(sale 등) - 영업이익(profit 등) - 매출원가(cost,cogs 등) - 판매수량(quantity,unit_sold 등) - 할인금액(discount 등) - 2022년 동안, 월별 총 매출액은?(1,2,...,12월 순으로 정렬) - 2017~2022년 동안의 매출액은? 어느 해가 가장 크게 성장하였는가? 등등 - 2022년 카테고리별 매출액은? 가장 거래액이 큰 카테고리로 정렬한다면? - 카테고리별 월 매출액..
SQL의 기본 문법 중 select,where,group by,having의 주의사항에 대해서 알아보자. select절에서 가장 많이 하는 실수 컬럼명을 새로 명명할 경우 띄어쓰기,숫자로 시작하는 단어,특수문자가 포함될 수 없다. 사용 불가 사용 가능 => 큰따옴표("")를 사용하면 가능하다. 띄어쓰기(cate gory) ==> "category" 숫자로 시작하는 단어(2021_gmv) ==> "2021_gmv" 특수문자(#mm) ==> "#mm" 하지만 왠만하면 사용하지 않는 것이 좋다!! where절 문법 총정리 및 주의사항 긍정 부정 의미 = != , 일치/불일치 조건 > , >= , < ,