Data Analyst KIM

[빅데이터 커리어 가이드북] 3. 빅데이터 지식(1)-"지식과 빅데이터 프로젝트" 본문

일상/독서

[빅데이터 커리어 가이드북] 3. 빅데이터 지식(1)-"지식과 빅데이터 프로젝트"

김두연 2023. 5. 4. 23:06
반응형
3. 빅데이터 지식(1)- "1.지식 , 2.빅데이터 프로젝트"

1. 예비 빅데이터 전문가를 위한 지식

직무별 지식의 중요도(빅데이터 커리어 가이드북 p.173)

 

데이터 애널리스트의 경우

예비 빅데이터 전문가를 위한 지식 / 시각화 / 데이터 분석 소프트웨어가 가장중요하다.

그다음으로 빅데이터 프로젝트 / 웹 크롤링 / 머신러닝 이 중요하다.

마지막으로 비교적 덜 중요한 것은 프로그래밍 / 수학 및 통계 / 데이터 파이프라인 및 클라우드이다.

모든 지식이 다 필요하지만 중요도를 나눈 것이다.

 

데이터 사이언티스트,리서처의 경우에는 모든 부분에서 심도있게 공부를 해야한다.


<3.빅데이터 지식>에서는 빅데이터 전문가가 되기 위해 알아야 할 지식을 

세세하게 설명하기보다는 필요한 지식을 얻기 위한 방법을 이야기해준다.

 

<공부 자료 활용법>

빅데이터 지식 마당에서 소개하는 온라인 강의 자료는 크게 3가지로 나눌 수 있다.

 

1. 유튜브

ex) 메타코드M 등

 

2. MOOC 플랫폼

유튜브는 주제에 관계없이 다양한 영상을 공유하는 플랫폼이라면

MOOC는 온라인 강의 공개 플랫폼이다.

교육 컨텐츠만 하는 플래폼.

해외MOOC는 코세라,edX,유데미,칸 아카데미 등이 있고

국내에는 KOCW,에드위드,네이버 부스트코스 등이 있다.

 

대부분 회원가입을 해야하고 해외의 경우 유료가 필요한 강의도 있다.

국내MOOC는 대부분 무료이다.

 

3. 기타

어떤 강의는 직접 홈페이지를 제작해 영상을 올려놓기도 한다.


2.빅데이터 프로젝트

1) 문제 정의

<문제를 명확하게 표현했는가?>

더 이상 질문의 꼬리를 달 수 없다면 명확하다고 볼수 있다.

 예를 들어 "지원자 중 누구를 채용할까?"보다는

"지원자 중 누가 이직할 확률이 낮을까?"라는 문제가 더 명확하다.

여기서 년도별로 나눌 수 가 있기 때문에 "지원자 중 누가 1년 내에 퇴사할 확률이 낮을까?"라고 

정의하면 이전보다 명확하고 데이터로 풀 수 있는 문제가 된다.

 

데이터 기획자는 이렇게 문제를 명확하게 정의하기 위해 문제를 제시한 사람과

소통하며 요구사항을 정확히 파악해야한다.

데이터 기획자가 없다면 데이터 사이언티스트,애널리스트가 해야하는 영역이다.

 

 
<문제를 얼마나 잘 풀어야 하는지에 대한 목표 설정을 했는가?>

문제를 정의 후 목표를 설정해야 한다.

빅데이터 분야에서 성능이 높아질수록, 추가로 성능을 개선하기 위한 

시간과 비용이 늘어난다.

비용을 고려하여 어느 정도의 성능을 목표로 정하는 것이 합리적인지 잘 판단해야한다.

 

판단이 실패하면 결과물의 성능이 높더라도 비용이 효과보다 커서

손해가 날 수도 있다.

만약 목표의 수준이 너무 낮다면 완수를하더라도 효과의 차이가 없을 수도 있으므로

해당 프로젝트를 포기하는 것도 고려해야 한다.

 

 

<결과물을 전달받아 사용하는 사람은 누구인가?>

프로젝트의 결과물을 전달받아 사용하는 사람이 누구인지 명확해야 한다.

누가 전달받는지에 따라 적합한 프로젝트 결과물이 바뀐다.

왜냐하면 사용자마다 원하는 분석의 관점과 사용할 수 있는 결과물의 형태가 다르다.

 


<정의한 문제를 해결할 수 있는 자원이 있는가?>
문제를 잘 정의를 해도 필요한 자원을 확보하지 못한다면 문제를 해결 할 수 없다.

만약 적절한 자원이 없다면 문제수준의 조절이나 빅데이터 컨설팅 기관 등과 같이 프로젝트에

도움을 줄 수 있는 상대를 찾는 등의 프로젝트 방향을 수정할 필요가 있다.

프로젝트 전 확인해야 하는 자원은 데이터,IT 환경,빅데이터 전문가 이다.

 

'데이터'
비록 정확하지는 않더라도 문제 해결에 필요한 데이터 목록을 정리하고
데이터의 접근이 가능한지 파악해야한다.
어떤 데이터가 프로젝트에 중요한 자원인지 확인할 수 있다.

'환경'
데이터의 크기과 사용량,분석 알고리즘의 복잡도와 계산량 등을 고려해서
IT자원 과 환경조건을 예상하고 확보 가능도를 확인해야 한다.

'빅데이터 전문가'
정의한 문제를 해결 할 수 있는 빅데이터 전문가가 존재하는지 확인해야한다.
세부 전공에 따라 해당 문제를 해결할 수 있는 전문가인지 검토하는 것이 매우 중요하다.

 

 

2) 데이터 수집 및 이해

문제 정의가 끝난 후 프로젝트 활용 할 데이터를 모으고 이해해야 한다.

가장 많은 시간이 소요된다.

 

양질의 데이터가 중요한데

양질의 데이터를 만드다는 것은 프로젝트에 적합하도록

수집,가공하는 것을 의미한다.

 

데이터 수집과 이해,데이터 분석과 모델링은 서로 상호관계가 존재한다.

데이터 분석과 모델링 단계에서 미흡한 부분이 발견되면

다시 데이터를 준비하는 단계로 돌아가 데이터를 만들고

다시 분석을 시행하는 과정을 반복한다.

이런 경우는 굉장히 흔하다.

이를 방지하기 위해 데이터 수집 및 이해 업무를 체계화해야한다.

 

3) 데이터 분석과 모델링

데이터가 어느 정도 정리가 되었다면 분석과 모델링을 해야 한다.

이 단계는 애널리스트,사이언티스트,리서처가 주로 진행한다.

모델링을 하는데 있어서 머신러닝이 사용된다.

 

4) 배포 및 적용

분석과 모델링의 결과물을 사용자에게 배포하고 적용하는 단계이다.

프로젝트의 결과물을 배포하기 전 프로젝트 결과물의 사용자이다.

만약 사용자가 프로그래밍에 대한 지식이 없다면 

결과물을 소프트웨어 형태로 만들어야 한다.

프로그래밍에 지식이 있다면 코드로 전달하면 된다.

또한 사용자가 결과물을 보고 자료나 발표의 목적으로 사용하고 싶어한다면 

결과물을 리포트 형태로 만들어야 한다.

 

사용자를 위해 재구성했다면 배포할 차례이다.

프로젝트 결과물을 전달하는 것을 포함해 사용자가 결과물을 잘 사용할 수있도록

필요한 정보를 제공하거나 교육하는 것까지 해야한다.

프로젝트에서 문제해결을 위해 많은 가설을 세우고 정의했는데,

설명이 없이 결과만 준다면 해석하는 과정에서 문제가 생길 수 있다.

따라서 결과물의 사용 방법과 문제 해결을 위한

가정의 내용, 결과물의 한계점에 대해 설명해줘야한다.

 

전문가의 조언 : 데이터 준비

화려한 데이터 분석 작업을 기대했지만, 대부분의 업무는 데이터 준비일 것이다.

데이터를 준비하는 단계에서 지루하고 실망한 사람이 많을 것이다.

하지만 데이터 준비 단계가 얼마나 중요하고, 왜 중요한지 이야기를 한다.

 

단계 설명
1. 데이터 수집 분석에 사용할 데이터를 분석 데이터베이스로 가져오는 단계
2. 데이터 품질 확인 수집한 데이터를 얼마나 믿을수 있는지 확인하는 단계
3. 데이터 정제 데이터의 품질을 향상시키기 위해 데이터를 정제하는 단계
4. 데이터 변환 데이터 형태나 스케일 등의 변환 처리하는 단계
5. 데이터 특성 추출 분석에 추가할 변수를 생성하는 단계
6. 데이터 준비 과정 기록 데이터 수집에서 특성 추출 단계까지 수행한 작업을 문서화 하는 단계

 

1. 데이터 수집 

데이터를 분석 DB로 가져온다. 데이터가 내부에 있으면 관리자에게 권한을 얻어서 수집하고 외부에 있다면 문의를 하여 권한을 구매한 후 데이터를 수집한다. 이 과정에서 메타 데이터를 함께 수집하는 것이 중요하다.

메타데이터란 데이터에 대한 정보로, 데이터의 정의+기본키+생성기준+생성시점+연관된 데이터 정보 등이다.

 

2. 데이터 품질 확인

얼마나 믿을 수 있는지를 4가지 관점에서 확인해야한다.

- 정확성 : 데이터 값의 오류 여부와 데이터 형태가 정의에 맞는가? , 값이 적절한 범위 내에 속하는가?

- 완전성 : 기본키가 잘 정의되있는가? , 데이터의 기본키 등을 사용해 다른 데이터와 연계가 가능한가?

- 일관성 : 여러 데이터에 중복되는 컬럼이 있을 때 서로 일관적인가?

- 유용성 : 데이터의 정보가 충분한가?

 

3. 데이터 정제

품질을 향상시키기 위해 정제를 진행한다.

1단계(수집)에서 결측값과 오류 값을 메타 데이터를 참고해서 적절한 처리방법을 이용하여 품질을 향상 시킨다.

 

4. 데이터 변환

수집한 데이터의 형태나 스케일 등을 변환처리한다.

형태를 변환하기 위해 가장 널리 사용하는 것은 '범주화'이다.

스케일을 조정하는 변환은 '정규화'라고 하고 표준정규화,최솟값-최댓값 정규화 방법 등이 존재한다.

 

5. 데이터 특성 추출

데이터 분석에 사용할 데이터,즉 변수를 생성한다. 

'피처 엔지니어링'이라고 하는데 이 과정이 갖는 의미는 주어진 데이터보다 분석 목표에 더 직접적인 변수를 개발하는 것이다. 단순한 변수 추가가 아닌 전문지식과 경험을 데이터에 투영하는 것이다.

 

6. 데이터 준비 과정 기록

1~5단계에서의 작업을 문서화하는 과정으로 데이터 준비에 사용한 코드와 과정들을 설명하고 기록한다.

데이터 분석이 한번에 끝나면 필요 없겠지만, 대부분의 분석은 일정한 주기로 새롭게 생성되는 데이터를 다시 분석하고 결과를 점검한다. 그래서 문서화를 통해 이전의 데이터 분석과 동일한 관점을 유지하기 위함이다.

 

 

 

 

 

 

반응형