Data Analyst KIM

[독서] 데이터 분석가 책 추천 - 데이터 분석가의 숫자유감 본문

일상/독서

[독서] 데이터 분석가 책 추천 - 데이터 분석가의 숫자유감

김두연 2023. 7. 24. 23:16
반응형

데이터 분석가 책 추천 - 데이터 분석가의 숫자유감

<느낀점>
회사에서 실제 일어나는 일에 대해서 그림으로 설명하고 있어서 현실적으로 와닿았다.
실제로 범할 수 있는 실수라고 생각을 하고 이런 일이 발생하지 않도록 하기 위해서는 용어 정리가 필요하다.
A/B test가 무엇인지, 상관관계와 인과관계가 무엇을 의미하는지, 어떻게 실생활에서의 문제를 해결하는데  도움을 줄 수 있는 지를 잘 정리해야한다.
기본적인 통계학적 지식을 다루고 있기 때문에 비전공자의 경우에 도움이 많이 될 것으로 판단했다.
또한 전공자도 이러한 문제점을 발생시키지 않기 위해서는 용어 정리를 확실하게 해야할 필요성이 있다고 느낄 수 있었다. A/B test에 대해서 알게 되었는데 '기존에 없던 기록을 얻기 위해서'라는 말에 꽂혔다.
평소 나는 최초와 최고 중 최고를 선택했지만, 최초이면 최고가 될 가능성이 높다는 것을 알 게 되었다.
다음 책에서는 A/B test에 대해서 자세하게 공부를 해서 잘 정리해서 실제 비즈니스에 어떻게 활용을 할지 적용 방안을 정리하고 실제 적용까지 해볼 수 있도록 공부를 할 것이다!!

<책 내용>

 

목차 

  1. 상관 관계와 인과관계
  2. 숫자의 불확실성
  3. 모수와 표본
  4. 확률과 분포
  5. 실험을 통한 의사 결정
  6. 그래프 읽기
  7. 추세선 그리기
  8. 시계열 데이터
  9. 별점의 함정
  10. 인구통계학 정보의 효용성
  11. 조건부 확률
  12. 범위 제한을 통한 정확도 향상
  13. 평균이란 무엇인가?
  14. 데이터 문해력

📌 1. 상관 관계와 인과관계

- DAU(Daily Active Uset)

  • 하루 동안 해당 서비스를 이용한 순수한 이용자 수

상관 관계가 있다고 인과관계가 있는 것은 아니다.

인과관계

  • 하나의 요인으로 인해 다른 요인의 수치가 변하는 명확한 원인과 결과 관계

- 상관관계

  • 두 변수들이 얼마나 상호 의존적인지를 의미

2. 숫자의 불확실성

  • A/B Test 를 통해 개선 가능 

3. 모수와 표본 전체 집단을 정의하는 것은 그렇게 간단한 일은 아니다.

모집단의 특성치를 추정하기에 적당한 표본을 정의해야 함 이 때 큰 수의 법칙이 사용 됨

큰 수의 법칙은 표본의 크기가 충분하다면 그때의 표본 평균은 모평균에 충분히 가까워 진다는 것이다.

모수란 모집단의 특성(수치적 요약값) 모평균이나 모표준편차 같은 모집단에 대한 통계값을 모수라고 한다.

 

5. 실험을 통한 의사 결정

  • 많은 기업에서는 실험을 통해서 수집하고 의사결정을 한다.
  • A/B test
  • 왜 하는 걸까?
    • 기존에 없던 기록을 얻기 위해서
  • 실험을 할 때는 실험 대상 외의 모든 변수는 일정하게 유지
  • 실험 대상이 된 데이터는 다른 데이터와 마찬가지로 고객의 사용 내영이 기록된 데이터지만, 실험 내용이 섞여있어 이를 그대로 사용할 수 없다.

6. 그래프 읽기

  • 다른 두개의 그래프를 비교 할 때 y축을 잘봐야한다. 즉, 단위가 같은지!!

....

 

 

14. 데이터 문해력

  • 데이터를 사용하여 ‘읽고 쓰고 말하고 듣는’ 능력
  • 데이터를 ‘읽고 듣는다’는 것은 어떤 것일까?
  1. 데이터의 출처와 목적을 우선 파악해야한다.
  2. 데이터에서 누락된 부분은 없는지도 확인한다.

확률은 명확하지 않은 신뢰구간과 함께 오고, 확신이란 정말로 낮은 확률에서나 가능한 이야기며

‘높은 확률로’ 말할 수 있는 것도 있지만 그렇지 않은 것도 부지기수다.

 

반응형