웹로그 데이터 분석 프로젝트 경과 보고서 (3)

지난 글

 

본격적인 데이터분석 돌입

그동안 뭐 오블완 챌린지 하랴, 버닝비버 다녀오랴 아주 바빴습니다. 그리고 아주 행복했습니다. 너무 얻은 것들도 많았고요. 그리고 이제 본격적인 블로그를 키워볼까 합니다. 1편, 2편에도 그렇지만 그동안 문제에 대한 고민도 많이 했고 BigQuery에 대한 공부도 틈틈이 이어나갔기에, 비로소 슬슬 시작할 수 있을 것 같습니다. 하지만 이번에는 과거의 프로젝트들의 같은 문제를 답습하지 않기 위해서 정말 노력하고 있습니다. 애초에 재미도 없고 흥미를 못 느끼는 데이터를 만 질일 도 없고, 실제 데이터 및 문제정의에 정말 유념하고 있으며, 지표에 매몰되지 않기 위해서 분석 의도에 더 집중하고 있다.

 

 

 

비즈니스 문제 찾기

지금은 그냥 내가 좋아하는 글을 쓰는 거라서, (방문자를 고객으로 가정했을 때) 방문자들의 성향을 파악하고 그에 맞는 글을 쓸 필요는 없었다. 하나, 챌린지를 하며 더 많은 사람들이 방문해서 읽어주길 바라는 마음이 생겼고 데이터로 그에 관한 인사이트를 발견해볼까 한다. 

 

꼭 비즈니스를 돈과 연결시킬 필요는 없다. 저의 경우 비즈니스 문제는 블로그 성장이라고 볼 수 있겠다. 무엇을 성장시킬 것이냐가 중요한 착안점. 유입을 늘리고 싶다면 유입 검색어 및 검색엔진 최적화에, 리텐션을 올리고 싶다면 구독자 수를 늘릴 방법을 하지만 이런 것을 이야기하기 전에 실제로 사람들이 들어와서 내 글을 얼마나 읽을까?이다. 

 

실제로 사람들이 들어와서 내 글을 얼마나 읽을까?

전에 썼던 글처럼 Case Study를 한번 적용해볼까 한다.

 

면접 대비 방법론 - Case Study

요즘 내가 하고 있는 면접 준비 방법이다. 데이터분석 취업준비생이라면 면접대비를 하고 있겠지만, 이런 방법은 잘 안쓰리라 생각한다. 본인이 했던 결과 및 프로젝트에 집중하는 것도 좋지만,

data-game.tistory.com

 

왜 저게 문제일까?

사실 이 문제는 모든 문제들의 디딤돌이 되는 단계이다. 최종문제는 아니라는 이야기. 어느 성향의 방문자가 어느 글을 더 좋아할까? 챌린지를 시작했을 때와 아닐 때는 어떠했을까? 등등의 문제는, 일단 '읽는 행위'를 정량적으로 정의하고 난 후의 이야기이다. 그렇기 때문에 내 글을 얼마나 읽는지는 앞으로의 분석 확장에 있어서도 중요한 문제라고 생각할 수 있다. 그렇다면 드릴다운 해보자.

 

  • 사람들이
    • 사람일까?
    • 로봇인가?
  • 얼마나 읽을까?
    • 페이지별 머문 시간
    • 스크롤 %

일단은 이 정도, 이게 잘못된 문제정의라면 언제든지 다시 할 수 있으니 가볍게 시작해 보자.

 

너 사람 맞냐...?

 

그동안 정제된 데이터들만 봐서 그랬을까... 이런 문제는 정말 처음이다. 티스토리에 달리는 봇 댓글들을 보고 의심했다만 역시 나의 데이터에도 상당한 노이즈가 껴있었다. 어떻게 초 단위로 머문 시간이 동일하며 발생 이벤트가 수가 같고 서로 다른 날짜에 맨날 캐시도 지워가며 들어오는지. 참 정성도 대단하지.

 

먼저 데이터 안에 있는 진짜 사람들을 찾아낼 필요가 있다. 대략 의심되는 인원들만 봐도 그동안 전체 인원들의 1/3 정도 되는 숫자들이다. 그렇다면 봇임을 규정할 수 있는 방법은 무엇인지, 정말로 우연히 사람이 거기에 껴있을 수도 있는 것 아닌지. 여러 가지 가능성을 검토해 보고 분석에 임하고 있으니. 해당 게시글을 다음에 쓰도록 하고 오늘은 이만..