분석 프로젝트 개시
앞서 언급했듯 해당 블로그에는 일종의 웹트래커인 GA4, GTM이 걸려있다. 그래서 새롭게 방문한 유저와 재방문유저 및 하루에 몇 명이 방문했는지, 어느 페이지에 어느 정도의 시간을 소요했으며 무슨 이벤트를 발생시켰는지를 알 수 있게끔 설계되어 있는 사이트이다. (구글에서 제공하는 만큼 개인정보 보완에 대해선 걱정 안해도 된다 모조리 암호화되어 있기에;;)
이 블로그를 시작하고 나름 꾸준히 글을 시작하고, 웹 트래커를 연동하여 오늘로 37일 자가 지나가고 있다. 그 사이에 BigQuery에 연동하여 데이터를 쌓고 있었고 Looker Studio를 공부했으며 이제 본격적으로 분석에 돌입하여 인사이트를 뽑아내고자 한다.
가장 중요한 것은 문제정의
입이 닳도록 말하지만 가장 중요한 것은 분석툴을 다루는 것도, Fancy 한 시각화도 아닌 명확한 문제정의이다. 문제정의는 모든 프로젝트의 기반이 된다고 해도 과언이 아닐 정도로 중요하다. 어떤 대나무는 4년 동안 3cm밖에 자라지 않는다고 하지만 5년이 되는 해에 하루에 60cm가 자란다고 하지 않나. 뭐든 기반이 중요한 것이다.
데이터분석에서 문제정의를 잘하는 방법은 딱히 없지만 일단 Why를 계속 던지는 것이다. 애초에 이 블로그를 왜 쓰고 있었더라? 나는 어떤 욕심이 생겼더라? 웹트래커는 왜 설치했지? 뭘 알고 싶었지? 뭘 하고 싶었지? 와 같은 질문들을 끊임없이 쏟아내고 거기에 논리적으로 답하다 보면 비교적 합리적인 문제를 정의할 수 있다.
In My Case
나의 주된 질문은 나의 짧은 블로그 포스팅 경험에서 비롯된 욕망에 기인한다. '더 많은 사람들이 읽어주는 포스팅은 무엇이었을까?' 게임과 데이터, 두 카테고리로 나눠서 글을 썼고 과연 어느 쪽의 사람들이 무엇을 더 흥미롭게 보았을까? '흥미롭게 본다'는 행위는 무엇으로 정의 내려야 할까? 나는 engaged_session이 짧지 않으면서 scroll_depth가 25% 이상이면 흥미롭게 본다는 행위로 정의 내리고자 한다. 그렇다면 engaged_session이 짧지 않은 것은 몇 분, 혹은 몇 초이며 scroll_depth 25%는 어디에서 기인된 숫자인가? 이런! 여기서 막히고 말았다. 적정 engaged_session은 페이지별 평균을 기준으로 삼기로 한다고 해도, scroll_depth는 모니터 치수, 게시글의 길이마다 한 스크롤 단위가 내포하고 있는 정보의 양이 달라지게 된다. 이 부분은 조금 더 합리적인 결과를 도출해내기 위해서 고민을 좀 더 해보자.
아직은 분석에 앞서서 설계를 하는 과정이다. BigQuery 고유의 데이터형식인 Array와 Struct도 여전히 불편하고 Project - Dataset - Table의 데이터 저장 구조도 불편하다. 조금씩 공부하며 매일 정진하며 이 프로젝트의 끝을 화려하게 마무리하길 빌며, 오늘의 프로젝트 경과 보고서는 이만 여기서 마치도록 한다.
매일 포스팅을 해야하다보니 글솜씨가 개박살난 건 안 비밀이다.