해당 프로젝트는 게임 관련 프로젝트는 아니지만, 유의미한 인사이트를 처음으로 냈다는 부분에서 개인적으로 의미가 큰 프로젝트이다. 데이터셋은 Tableau에서 제공하는 가장 매출 데이터 SuperStore 2018을 사용했으며, 태블로를 사용할 줄 몰랐던 때라, Python으로 무작정 분석하는데 열중했던 기억이 있다. 무엇을 어떻게 진행하였고, 결과는 무엇이고, 어떤 것을 배웠는지 회고하는 시간을 가져보도록 하자.
진행 과정
문제 상황 정의
뭔가 Fancy한 분석 기법이라도? 그런 건 없다. 애초에 문제 상황이 무엇인지 모르는 상황에서 일단 데이터를 분해해보자는 마음에서 시작하였다. 데이터를 이리저리 굴려보고 도저히 감을 못 잡겠어서 무난하게 매출을 올리려면 어떻게 해야 할까?라는 것을 임시 주제로 잡고 분석을 진행했다.
데이터 전처리
해당 데이터에는 쓸모 없어 보이는 feature도 있었다. State, Ship Mode, Ship Date를 없애주고 분석 데이터 테이블을 만들었다.
뭔가 이상한데...
분석을 진행하던 도중 Profit과 Discount의 음의 상관관계를 확인할 수 있었고, 하나의 상품이 City마다 다른 할인율을 적용하고 있음을 알 수 있었다. 이게 무슨 소리냐면, A를 ☆지역에서 사면 할인율이 15%, ★지역에서 사면 20%인 것을 데이터를 통해서 확인할 수 있었다. '잘 사는 동네에서는 비싸게 받으려고 할인율이 낮은 건가?'라는 생각을 순간 했었지만, 지역마다 할인율이 다르게 적용된다는 것이 사실인지 알아보기 위해 해외 기사를 살폈지만, 그런 사실은 확인할 수 없었다. 지역마다 다른 할인율의 적용은 그냥 가상 데이터로써의 노이즈라고 간주했다.
결국 그렇게 얻은 첫 번째 인사이트는 쓰지 못하고 사라졌다.
계속 되는 EDA
Profit을 중요 지표로 삼고 있으니, 어느 고객군이, 어느 물품에서, 어느 지역에서 가장 많은 이익이 혹은 손해가 발생하는지 알아내기 위해서 먼저 고객군을 나눌필요가 있었다. 고객별 Profit 총합을 확인하였고, Box Plot을 그려서 상위 이상치에 해당하는 사람들은 고래 고객군으로 분류하고 나머지는 일반 고객으로 분류하여 분석을 진행하였다. 또 일반 고객은 흑자, 적자 고객으로 나눠서 각각 비슷하게 분석을 진행해 주었다.
보기 싫은 보고서의 완성이다!
고래 고객의 경우 어느 시기에, 어느 지역에서, 어느 물품이 가장 많은 이익을 발생시킬지 분석을 진행하였고 흑자와 적자 고객 또한 비슷한 분석을 진행해주었다. 각각의 그룹군이 어떤 판매전략을 세워야 하는지 정리하기 위해서 수십 번의 시각화 작업이 있었고 PPT에 정리하였지만, 결과는 사실 처참. 어떻게 분석을 진행했는지 알려주기 위해 정말 많은 그래프를 꽉꽉 채워넣었고 정작 읽기는 싫은 그런 보고서를 만들어냈다.
※ 느낀 점 ※
이 프로젝트를 끝내기 위해서 투자한 시간은 약 4주 였다. 나중 가서는 데이터를 들여다보는 것이 고통일 정도로 오랜 시간을 투자하였다. 해당 분석을 진행하면서 짧지만 중요한 느낀 점을 몇 가지 서술하려고 하니, 데분 취준생 여러분들은 나와 같은 실수를 겪지 않았으면 좋겠다.
1. 문제 정의는 정말 너무너무너무 중요하다
시작이 반이라는 말이 있는 만큼, 시작을 정말 잘해야한다. 데이터 분석에서 시작 단계란 문제 인식. 문제가 무엇인지 명확히 알고 있으면 쓸데없는 분석을 할 시간이 줄어든다. 해당 프로젝트는 범주형 데이터가 6개였고 추가적으로 나는 반기와 분기로 날짜형 데이터를 또 나누었기에, Segmentation을 정말 다양하게 하면서 데이터분석에 임하였다. 분석이 너무 깊어지니 몇 번이고 당초에 정의했던 목표와 많이 동떨어진 분석을 하기도 했다. 애초에 잡았던 문제정의가 무엇이고, 왜 그것이 문제이고, 해결하면 어떤 것을 기대할 수 있을지를 생각하고 분석에 임하도록 하자.
2. 시각화 툴을 배우자
어느 글에서는 Fancy한 거 하지 말라면서요!라고 말할 수 있겠으나, Tableau를 공부하며 깨달은 것은 해당 데이터 대상으로 딸깍딸깍 몇 번이면 훨씬 전달력, 설득력 높은 보고서를 작성할 수 있다는 점이다. 데이터분석가의 오메가는 설득에 있다고 생각한다. 스스로 맞는 분석을 했을지라도 읽는 사람이 보고서가 이해가 안 되거나 설득력이 없다고 판단하고 쓰임 받질 못한다면 결국 아무런 의미가 없다. 시각화 툴은 분석가보다는 읽는 이를 위한 도구이다. 더 자세히 말하면, 데이터나 통계에 지식이 없더라도 그래프나 그림을 보고 전달하고자 하는 주제를 명확하게 알 수 있게끔 도와주는 도구이다.
수십 번의 시각화 코드를 치는 것보다 시각화 딸깍 딸깍이 더 쉬운 것도 한몫한다. Tableau, Power BI, Looker Studio 아무거나 상관없으니 겉핥기로라도 한번 배워두면 나중에 정말 편하게 사용할 수 있다.
3. 실제 데이터를 구하자
해당 프로젝트를 끝내고 절실하게 느꼈던 것은, 적어도 가상 데이터가 아닌 것을 다루고 싶다는 점이었다. 지역별로 할인율이 다르게 들어가는 말도 안 되는 인사이트가 안 뽑히는 데이터 말이다. 만약 해당 데이터에 대한 도메인 지식이 있으면 금상첨화이고 애초에 본인이 데이터를 쌓아서 분석을 진행하면 더 좋은 분석 보고서를 만들 수 있을 것이다.