농사와 데이터분석
by Youngjun Na
뭐 눈엔 뭐 만 보인다고, 데이터 분석과 농사는 참 닮았다. 데이터베이스 구축은 밭을 가는 일이다. 데이터를 쌓는 것은 씨를 뿌리고 밭을 가꾸는 일이다. 모인 데이터를 분석하는 것은 작물을 수확하는 것과 닮았다. 무엇보다 수확의 기쁨이 대단하다.
씨 뿌리기 전에 밭을 준비해야 한다
상농은 밭을 가꾸고 중농은 곡식을 가꾸고 하농은 풀을 가꾼다.
나지(bare land)에는 잡초만이 무성하다. 원하는 작물을 키우기 위해서는 먼저 잡초를 제거하고 밭을 리셋해야한다. 많은 사람들이 우린 데이터가 많다고 한다. 하지만 자세히 들여다 보면 잡초만 풍성한 경우가 많다. 잡초 가운데 작물을 찾아 수확하는 일은 손이 많이가는 일이다. 데이터프레임에 수백개의 컬럼이 있다고 전부 필요한 것들만 있는 것은 아니다. 안그래도 복잡한 세상이 더 복잡해진다. 한번 하고 마칠일이 아니라면 처음부터 밭을 갈아엎고 다시 시작하는 것이 장기적으로 좋다.
뿌리지 않은 작물은 거둘 수 없다
밭을 갈았다면 씨를 뿌려야 한다. 뿌리지 않은 작물은 거둘 수 없다. 생각보다 뿌리지도 않은 결과를 수확하고 싶어하는 사람들이 많다. 쓸만한 데이터가 준비되지 않았음에도 대단한 AI를 만들고 싶어하는 사람들이 있다. 머신러닝은 요술방망이가 아니다 이사람들아. 그냥 많이 적재되기만 한 데이터는 잡초를 수확해 쌓아놓은 것과 비슷하다. 물론 개똥도 약으로 쓸 수 있는 인사이트를 발견할수도 있지겠만 쉽지만은 않은 일이다.
가끔 자연재해가 찾아온다
사람의 힘으로 할 수 없는 일들이 있다. 해충이 작물을 갉아먹기도하고 예상치 못한 가뭄이 생길 수도 있다. 수확할 때가 다 되어서 온 가을태풍으로 벼들이 쓰러지는 일은 또 얼마나 많은지. 데이터분석도 종종 그렇다. 해커에게 서버가 털려서 데이터 대신 비트코인을 캐고 있기도 하고 책상에만 앉아 있다가 허리 디스크가 터질수도 있다. 클라이언트의 변심은 진심 자연재해다.
과정은 힘들지만 수확의 기쁨이 대단하다
농사일은 끝이 없다. 하지만 사람을 속일 수는 있어도 농사는 속일 수가 없다. 대부분의 경우 품을 들인만큼 결과가 나오는 법이다. 데이터분석도 끝이 없지만 고민하고 시도한 시간만큼 좋은 결과가 나온다. 누군가는 이에 동의하지 않을수도 있겠지만 충분한 시행착오 없이 나온 대단한 결과는 얻어걸린 경우가 많다. 열심히 농사짓지 않아도 가끔씩 풍년이 오는 것처럼.
수확의 기쁨은 이루 말할 수 없다. 그 순간에는 작물을 자라게 해준 땅과, 바람, 햇볕과 비에 절로 감사할 수 밖에 없게 된다. 분석을 하다보면 새로운 발견을 하는 순간이 있다. 기존의 관념과 이론 사이를 비집고 들어가 남들이 한번도 가보지 않는 곳에 도착하는 순간, 서로 다르다고 생각했던 조각들이 어느순간 예쁘게 맞춰져 이어지는 순간 같은 것들 말이다. 이 순수한 기쁨은 내가 이것들을 계속 할 수 있게 만드는 가장 큰 힘이다.
Subscribe via RSS