빅데이터의 정의와 빅데이터 분석의 기본

빅데이터는 불과 몇 년 전까지만 해도 뜬구름을 잡는 듯한 개념이었다. 하지만 최근 4차 산업혁명 열풍에 가장 근간이 되는 것이 빅데이터이기 때문에, 빅데이터는 엄청난 이슈를 가져오고 있다. 이제 기업 경쟁에서의 승패는 빅데이터 분석을 누가 더 잘 하는지에 달려있다고 해도 틀린말이 아닐 정도이다.

어느정도 IT에 관심이 있는 사람이라도 정작 빅데이터가 정확히 무엇이냐는 질문을 받으면 명확하게 대답하지 못할 것이다. 빅데이터는 무엇이고 빅데이터를 분석하는 것의 기본에 대해 알아보자.

IBM의 3V

IBM은 빅데이터의 속성을 Volume, Velocity, Variety로 이루어진 3V로 정의했다. 최근 여기에 Veracity를 더해 4V로 정의하기도 한다.

Volume은 데이터의 물리적인 크기를 뜻한다.

Velocity는 데이터의 처리 속도를 의미한다. 예를 들어 미국 뉴욕의 주식거래 시장에서는 매일 1TB의 데이터를 생산한다.

Variety는 데이터의 다양한 형태를 의미한다. 페이스북에서는 매 달 다른 형태의 300억건의 기록이 공유된다고 한다.

Veracity는 데이터의 진실성이다. 기업 대표들의 1/3은 의사결정에 있어서 데이터를 전혀 믿지 않는다고 한다. 부실한 데이터의 질은 미국 경제의 3.1조 달러 규모의 어마어마한 비용을 발생시킨다.

빅데이터의 정의

빅데이터는 결론부터 말하면 아직 명확히 정의할 수 없다. 얼마나 커야 빅 데이터라고 할 수 있을까? 이 질문에 답은 없다. 그저 기존 IT기술로는 처리하기 어려운 양의 데이터 라는 두루뭉실한 대답만 존재한다. 사실 빅데이터가 무엇인지 정의함에 있어서 데이터 자체의 크기는 그렇게 중요한 것은 아니다. 그 데이터가 지니는 가치가 훨씬 더 중요하다. 데이터 가치의 기준은 그 데이터를 분석한 결과를 얼마나 잘 활용할 수 있는지에 있다. 빅데이터 역시 데이터이기 때문에 존재하는 물질적인 크기보다는 가치라는 기준이 더 중요하다.

빅데이터가 무엇인지 정의하기 위해 빅데이터 이전의 데이터와 비교해보자. 과거에는 문맥이 담긴 텍스트 데이터나 사진, 동영상과 같은 비정형적 데이터는 분석이나 처리가 어려웠다. 하지만 빅데이터 기술의 발달로 이러한 비정형 데이터들을 분석하는 것이 가능해졌고, 그 분석 결과의 가치는 어마어마하다. 여기서 알 수 있듯 빅데이터 기술은 인터넷과 모바일 환경의 발달로 엄청난 속도로 불어나고 있는 데이터를 기존의 IT기술로 처리가 불가능하기에 '어쩔 수 없이' 출현했다고 봐도 무방하다.

과거의 산업혁명을 이끌던 혁신들인 증기기관이나 컴퓨터, 인터넷 등과는 다르게 빅데이터 기술은 혁신적으로 발명 되었다기보다는 필요에 의해 생겨난 것이다. 따라서 아직 완성된 학문이나 개념이 아니며 지금도 계속해서 발전하고 있는 분야인 것이다. 때문에 어떤 것이 빅데이터 인지를 정의하는 것 자체가 명확하지 않은 것이다.

굳이 정의하자면 빅데이터란 기존의 기술로는 분석이 불가능하여 처리할 수 없었던 데이터이다. 즉, 기술의 발달로 가치가 인정되는 데이터라고 할 수 있다.

스몰데이터

빅데이터와 반대되는 기존의 데이터 개념을 구분하기 위해 이를 스몰데이터라 부른다. 스몰데이터는 기존의 IT기술로 우리가 처리할 수 있었던 데이터를 뜻한다. 문맥 등과는 별개로 단일 형태로서 존재하는 데이터나 트랜젝션 데이터 등이 있다. 빅데이터 기술의 발달했지만 스몰데이터의 개념 역시 여전히 중요하다. 빅데이터를 분석하며 생기는 수많은 이슈들은 이전에 스몰데이터 분석시에 발생했던 이슈들과 매우 유사하기 때문이다. 또한 빅데이터는 스몰데이터를 포함하여 '데이터' 로서의 기본적인 속성과 이슈들을 모두 포함하는 개념이다. 따라서 데이터 자체에 대한 기본적인 속성과 이슈를 이해하는 것은 빅데이터를 이해함에 있어 반드시 필요하다.

빅데이터 분석의 근본적인 목적

데이터는 과거에 일어난 일들에 대한 후행성 정보들이다. 데이터 자체가 과거 사건을 기록한 것이기 때문이다. 이러한 후행성 정보들을 분석해 과거에 어떤 일이 일어났는지를 파악하고, 그 원인에 대해 분석한다. 그 결과로 그래서 앞으로 어떤 일이 일어날 것인지를 예측하는 것이 빅데이터 분석의 근원적인 목적이라고 할 수 있다. 즉 과거의 데이터를 토대로 미래를 분석하는 것이다.

데이터는 후행성 성격을 지니지만 선행성의 성격도 가지고 있다. 사람들이 포털에서 검색하는 것은 무언가를 알고 싶기 때문이다. 사람들의 검색 키워드 라는 후행성 데이터로 왜 사람들이 그것을 알고 싶어할까 라는 분석을 통해 미래에 일어날 일을 예측할 수 있는 것이다.

데이터의 선행성에 대한 유명한 예시 하나를 알아보자.

위 그래프는 특정 지역에서 구글에서 '독감'이라는 검색 키워드와 실제 독감 환자수의 변화에 대한 그래프이다.

2010년 이후의 그래프를 보면 파란색 선인 '독감' 검색어의 트래픽이 늘어나고 몇 주 뒤 정말로 독감 환자수가 급증하는 것을 볼 수 있다. 이처럼 단순한 키워드 하나로도 어느 정도 미래에 대한 예측이 가능한 것이다.

빅데이터 분석의 기본 원칙

IBM에서는 빅데이터를 분석할 때 알아야할 기본을 아래와 같이 명시했다.

1. 빅데이터를 분석할 때에는 질문에서 시작하라.

2. 기존 데이터와의 연결고리를 적극 활용하라.

3. 어려운 방식의 프로그래밍 방식과 툴은 피하는 것이 좋다.

4. 피드백을 반드시 반영해서 최종 결과를 내야 한다.

빅데이터 활용의 예시

서울시 심야버스

서울시에서는 다산 콜센터의 접수 데이터를 분석했다. 이 때 가장 많이 접수되고 있는 민원 중 하나가 서울 시내에서 심야에 택시 잡는 것이 너무 어렵다는 것이었다. 서울시는 이에 대한 대책으로 심야버스를 운영하기로 했는데, 노선을 어떻게 정해야 할지 갈피를 잡지 못했다. 이에 서울시는 KT와 업무 협약을 체결하고 KT의 심야시간 통화 위치 데이터를 활용해 서울 시내 심야 시간대의 통화량을 분석했다. 이 데이터를 토대로 심야버스 노선을 결정했으며, 서울시 심야버스는 매우 성공적으로 운영되고 있다.

스카이박스 이미징

미국 기업인 스카이박스 이미징은 기업용 인공위성을 쏘아 지구 전체의 사진과 동영상을 찍어 데이터화 했다. 기업들은 이 데이터를 분석하여 특정 지역과 산업의 경제 전망들을 예측하는 것에 사용하고 있다. 스카이박스 이미징은 실리콘벨리에서 가장 주목받는 기업 중 하나로 떠올랐다.

개인이 쉽게 활용하는 빅데이터 분석 방법

빅데이터 분석은 매우 어려우며 여러 분야의 전문적인 지식이 필요하다. 또한 데이터 자체가 기업의 귀중한 자산이기 때문에 분석을 위한 데이터를 구하는 것도 어렵고 천문학적인 비용이 든다. 빅데이터를 분석하는 것에는 많은 데이터를 처리하고 정보를 가공하여 가공된 정보를 다시 처리하는 프로세스에 엄청난 비용과 노력이 들어가며 전문가가 반드시 필요하다.

그렇다면 개인이 활용할 수 있는 방법은 없을까? 구글이나 네이버 등의 포털 사이트와 몇몇 업체에서는 검색어를 통해 빅데이터를 쉽게 분석할 수 있는 기반을 무료로 제공한다. 구글 트랜드나 네이버 트렌드 등을 활용하면 개인도 쉽게 포털에 쌓여있는 데이터를 기반으로 빅데이터를 분석할 수 있다.

위는 구글 트렌드에 등산이라는 키워드를 입력한 결과이다. 2012년부터 등산은 등락이 있었지만 점점 관심이 하락하는 추세이다. 만약 등산용품 관련 사업을 새로 시작하고자 하는 사람이라면 한번 더 생각해 봐야 할 것이다.

'big data' 라는 키워드는 2012년부터 급격하게 성장하고 있다. 구글 트렌드는 시간에 따른 관심도 뿐 아니라 여러 키워드를 비교해서 분석할 수도 있으며, 지역이나 검색 카테고리 별로도 다양한 분석이 가능하다.

이런 툴을 잘 활용하면 개인이나 자금력이 부족한 스타트업 기업에서도 간단하게 빅데이터를 분석하여 활용할 수 있을 것이다.

저작자표시 변경금지

복세편살 개발라이프

빅데이터의 정의와 빅데이터 분석의 기본

Other Contents

티스토리툴바