1. 시작

NoSQL 이라, 우선 빅데이터가 무엇인지 아는 것이 중요할 것 같아 주제는 빅데이터로 잡아봅니다.ㅎㅎ
 

2. 빅데이터란 무엇일까?

예를 들어, 검색 엔진에서 웹 페이지 하나의 용량이 10KB 이고, 1억개의 웹 페이지가 있다고 가정하면 그 양은 총 2TB가 됩니다. 이 검색 엔진을 제공하는 회사에서 매월 전체 웹 페이지 대상으로 인덱스를 재생성한다고 보면 하루에 대략 600GB 의 대량 데이터를 다뤄야 하는 셈입니다.
 
이처럼 빅데이터란 저장 및 처리 가능한 큰 데이터의 집합입니다.

 

위키백과에는 "일반적인 데이터베이스의 관리 능력을 넘어서는 대량의 정형, 혹은 비정형 데이터로부터 가치를 추출하고 분석하는 기술"이라고 정의되어 있네요.

 
물론 빅데이터는 데이터가 큰 것을 의미하는 것만은 아닙니다. 물리적인 크기도 중요하지만 특성에 따른 처리 방법도 중요한 거죠. 처리 방법에서 중요한 것은 처리 속도인데, 만일 앞서 언급한 웹 페이지 인덱싱 작업에 많은 시간이 소요된다고 하면 사용자들은 점점 이 검색 엔진 제공 회사를 떠나게 될 수 밖에 없지 않을까요?
 
데이터의 종류가 변화하고 있다는 사실도 중요합니다. 전통적인 데이터는 기업 내부에서 생산된 ERP, SCM, MES, CRM 류의 데이터였는데, 이런 데이터는 이미 잘 가공되고 있고 의미가 분명하ㅁ여 분석하기도 용이한 편입니다. 하지만 최근에는 SNS, 블로그, 뉴스, 게시판 및 일반 사용자들이 생성한 수많은 유형의 데이터, 즉 비정형 데이터가 급속도로 증가하고 있습니다. 
 

3. 빅데이터의 4단계

2011년 오라클 빅데이터 포럼에 의하면, 빅데이터로서 가치를 갖기 위해서는 크게 네 단계를 거쳐야 한다고 합니다.
 
  1. acquire (획득)
  2. organize (구조화)
  3. analyze (분석)
  4. decide (결정)
  • acquire 는 데이터를 수집하는 과정입니다. 이 데이터는 정형화된 데이터 일 수도 있고 비정형화된 데이터일 수도 있습니다. 
  • organize 는 acquire 된 데이터를 분석 가능하도록 구조화하는 과정입니다. acquire 된 데이터는 엄청 큰 데이터일 경우가 많아서 복수 개의 머신에 의하여 작업을 수행해야 할 수도 있습니다. 
  • analyze 는 organize 된 데이터를 분석하는 과정입니다. 중요한 것은 시간입니다. 때로는 거의 실시간으로 분석해야 할 수도 있습니다. 
  • decide 는 analyze 된 데이터를 이용하여 의사 결정을 하는 과정입니다. 빅데이터를 이용하여 가치 있는 일을 하는 것이죠.

 

4. 빅데이터의 3V

  • Veracity (정확성) : 수집된 데이터가 정확한 것인지, 분석할 가치가 있는 것인지 살펴야 합니다.
  • Variability (가변성) : 데이터가 사용자가 게시판 글의 맥락에 따라 의미가 달라집니다.
  • Visualization (시각화) : 용도에 맞게 데이터를 가공해야 하는데 해당 정보를 사용하는 사람의 이해 정도가 중요합니다.

 

오늘은 개념적인 이야기를 나열했는데요, 다음에 좀 더 기술적인 이야기를 해보겠습니다.