[용어소개] 데이터 레이크(Data Lake)

  • cloudnativelab
    (클라우드네이티브랩)
  • cloudnativelab's Avatar 이 글의 작성자
  • Offline
  • Newbie
  • Newbie
더보기
28 Jul 2020 22:05 - 28 Jul 2020 22:07 #5103 작성자: cloudnativelab
cloudnativelab 님의 글: [용어소개] 데이터 레이크(Data Lake)
데이터 레이크(Data Lake)

LG CNS 클라우드운영혁신팀



빅데이터를 분석하여 비즈니스 인사이트를 도출하는 것은 이미 많은 기업들의 필수 과제입니다. 그런데 데이터의 80% 이상이 다양한 형태의 비정형 데이터이며, 이러한 비정형 데이터는 매년 55~65%씩 빠른 속도로 증가하고 있다고 합니다. 다양한 데이터를 처리할 수 있는 새로운 저장소가 필요한 이유입니다.

데이터 레이크(Data Lake)는 정형/비정형 데이터를 대량으로 저장 할 수 있는 중앙 저장소를 의미합니다. 그 이름처럼 다양한 형태로 소비 가능한 담수를 저장하는 호수와 같습니다. 데이터 웨어하우스(DW)의 경우는 정형화된 데이터를 저장하며 데이터 모델의 변경이 쉽지 않습니다. 이는 호수와 달리 이미 정제된 물을 담고 있는 물병에 비유할 수 있습니다.

데이터 레이크는 가공되지 않은 Raw 데이터를 일단 저장한 후 데이터가 필요한 시점에 분류, 처리, 분석 및 소비합니다. 때문에 다양한 방식의 전처리 과정을 필요로 하는 머신 러닝, 예측 분석 등의 데이터 사이언스 영역에서 강력하게 동작합니다. 데이터 레이크가 취급하는 데이터의 범위는 IoT 디바이스, 웹사이트, 모바일앱, 소셜 미디어 및 엔터프라이즈 데이터 등 매우 방대합니다.

그렇다면 클라우드가 데이터 레이크 구축 환경으로 각광받는 이유는 무엇일까요? 이는 ① 사실상 무제한의 대용량 스토리지가 제공되고 ② 각종 관리형 데이터 분석 서비스를 제공하고 ③ 이에 필요한 스토리지와 컴퓨팅 자원들을 탄력적으로 운용할 수 있기 때문입니다.

CSP사는 AWS S3, Azure Storage, GCP Cloud Storage 등의 오브젝트 스토리지를 기반으로 여러 관리형 데이터 레이크 서비스를 제공하고 있습니다. AWS LakeFormation, Azure Datalake, GCP Composer 등이 대표적으로 이러한 서비스를 사용하면 손쉽게 데이터 레이크 환경을 구성할 수 있습니다.



[무단전재 및 재배포 금지]
Time to create page: 0.038 seconds
Powered by Kunena Forum