Print
카테고리: [ Amazon Web Services ]
조회수: 1186

목차


1. 데이터레이크란?

데이터레이크란 규모와 정형/비정형 여부와 관계없이 데이터를 저장할 수 있는 중앙 저장소이다.

1.1. 데이터레이크의 필수 조건

1.2. 데이터레이크 발생 배경

1.3. AWS 기반 데이터레이크의 장점


2. AWS 기반 데이터레이크 아키텍처

데이터는 소스로부터 수집되어, 전처리된 후 보관된다. 보관된 데이터는 분석되고, 유의미한 결과가 도출되면 해당 결과를 활용한다.

데이터레이크는 위 과정으로 구성된다. 각 과정에 대해서 어떠한 AWS 서비스가 매칭되는지는 아래 개념도를 통해 알 수 있다.

2.1. 각 과정 설명

데이터 프로세싱은 위처럼 다양한 과정을 필요로 하며, 각 과정마다 다양한 AWS 서비스를 이용하여 데이터 레이크를 완성할 수 있다.

2.2. 문제점

위 아키텍처를 실제로 구현하는 과정에서 다음과 같은 애로사항이 발생할 수 있다.

  1. 위 파이프라인을 수동으로 구축/유지/관리하는 과정이 복잡하다.
  2. 각 과정에서 보안/접근 제어를 일일이 설정해야 한다.
  3. 데이터, 사용자, 서비스가 변경될 때마다 위 데이터레이크 구축 과정을 반복해야한다.

이러한 배경을 해결하기위해서는 데이터레이크를 템플릿화할 수 있는 서비스가 필요하다.


3. AWS Lake Formation 소개

AWS Lake Formation은 데이터 레이크 구축을 위한 완전 관리형 서비스이다. 아래와 같은 특장점이 있다.

주요 기능은 다음과 같다.


4. AWS Lake Formation 데모

  1. Lake Location에 S3 bucket을 등록한다.
  2. 블루프린트를 이용하여 데이터를 로딩한다.
  3. 사용자 권한을 설정한다.

아래 링크를 통해서 보다 상세하게 실습할 수 있다.

(링크: http://aws-lakeformation-workshop.s3-website.ap-northeast-2.amazonaws.com/introduction/datalake/)