Enroll Course: https://www.coursera.org/learn/etl-and-data-pipelines-shell-airflow-kafka

ETL과 데이터 파이프라인 과정 개요

안녕하세요, 데이터 엔지니어링에 관심이 많은 여러분! 오늘은 Coursera에서 제공하는 ‘ETL and Data Pipelines with Shell, Airflow and Kafka’라는 과정을 리뷰하고 추천해 드리려고 합니다. 이 과정은 데이터를 효과적으로 다루고, 분석 가능하도록 변환하는 방법에 대해 궁금하신 분들에게 더없이 좋은 선택이 될 것입니다.

과정 개요

이 과정에서는 ETL(Extract, Transform, Load) 및 ELT(Extract, Load, Transform)라는 두 가지 접근 방식을 통해 원시 데이터를 분석 준비된 데이터로 변환하는 방법을 배우게 됩니다. 데이터 웨어하우스 및 데이터 마트에 적합한 ETL 프로세스와 데이터 레이크에 적합한 ELT 프로세스의 주요 차이점과 활용에 대해 알아볼 수 있습니다.

주요 내용

1. 데이터 처리 기술
데이터의 유연성, 속도 및 확장성이 중요한 경우 ETL 프로세스를 사용하는 것을 배우게 되며, 데이터 추출 및 변환에 필요한 다양한 기술에 대한 지식도 습득할 수 있습니다.

2. ETL 및 데이터 파이프라인 도구와 기법
ETL 파이프라인을 Bash 스크립트를 사용하여 생성하고 cron을 이용하여 스케줄링하는 법을 배웁니다. 또한, 배치 파이프라인과 스트리밍 데이터 파이프라인의 차이를 이해하고 수행 성능 지표에 대한 설명을 할 수 있게 됩니다.

3. Airflow를 이용한 데이터 파이프라인 구축
Apache Airflow를 사용하여 데이터 파이프라인을 DAG(Directed Acyclic Graph) 형태로 구현해 보며, 이를 통해 더 매력적이고 협업 가능한 데이터 파이프라인을 구축하는 방법을 배웁니다.

4. Kafka를 이용한 스트리밍 파이프라인 구축
Apache Kafka와 그 핵심 구성 요소를 배우고, Kafka Streams API를 통해 이벤트 스트리밍 파이프라인을 구축하는 방법에 대해 자세히 알아봅니다.

5. 최종 과제
기말 과제에서는 실습을 통해 Apache Airflow와 Kafka를 사용하여 실질적인 ETL 데이터 파이프라인을 생성하게 됩니다. 실제 시나리오를 통해 데이터를 CSV 파일로 추출하고 변환하며 로드하는 경험을 쌓을 수 있습니다.

추천하는 이유

이 과정을 통해 데이터 엔지니어링의 기초부터 고급 기술까지 폭넓게 학습할 수 있어, 데이터 과학 및 분석 분야에서 자신을 발전시킬 수 있는 기회를 제공합니다. 특히 ETL과 ELT의 차이점을 배우고, 실무에 적용할 수 있는 실습을 통해 실질적인 경험을 쌓는 것이 매우 매력적입니다.

데이터를 다루는 방법에 대해 깊이 있는 지식을 얻고 싶으신 분들에게 이 과정을 강력히 추천합니다! 여러분의 데이터 과학 여정에 도움이 되길 바랍니다.

Enroll Course: https://www.coursera.org/learn/etl-and-data-pipelines-shell-airflow-kafka