Enroll Course: https://www.coursera.org/learn/machine-learning-data-lifecycle-in-production
최근 Coursera에서 ‘Machine Learning Data Lifecycle in Production’ 강좌를 수강하게 되었습니다. 이 과정에서는 머신러닝 엔지니어링의 두 번째 단계로, 데이터 수집, 청소, 검증, 그리고 데이터 품질 평가를 통해 데이터 파이프라인을 구축하는 방법을 다룹니다.
1주차: 데이터 수집, 레이블링 및 검증
이 주에서는 머신러닝 생산 시스템에 대한 간략한 소개가 이루어집니다. TensorFlow Extended(TFX) 라이브러리를 활용하여 데이터를 수집하고, 레이블을 붙이며, 검증하는 방법을 배우게 됩니다. 이 과정은 데이터를 생산 준비 상태로 만드는 데 필수적입니다.
2주차: 특성 엔지니어링, 변환 및 선택
두 번째 주에서는 구조화된 데이터와 비구조화된 데이터 유형을 인코딩하고 클래스 불균형 문제를 해결하기 위해 TFX를 사용하는 법을 배웁니다. 이 부분은 실제적인 문제에 대한 해법을 제시하며, 머신러닝 모델의 성능을 극대화하는 데 필요한 지식을 제공합니다.
3주차: 데이터 여정 및 데이터 저장
이 주에서는 생산 시스템의 라이프사이클 전반에 걸쳐 데이터 여정에 대한 이해를 높이고, ML 메타데이터와 엔터프라이즈 스키마를 활용하여 빠르게 변화하는 데이터를 다루는 방법을 학습합니다.
4주차 (선택): 고급 레이블링, 증강 및 데이터 전처리
이 선택 과목에서는 라벨이 붙은 데이터와 라벨이 붙지 않은 데이터를 결합하여 머신러닝 모델의 정확성을 향상시키고, 데이터를 증강하여 학습 세트를 다양화하는 방법을 탐구합니다.
이 과정은 머신러닝 파이프라인을 구축하는 데 있어 핵심적인 내용을 제공합니다. 또한, TensorFlow Extended을 사용하여 실제로 데이터의 품질을 높이고, 변환하는 과정은 실무에 매우 유용할 것입니다. 데이터 과학자나 머신러닝 엔지니어링을 배우고 싶은 분들께 적극 추천합니다!
Enroll Course: https://www.coursera.org/learn/machine-learning-data-lifecycle-in-production