Data-Driven System Development/Airflow로 시작하는 워크플로우 자동화 3

Docker로 Airflow 실행하기: 설정부터 운영까지

Airflow 웹 UI의 로그인 페이지를 보여줍니다. Airflow는 파이프라인 관리 도구로, 사용자는 설정된 포트(기본적으로 8080)를 통해 웹 인터페이스에 접근할 수 있습니다. 로그인 화면에서 Username과 Password를 입력해야 대시보드에 접속 가능하며, 접속 후 DAG 실행, 상태 모니터링, 작업 스케줄 관리와 같은 기능을 사용할 수 있습니다.이 화면은 Airflow 서버가 정상적으로 실행되고 웹 서버가 작동 중임을 나타냅니다.  사용자가 Docker 컨테이너 내부로 접속한 상태를 보여줍니다. 명령어 docker exec -it b7bc774f96c5 bash를 사용하여 컨테이너 ID b7bc774f96c5에 접속했고, 현재 위치는 컨테이너의 /usr/local/airflow 디렉토리입니..

Docker로 Apache Airflow 환경 구축하기: Python 기반 DAG 관리

Docker를 활용하면 Apache Airflow와 같은 복잡한 워크플로우 관리 도구를 손쉽게 설정하고 실행할 수 있습니다. 이 블로그에서는 Python 기반 환경에서 Dockerfile을 작성하고, Airflow를 활용해 DAG 관리와 워크플로우 자동화를 구현하는 방법을 살펴봅니다. 특히 Airflow의 설치 및 설정 과정과 Docker 컨테이너에서 실행 가능한 상태로 구축하는 과정을 중점적으로 설명합니다. FROM python:3.8-slimENV AIRFLOW_HOME=/usr/local/airflowRUN apt-get update && \ apt-get install -y gcc libc-dev vim && \ rm -rf /var/lib/apt/lists/*RUN pip instal..

Python과 DAG를 활용한 데이터 파이프라인 구축

시스템 소개 DAG는 Airflow를 활용하여 머신러닝 모델의 데이터 처리, 학습, 성능 비교, 최적 모델 선택의 워크플로우를 자동화하는 데 중점을 둡니다. Airflow의 PythonOperator를 사용해 단계별 작업을 구성하며, 태스크 간 데이터 교환은 XCom을 통해 이루어집니다. def feature_engineering(**kwargs): iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = pd.Series(iris.target) # 데이터 분할 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) ..