Data-Driven System Development/MLOps 핵심 기술: 머신러닝 자동화와 모델 관리 9

데이터 자동화 파이프라인: 통계적 평가부터 MLOps 기반 모델 운영까지

데이터 분석과 모델 운영의 핵심은 데이터 파이프라인을 자동화하여 평가, 적재, 모델 업데이트까지 원활하게 수행하는 것이다. 본 블로그에서는 통계 기반 평가와 머신러닝 모델 활용 평가를 자동으로 실행하고, 이를 바탕으로 MLOps를 통해 지속적으로 모델을 업데이트하는 전체 프로세스를 정리한다. 데이터 자동 처리 및 전처리 파이프라인 구축데이터 파이프라인 자동화 데이터 파이프라인 자동화이전 블로그에서는 데이터 필터링과 스케줄링을 통해 건강 평가를 수행하는 자동화된 데이터 파이프라인을 구축하는 방법을 살펴보았다. 이번에는 스크립트를 실행할 때 원시 데이터를 자동으wnsgud4553.tistory.com 원시 데이터를 자동으로 수집 및 전처리하여 분석이 가능한 형태로 변환.distribute_by_applica..

자동화된 선박 건강 모델 평가 프로세스

이전 블로그에서는 **통계 기반 건강 평가(apply_system_health_algorithms_with_total)**에 대해 다루었다. 이번에는 모델 학습 기반 건강 평가를 수행하는 apply_system_health_learning_algorithms_with_total 함수에 초점을 맞춰 설명한다. 해당 함수는 전처리된 데이터(preprocessed 데이터)를 입력받아 머신러닝 모델을 활용한 건강 평가를 수행하는 역할을 한다. 자동화된 데이터 필터링과 스케줄링 구축 자동화된 데이터 필터링과 스케줄링 구축데이터 분석 및 시스템 모니터링에서는 일정 주기로 데이터를 수집하고 처리하는 자동화된 파이프라인이 필수적이다. 이를 위해 DataFilterManager를 활용하여 데이터를 필터링하고, 특정 조건..

자동화된 선박 건강 평가 프로세스

이번 블로그에서는 schedule_health_assessment() 함수의 실행 과정 중 apply_system_health_algorithms_with_total() 함수에 초점을 맞춰 설명한다.이 함수는 전처리된 데이터 또는 원본 센서 데이터를 기반으로 선박의 건강 상태를 통계적으로 평가하는 역할을 한다. 자동화된 데이터 필터링과 스케줄링 구축 자동화된 데이터 필터링과 스케줄링 구축데이터 분석 및 시스템 모니터링에서는 일정 주기로 데이터를 수집하고 처리하는 자동화된 파이프라인이 필수적이다. 이를 위해 DataFilterManager를 활용하여 데이터를 필터링하고, 특정 조건을 만wnsgud4553.tistory.com  try: sensor, prepr..

데이터 파이프라인 자동화

이전 블로그에서는 데이터 필터링과 스케줄링을 통해 건강 평가를 수행하는 자동화된 데이터 파이프라인을 구축하는 방법을 살펴보았다. 이번에는 스크립트를 실행할 때 원시 데이터를 자동으로 처리하는 전처리 패키지에 대해 설명한다.   자동화된 데이터 필터링과 스케줄링 구축  자동화된 데이터 필터링과 스케줄링 구축데이터 분석 및 시스템 모니터링에서는 일정 주기로 데이터를 수집하고 처리하는 자동화된 파이프라인이 필수적이다. 이를 위해 DataFilterManager를 활용하여 데이터를 필터링하고, 특정 조건을 만wnsgud4553.tistory.com  데이터 분석 및 모델 학습 과정에서 원시 데이터는 바로 사용할 수 없는 경우가 많으며, 이를 정제하고 변환하는 과정이 필수적이다. 전처리 패키지는 데이터 정리, 결..

자동화된 데이터 필터링과 스케줄링 구축

데이터 분석 및 시스템 모니터링에서는 일정 주기로 데이터를 수집하고 처리하는 자동화된 파이프라인이 필수적이다. 이를 위해 DataFilterManager를 활용하여 데이터를 필터링하고, 특정 조건을 만족하는 경우 건강 평가 알고리즘을 적용하는 구조를 구축할 수 있다. 또한, 스케줄링 기능을 통해 일정한 간격으로 데이터를 자동으로 가져와 분석하는 프로세스를 운영할 수 있다. 본 글에서는 이러한 자동화 데이터 파이프라인의 구성 요소와 흐름을 설명하고, DataFilterManager를 활용한 데이터 필터링 및 스케줄링 설정 과정을 정리한다.  import sysimport os# 경로 설정: 스크립트 경로에서 상위 디렉토리로 이동한 후 src 경로 추가health_data_path = os.path.absp..

Airflow를 활용한 자동화 실행 및 MLflow 기반 모델 관리

본 포스트에서는 Apache Airflow를 활용하여 머신러닝 모델 학습을 자동화하고, MLflow를 통해 모델을 체계적으로 관리하는 방법을 다룹니다. 또한, 이미지 기반 성능 관리를 통해 모델 평가를 시각적으로 확인하는 과정도 설명합니다. Airflow를 활용한 모델 학습 자동화DAG (Directed Acyclic Graph) 설정Airflow에서는 DAG를 이용하여 모델 학습 파이프라인을 구성할 수 있습니다. 이번 프로젝트에서는 model_training_selection DAG를 사용하여 CSU, STS, FTS 등의 모델을 자동으로 학습하고 관리합니다.DAG 실행 흐름run_csu_model → run_sts_model → run_fts_model → run_fmu_model → run_tro_..

Docker를 활용한 MLflow 및 Airflow 컨테이너 실행

이번 포스트에서는 MLflow와 Airflow를 포함한 Docker 이미지를 빌드하고 컨테이너를 실행하는 과정을 소개합니다. 이를 통해 MLflow를 활용한 모델 버전 관리와 Airflow를 통한 워크플로우 자동화를 보다 효율적으로 운영할 수 있습니다. 환경 설정 및 Dockerfile 구성Dockerfile 작성MLflow 및 Airflow 환경을 포함한 Dockerfile을 작성하여 컨테이너 환경을 구축합니다.# DockerfileFROM python:3.10-slim# 환경 변수 설정ENV AIRFLOW_HOME=/usr/local/airflow RUN apt-get update && apt-get install -y \ gcc libc-dev vim libffi-dev \ libpq-d..

MLflow와 Airflow를 활용한 모델 관리 및 자동화 파이프라인 구축

본 프로젝트에서는 MLflow를 활용한 모델 버전 관리 및 Airflow를 이용한 자동화 파이프라인을 구축하여, 데이터 학습 및 모델 관리의 효율성을 극대화하였습니다. 이를 통해 학습된 모델의 실험 관리, 저장, 버전 관리뿐만 아니라, 일일 주기로 자동화된 모델 학습 및 배포가 가능합니다. 시스템 구성MLflow를 활용한 모델 버전 관리MLflow는 머신러닝 실험을 추적하고 모델을 효율적으로 관리하기 위한 도구입니다. 본 프로젝트에서는 MLflow를 활용하여 다음과 같은 기능을 구현하였습니다.자동 실험 로깅: mlflow.sklearn.autolog()을 사용하여 모델 학습 과정에서 하이퍼파라미터 및 성능 지표를 자동으로 기록합니다.실험 관리 및 저장: initialize_experiment 함수를 활용..

데이터 자동 적재 및 학습 파이프라인 구축

본 프로젝트는 50개 이상의 모듈과 4개의 패키지로 구성된 자동화 파이프라인을 활용하여 학습 데이터를 자동으로 적재하고 데이터베이스에 저장하는 시스템을 구축하는 과정입니다. 이 글에서는 해당 파이프라인의 구조와 데이터 적재 프로세스를 설명합니다.시스템 구성모듈 및 패키지 구조프로젝트는 다음과 같은 주요 패키지와 모듈로 구성되어 있습니다.  CommonLibrary/src: 공통으로 사용되는 모듈을 포함하며, base_csu_system_health.py, base_fmu_system_health.py 등 다양한 분석 모듈이 포함됩니다.HealthModelPipeline: 데이터 흐름 관리 및 모델 학습을 위한 모듈 포함HealthPipeline: 데이터 전처리 및 분석 모듈 포함PipelinePrep: ..