이번 실험에서는 랜덤 포레스트 모델의 주요 하이퍼파라미터인 n_estimators, max_depth, max_features를 조정하면서 모델을 학습하고 평가합니다.
사용된 하이퍼파라미터 값들
- n_estimators: [50, 100, 150, 200] (트리 개수)
- max_depth: [2, 5, 10] (트리 최대 깊이)
- max_features: [5, 8, 10, 13] (특성 개수)
각 조합에 대해 모델을 학습하고, 테스트 데이터에서 성능을 평가한 후, MLflow에 결과를 저장합니다.
MLflow에서 실험 결과 확인 및 비교 분석
MLflow UI에서 컬럼 선택 및 실험 결과 비교
모델 학습이 완료되면 MLflow UI에서 모든 실험 결과가 자동으로 기록됩니다. 실험 기록을 기반으로 원하는 평가지표(metrics)와 하이퍼파라미터(parameters)를 선택하여 비교 분석할 수 있습니다.
- 필요한 지표만 선택: accuracy_on_test, f1score_on_test, precision_on_test, recall_on_test 등의 컬럼을 체크하여 원하는 성능 지표만 볼 수 있습니다.
- 정렬 및 필터링: 특정 평가 지표를 기준으로 정렬하거나 필터링하여 가장 성능이 좋은 모델을 빠르게 찾아낼 수 있습니다.
MLflow Compare 기능을 활용한 실험 비교
여러 개의 모델 실험을 선택한 후 비교(Compare) 기능을 활용하면 하이퍼파라미터 조합에 따른 성능 차이를 쉽게 분석할 수 있습니다.
- 비교할 실험을 선택한 후 Compare 버튼을 클릭하면, 여러 모델 간의 성능 차이를 시각적으로 확인할 수 있습니다.
- 예제에서는 max_features, n_estimators에 따른 accuracy_on_test 변화를 분석하고 있습니다.
MLflow Compare 기능을 활용한 실험 비교
여러 개의 모델 실험을 선택한 후 비교(Compare) 기능을 활용하면 하이퍼파라미터 조합에 따른 성능 차이를 쉽게 분석할 수 있습니다.
- 비교할 실험을 선택한 후 Compare 버튼을 클릭하면, 여러 모델 간의 성능 차이를 시각적으로 확인할 수 있습니다.
- 예제에서는 max_features, n_estimators에 따른 accuracy_on_test 변화를 분석하고 있습니다.
MLflow Compare 시각화 결과 분석
MLflow Compare 기능을 사용하면 Parallel Coordinates Plot, Scatter Plot, Box Plot 등의 시각화를 통해 하이퍼파라미터 조합별 성능 차이를 확인할 수 있습니다.
- max_features, n_estimators가 모델 성능(accuracy_on_test)에 미치는 영향을 분석할 수 있습니다.
- max_features 값이 8일 때 정확도가 높은 경향을 보이고, n_estimators 값이 너무 작거나 클 경우 성능 저하가 발생할 수 있음을 알 수 있습니다.
MLflow의 Compare 기능을 활용하면 실험 과정이 더욱 체계적이고 효율적으로 관리됩니다. 이번 실험을 통해 얻은 장점을 정리하면 다음과 같습니다. ✅ 자동 기록: 실험 수행 시 모든 설정과 결과를 자동 저장 ✅ 빠른 비교: 다양한 하이퍼파라미터 조합을 한눈에 비교 가능 ✅ 손쉬운 분석: MLflow UI에서 필터링 및 정렬 기능을 활용해 최적 모델 선택 가능 및 하이퍼파라미터 튜닝을 반복하는 과정이 번거롭다면, MLflow를 활용하여 효율적인 실험 관리를 해보세요!
'시스템 개발 및 관리 > MLflow를 활용한 머신러닝 실험 관리' 카테고리의 다른 글
MLflow로 Artifact 재현성을 높이는 최적의 워크플로우 (0) | 2025.02.04 |
---|---|
모델 등록과 버전 관리, MLflow로 간편하게 (0) | 2025.02.03 |
MLflow로 모델 성능 비교하고 최적 모델 찾기 (0) | 2025.02.01 |
GridSearchCV와 MLflow로 머신러닝 실험 자동화하기 (0) | 2025.01.31 |
MLflow Autolog 확장하기: Custom Logging으로 세부 실험 데이터 관리 (0) | 2025.01.30 |