'ML Insights' 카테고리의 글 목록

선형 관계 vs 선형 종속 — 뭐가 다를까?

머신러닝이나 통계, 선형대수 공부를 하다 보면 종종 마주치는 두 개념이 있습니다.선형 관계 (linear relationship)선형 종속 (linear dependence)이 둘은 비슷해 보이지만 의미도 다르고, 사용하는 맥락도 다릅니다.이번 글에서는 그 차이를 쉽고 명확하게 정리해보겠습니다. 선형 관계 (Linear Relationship) 한 변수가 변할 때, 다른 변수가 일정한 비율로 함께 변하는 관계예시:공부 시간 ↑ → 점수 ↑ 몸무게 ↑ → 혈압 ↑이런 관계는 우리가 통계에서 말하는 상관관계 혹은 회귀 관계에 해당합니다.수식 예시:y=ax+by a > 0: x가 증가하면 y도 증가 (양의 선형 관계)a 👉 우리가 흔히 말하는 "증가하면 증가, 감소하면 감소"는 이 선형 관계를 말합니다...

ML Insights/Regression Analysis 2025.04.11

로지스틱 회귀 + L1 규제로 중요한 변수만 골라내기!

머신러닝에서 모델 성능도 중요하지만, 어떤 변수가 중요한지 해석할 수 있는 능력도 매우 중요하다.특히 금융, 의료처럼 설명력이 필요한 분야에선 더욱 그렇다.이번 글에선 로지스틱 회귀 + L1(Lasso) 규제를 활용해서 유의미한 변수만 선택하는 과정을 소개한다. 목표select_features_by_logistic_lasso(df, '채무 불이행 여부') -> 이 함수는 데이터프레임 df에서 채무 불이행 여부를 타겟으로,중요한 변수만 골라내고 학습된 로지스틱 회귀 모델까지 반환한다! 주요 단계 설명파이프라인 구성clf = Pipeline(steps=[ ('preprocessor', preprocessor), ('classifier', LogisticRegression( penalt..

ML Insights/Build ML From Scratch 2025.03.28

ColumnTransformer로 수치형 + 범주형 전처리를 한 방에

머신러닝 모델에 데이터를 넣기 전에 꼭 해야 할 일, 바로 전처리.그런데 수치형은 스케일링, 범주형은 인코딩처럼 각기 다른 처리 방식이 필요하지.이럴 때 유용한 도구가 바로 sklearn.compose.ColumnTransformer!\ 코드 설명from sklearn.compose import ColumnTransformerfrom sklearn.preprocessing import StandardScaler, OneHotEncoderpreprocessor = ColumnTransformer( transformers=[ ('num', StandardScaler(), numeric_cols), ('cat', OneHotEncoder(drop='first', handle_u..

ML Insights/Build ML From Scratch 2025.03.28

np.number는 왜 쓸까? 숫자형 컬럼만 뽑아내는 코드 해석

데이터 전처리 작업 중 자주 마주치는 코드가 있다:numeric_cols = X.select_dtypes(include=[np.number]).columns.tolist() 처음 보면 "np.number는 뭘까?", "왜 저걸 include에 넣지?" 하는 의문이 들 수 있어.한 줄씩 해석하면서 알아보자. 코드 해석 X.select_dtypes(include=[np.number])X는 보통 pandas DataFrame이다.select_dtypes()는 DataFrame에서 특정 데이터 타입을 가진 컬럼만 선택할 수 있는 메서드.include=[np.number]는 NumPy에서 정의된 숫자형 타입들을 의미한다.즉, int, float, np.int64, np.float32 등 모든 숫자형 컬럼을 선택함..

ML Insights/Build ML From Scratch 2025.03.28

Lasso와 ElasticNet: 회귀계수 축소의 정교한 전략

모델에 너무 많은 변수가 포함되면 과적합, 해석 어려움, 계산 부담 등 다양한 문제가 생깁니다. 이런 문제를 해결하기 위해 Ridge 회귀 외에도 Lasso와 ElasticNet 같은 정규화 기법이 자주 사용됩니다.이번 글에서는 특히 Lasso 회귀와 ElasticNet 회귀의 차이와 특징을 간단히 정리해봅니다. Lasso 회귀란?Lasso (Least Absolute Shrinkage and Selection Operator) 회귀는Ridge 회귀처럼 계수를 축소하지만, 계수를 완전히 0으로 만들 수 있다는 점이 가장 큰 특징입니다. 특징입력 변수 중 영향이 적은 변수는 완전히 제거해버립니다.따라서 변수 선택(Feature Selection) 역할을 동시에 수행합니다.계수에 대한 제약조건으로 L1 노름..