본문 바로가기
AI/Machine Learning

Ensemble (앙상블)

by Mesut Özil 2024. 1. 10.

Ensemble (앙상블)

여러 다른 예측 모델결합하여 하나의 강력한 모델 구축하는 기계 학습 기법

이는 단일 모델보다 높은 성능과 일반화 능력을 제공할 수 있습니다.

 

앙상블의 효과적인 동작을 위해서는 개별 모델 간다양성 중요합니다.

다양성은 각 모델이 다른 측면에서 예측을 수행하거나 다른 특징에 대해 학습하는 것을 의미

 

1. 앙상블 사용 이유

1) 성능 향상

  • 다양한 모델을 결합하여 각 모델이 만드는 오류를 상쇄하고 전체적으로 예측 정확도 향상

2) 일반화 능력 강화

  • 다양한 모델의 조합을 통해 과적합(Overfitting) 방지하고,  일반화 능력 향상

3) 노이즈에 대한 강건성

  • 다양한 모델을 결합하여 노이즈이상치 영향 적게 받고, 안정적인 예측 가능

 

2. 앙상블 종류

1) 보팅(Voting)

  • 다양한 모델의 예측을 각각 수집하고, 다수결 또는 가중치를 통해 최종 예측을 결합하는 방식
  • 주로 분류 문제에서 사용되며, 'hard' 보팅과 'soft' 보팅이 있습니다.
  • 대표 모델: Decision Tree, Logistic Regression, SVM(Support Vector Machine)

2) 배깅(Bagging, Bootstrap Aggregating)

  • 동일한 알고리즘을 다른 데이터 부분집합에 대해 여러 번 훈련하고 예측을 결합합니다.
  • 모델의 안정성을 향상시키고 과적합을 줄이는 데 효과적입니다.
  • 대표 모델: Random Forest, Bagged Decision Tree, Bagged Support Vector Machine

3) 부스팅(Boosting)

  • 약한 모델순차적으로 학습시켜, 다음 모델이 학습을 더 잘하도록 이전 모델의 오류가중치를 부여 
  • 강력한 예측 모델을 만들어내는 데 사용되며, 예측 오류에 민감한 상황에서 효과적입니다.
  • 대표 모델: Gradient Boosting, AdaBoost, XGBoost

4) 스태킹(Stacking)

  • 여러 다른 모델들을 사용하여 예측을 만들고, 그 예측값들을 입력받아 최종 예측 모델 학습시키는 방법
    즉, 개별 모델들의 예측값새로운 모델 입력으로 사용
  • 모델 간의 상호작용을 고려하여 성능을 높일 수 있습니다.

 

3. 앙상블 사용 상황

1) 분류 및 회귀 문제

앙상블은 분류회귀 문제 모두에 적용될 수 있습니다.

분류 문제에서는 다수결이나 평균을 통한 예측을 통해 클래스를 결정하고,

회귀 문제에서는 예측값의 평균을 사용할 수 있습니다.

 

2) 불균형한 데이터셋

레이블 불균형하게 분포된 경우, 적은 클래스의 성능을 향상시키기 위해 앙상블을 활용 가능

이는 특히 이상치 탐지소수 클래스에 대한 예측 개선하는 데 도움이 됩니다.


3) 높은 차원의 데이터

고차원의 데이터셋에서는 개별 모델들이 특정 특징 또는 패턴 민감해질 수 있습니다.

앙상블은 다양한 관점에서 데이터를 해석하므로 고차원 데이터에서 유용하게 사용 가능


4) 앙상블 모델의 안정성이 필요한 경우

예측의 안정성 중요한 경우,

예측 조합하는 방식으로 인해 앙상블은 개별 모델의 불안정성을 줄이고 안정된 예측 제공 가능


5) 최신 기법과 전통적인 기법의 결합

앙상블은 최신의 딥러닝 기법과 전통적인 머신러닝 기법조합하여 사용 가능

이는 모델 간 다양성 증가시키고 성능 향상시킬 수 있습니다.


6) 유사한 성능의 다양한 모델이 존재할 때

모델 간의 성능 차이가 크지 않고 서로 다른 모델이 서로 다른 유형의 오류를 만들 때,

이러한 다양성을 이용하여 앙상블을 구성하면 전반적인 성능 향상시킬 수 있습니다.


7) 대용량 데이터셋

앙상블은 대용량 데이터셋에서도 잘 동작하며,

데이터셋이 커질수록 앙상블이 일반적으로 성능 향상시킬 수 있습니다.

 

 

 

본 게시글은 ChatGPT의 도움을 받아 작성하였습니다.

'AI > Machine Learning' 카테고리의 다른 글

머신러닝의 정의  (2) 2024.02.01
분류 모델 / 회귀 모델  (0) 2024.01.17
다중공선성 (VIF, 분산팽창계수)  (0) 2023.12.18
Metrics (모델의 성능 지표)  (2) 2023.11.19
라벨 인코딩, 원핫 인코딩  (0) 2023.11.10