AI9 머신러닝의 정의 머신러닝의 정의 머신러닝은 다양한 기준에 따라 분류될 수 있지만, 일반적으로 다음과 같이 크게 3가지로 분류됩니다. 1. 지도 학습 (Supervised Learning) 레이블이 지정된 훈련 데이터를 사용하여 모델을 학습시키는 방법 입력 데이터와 해당하는 정답(레이블)을 모델에 제공하여 모델이 입력과 출력 간의 관계를 학습 예를 들어, 이메일이 스팸인지 아닌지를 분류하거나 주택 가격을 예측하는 등의 작업에 적용 사용: 분류(classification)와 회귀(regression) 문제에 주로 사용 선형 회귀 (Linear Regression): 연속적인 값을 예측하는 데 사용되는 모델 로지스틱 회귀 (Logistic Regression): 이진 분류를 수행하는 모델로, 확률 값을 예측 결정 트리 (De.. 2024. 2. 1. 분류 모델 / 회귀 모델 분류 모델(Regression Model) / 회귀 모델(Classification Model) 분류 모델과 회귀 모델은 각각 다른 유형의 문제를 해결하는 데 사용됩니다. 여기에 간단한 예시를 통해 설명하겠습니다. 1. 분류 모델 (Classification Model) 사용 예시 이메일 스팸 여부 분류 환자가 어떤 질병에 걸렸는지 판단 (예: 암 여부) 손글씨 숫자 인식 (0부터 9까지 숫자 분류) 설명 분류 모델은 입력 데이터를 여러 클래스 또는 범주 중 하나로 분류하는 데 사용됩니다. 출력은 이산적인 클래스 레이블이며, 주로 범주형 데이터를 다루는 데 적합합니다. 예측하려는 목표가 미리 정의된 클래스 또는 범주 중 하나에 속하는 경우에 사용됩니다. 대표 모델 로지스틱 회귀 (Logistic Regr.. 2024. 1. 17. Ensemble (앙상블) Ensemble (앙상블) 여러 다른 예측 모델을 결합하여 하나의 강력한 모델을 구축하는 기계 학습 기법 이는 단일 모델보다 높은 성능과 일반화 능력을 제공할 수 있습니다. 앙상블의 효과적인 동작을 위해서는 개별 모델 간의 다양성이 중요합니다. 다양성은 각 모델이 다른 측면에서 예측을 수행하거나 다른 특징에 대해 학습하는 것을 의미 1. 앙상블 사용 이유 1) 성능 향상 다양한 모델을 결합하여 각 모델이 만드는 오류를 상쇄하고 전체적으로 예측의 정확도 향상 2) 일반화 능력 강화 다양한 모델의 조합을 통해 과적합(Overfitting)을 방지하고, 일반화 능력 향상 3) 노이즈에 대한 강건성 다양한 모델을 결합하여 노이즈나 이상치에 영향을 적게 받고, 안정적인 예측 가능 2. 앙상블 종류 1) 보팅(Vo.. 2024. 1. 10. 다중공선성 (VIF, 분산팽창계수) 다중공선성 (VIF, 분산팽창계수) VIF는 Variance Inflation Factor의 약자로, 다중공선성을 평가하는 통계적 지표 중 하나입니다. 다중공선성이란 두 가지 이상의 독립 변수가 서로 강한 선형 관계에 있는 경우 발생합니다. 이는 회귀 모델에서 예측 변수 간에 높은 상관 관계가 있어 회귀 계수의 정확성이 훼손되고, 모델의 안정성이나 해석력이 감소할 수 있음을 의미합니다. VIF는 특정 독립 변수의 분산이 다른 독립 변수에 의해 얼마나 크게 영향을 받는지를 나타냅니다. 각 독립 변수에 대한 VIF는 다음과 같이 계산됩니다: VIF는 다중공선성을 확인하는데 사용되며, 1에 가까우면 다중공선성이 낮다는 것을 의미하며, VIF 값이 특정 기준 (예: 10)을 넘어서면 다중공선성이 높다고 판단할 .. 2023. 12. 18. Metrics (모델의 성능 지표) Metrics (모델의 성능 지표) 각각의 지표는 머신 러닝 및 딥러닝 모델의 성능 측정에 사용되는 평가 지표 중 일부입니다. 아래에 각 지표에 대한 공식과 간단한 설명을 제공하겠습니다. 1. Confusion Matrix (혼동 행렬) 설명: Confusion Matrix(혼동 행렬)은 이진 분류(binary classification) 모델의 성능을 평가하기 위한 표입니다. 주로 머신러닝과 통계학에서 사용되며, 모델이 예측한 클래스와 실제 클래스 간의 관계 시각화, 평가에 유용 TP(True Positive): 실제 양성 클래스를 정확하게 예측 FN(False Negative): 실제 양성 클래스를 음성으로 잘못 예측 FP(False Positive): 실제 음성 클래스를 양성으로 잘못 예측 TN(T.. 2023. 11. 19. Embedding (임베딩) Embedding (임베딩) 임베딩(Embedding)은 자연어 처리(NLP)나 기타 유사한 작업에서 텍스트 데이터 → 수치형 벡터로 변환하는 과정을 의미 이는 컴퓨터가 텍스트 데이터를 이해하고 처리하기 쉬운 형태로 변환하는 것이 목적 주로 단어 또는 문장을 고정된 차원의 벡터로 매핑하는 데 사용 임베딩은 단어 간의 의미 관계를 보존하려는 노력이 들어가며, 비슷한 의미를 가진 단어들은 유사한 벡터로 매핑 임베딩은 일반적으로 사전 훈련된 워드 임베딩 모델을 사용하거나, 특정 작업에 맞게 모델을 훈련시켜 얻음 임베딩이 필요한 이유 1. 의미 정보 보존 임베딩은 단어 간의 의미적 유사성을 보존하려고 노력합니다. 비슷한 의미를 가진 단어들은 유사한 벡터로 매핑되어야 합니다. 이를 통해 모델은 단어의 의미 구조를.. 2023. 11. 16. 라벨 인코딩, 원핫 인코딩 라벨 인코딩(Label Encoding)과 원핫 인코딩(One-Hot Encoding)은 범주형(카테고리) 데이터를 머신러닝 모델에 입력할 수 있는 형태로 변환하기 위해 사용 각각의 방식은 데이터의 특성과 모델에 따라 적합한 상황이 다릅니다. 1. 라벨 인코딩 (Label Encoding) 라벨 인코딩은 범주형 데이터를 숫자로 매핑하는 가장 기본적인 방법 중 하나 각 범주형 변수의 고유한 값을 순차적인 숫자로 변환하는 기술입니다. 예시 초졸: 0 중졸: 1 고졸: 2 대졸: 3 1) 라벨 인코딩(Label Encoding) 사용 O 1. 순서가 있는 범주형 변수 학력 수준('초졸', '중졸', '고졸', '대졸' 등)과 같이 순서가 있을 경우 라벨 인코딩을 사용 순서가 있는 범주에 대해 숫자를 부여하면 .. 2023. 11. 10. K-fold 교차 검증 K-fold 교차 검증 K-fold cross-validation은 기계 학습 모델의 성능을 평가하기 위한 기술 중 하나입니다. 이 방법은 주어진 데이터를 훈련 세트와 검증 세트로 나누어 모델을 평가하는 데 사용됩니다. 주어진 데이터셋을 K개의 서브셋(또는 폴드)으로 나눕니다. 모델을 K번 반복하여 훈련하고 검증합니다. 각 반복에서 하나의 폴드를 검증 데이터로 사용하고, 나머지 폴드를 훈련 데이터로 사용합니다. 각 반복에서 모델의 성능 지표(예: 정확도, 손실 등)를 기록합니다. K번의 반복 후, 이 성능 지표들을 평균을 계산하여 최종 성능을 얻습니다. 예시 코드 from sklearn.model_selection import KFold from sklearn.linear_model import Logi.. 2023. 10. 29. 유저 기반 추천 시스템, 아이템 기반 추천 시스템 1. 유저 기반 추천 시스템(User-based Recommendation System) 이 방식은 사용자 간의 유사성을 기반으로 추천을 제공합니다. 유저 기반 추천 시스템은 사용자들 간의 유사성을 파악하고, 비슷한 취향 또는 행동 패턴을 보이는 사용자들이 선호하는 항목을 추천합니다. 유저 기반 추천 시스템은 사용자 간의 유사성을 계산하기 위해 사용자 메타데이터를 활용합니다. 이메일, 평가, 검색 이력, 구매 기록 등의 정보를 통해 사용자 간의 유사성을 평가하고, 비슷한 관심사를 가진 사용자들이 공통적으로 선호하는 아이템을 추천합니다. 2. 아이템 기반 추천 시스템(Item-based Recommendation System) 아이템 기반 추천 시스템은 아이템 간의 유사성을 기반으로 추천을 제공합니다. 이.. 2023. 10. 28. 이전 1 다음