본문 바로가기

분류 전체보기66

math 라이브러리 math 라이브러리 math 라이브러리는 Python의 표준 라이브러리 중 하나로, 수학적인 함수와 상수를 제공하는 모듈 이 모듈은 기본적인 수학 연산부터 고급 수학 함수까지 다양한 기능을 포함하고 있습니다. 아래는 math 라이브러리에서 자주 사용되는 몇 가지 함수와 상수에 대한 간단한 소개입니다. 1. 기본적인 수학 함수 math.prod(list): list 내 원소들의 전체 곱을 반환 math.sqrt(x): x의 제곱근을 반환 math.pow(x, y): x의 y 제곱을 반환 math.exp(x): e의 x제곱을 반환 math.log(x, base): x의 로그를 계산(base 미지정=자연로그를 반환) math.gcd(x, y): x와 y의 최대공약수를 반환 math.lcm(x, y): x 와 .. 2023. 12. 4.
Metrics (모델의 성능 지표) Metrics (모델의 성능 지표) 각각의 지표는 머신 러닝 및 딥러닝 모델의 성능 측정에 사용되는 평가 지표 중 일부입니다. 아래에 각 지표에 대한 공식과 간단한 설명을 제공하겠습니다. 1. Confusion Matrix (혼동 행렬) 설명: Confusion Matrix(혼동 행렬)은 이진 분류(binary classification) 모델의 성능을 평가하기 위한 표입니다. 주로 머신러닝과 통계학에서 사용되며, 모델이 예측한 클래스와 실제 클래스 간의 관계 시각화, 평가에 유용 TP(True Positive): 실제 양성 클래스를 정확하게 예측 FN(False Negative): 실제 양성 클래스를 음성으로 잘못 예측 FP(False Positive): 실제 음성 클래스를 양성으로 잘못 예측 TN(T.. 2023. 11. 19.
Embedding (임베딩) Embedding (임베딩) 임베딩(Embedding)은 자연어 처리(NLP)나 기타 유사한 작업에서 텍스트 데이터 → 수치형 벡터로 변환하는 과정을 의미 이는 컴퓨터가 텍스트 데이터를 이해하고 처리하기 쉬운 형태로 변환하는 것이 목적 주로 단어 또는 문장을 고정된 차원의 벡터로 매핑하는 데 사용 임베딩은 단어 간의 의미 관계를 보존하려는 노력이 들어가며, 비슷한 의미를 가진 단어들은 유사한 벡터로 매핑 임베딩은 일반적으로 사전 훈련된 워드 임베딩 모델을 사용하거나, 특정 작업에 맞게 모델을 훈련시켜 얻음 임베딩이 필요한 이유 1. 의미 정보 보존 임베딩은 단어 간의 의미적 유사성을 보존하려고 노력합니다. 비슷한 의미를 가진 단어들은 유사한 벡터로 매핑되어야 합니다. 이를 통해 모델은 단어의 의미 구조를.. 2023. 11. 16.
라벨 인코딩, 원핫 인코딩 라벨 인코딩(Label Encoding)과 원핫 인코딩(One-Hot Encoding)은 범주형(카테고리) 데이터를 머신러닝 모델에 입력할 수 있는 형태로 변환하기 위해 사용 각각의 방식은 데이터의 특성과 모델에 따라 적합한 상황이 다릅니다. 1. 라벨 인코딩 (Label Encoding) 라벨 인코딩은 범주형 데이터를 숫자로 매핑하는 가장 기본적인 방법 중 하나 각 범주형 변수의 고유한 값을 순차적인 숫자로 변환하는 기술입니다. 예시 초졸: 0 중졸: 1 고졸: 2 대졸: 3 1) 라벨 인코딩(Label Encoding) 사용 O 1. 순서가 있는 범주형 변수 학력 수준('초졸', '중졸', '고졸', '대졸' 등)과 같이 순서가 있을 경우 라벨 인코딩을 사용 순서가 있는 범주에 대해 숫자를 부여하면 .. 2023. 11. 10.
Transpose 함수 transpose 함수는 NumPy 라이브러리에서 배열의 차원을 바꾸거나 전치시키는 데 사용 이 함수를 사용하면 배열의 행과 열의 인덱스가 교환되어 행렬이 전치됩니다. 예시 코드 import numpy as np # 2x3 배열 생성 arr = np.array([[1, 2, 3], [4, 5, 6]]) print("원본 배열:") print(arr) # 출력 # [[1 2 3] # [4 5 6]] --------------------------------------------- # 배열의 전치 (transpose) (3개 코드 모두 동일) transposed_arr = np.transpose(arr) transposed_arr = arr.transpose() transposed_arr = arr.T pr.. 2023. 11. 4.
파이썬 기본 데이터 구조 파이썬 기본 데이터 구조 1. Numpy NumPy는 파이썬에서 과학적 계산을 수행하기 위한 핵심 라이브러리 중 하나 빠른 연산을 위한 다차원 배열을 제공하며, 선형 대수, 통계 및 수학 함수 등 다양한 기능을 제공 주요 데이터 구조는 ndarray로, 이는 동일한 유형 및 크기를 갖는 요소들의 다차원 배열 import numpy as np # 1차원 Numpy 배열 생성 array_1d = np.array([1, 2, 3, 4, 5]) print(array_1d) # 2차원 Numpy 배열 생성 array_2d = np.array([[1, 2, 3], [4, 5, 6]]) print(array_2d) # 결과 # 1차원 Numpy 배열 [1 2 3 4 5] # 2차원 Numpy 배열 [[1 2 3] [.. 2023. 11. 2.
K-fold 교차 검증 K-fold 교차 검증 K-fold cross-validation은 기계 학습 모델의 성능을 평가하기 위한 기술 중 하나입니다. 이 방법은 주어진 데이터를 훈련 세트와 검증 세트로 나누어 모델을 평가하는 데 사용됩니다. 주어진 데이터셋을 K개의 서브셋(또는 폴드)으로 나눕니다. 모델을 K번 반복하여 훈련하고 검증합니다. 각 반복에서 하나의 폴드를 검증 데이터로 사용하고, 나머지 폴드를 훈련 데이터로 사용합니다. 각 반복에서 모델의 성능 지표(예: 정확도, 손실 등)를 기록합니다. K번의 반복 후, 이 성능 지표들을 평균을 계산하여 최종 성능을 얻습니다. 예시 코드 from sklearn.model_selection import KFold from sklearn.linear_model import Logi.. 2023. 10. 29.
enumerate 함수 enumerate 함수 'enumerate 함수'는 파이썬에서 매우 유용하게 사용되는 내장 함수 중 하나입니다. 주로 순차형 자료(리스트, 튜플, 문자열 등)을 반복(iterate)할 때, 요소의 인덱스와 값을 함께 가져올 때 활용됩니다. 기본 구조 sequence: 인덱스와 값을 가져올 대상의 시퀀스 데이터(리스트, 튜플, 문자열 등) start: 인덱스의 시작 값을 지정, 기본값은 0이며, 이 매개변수는 선택 사항입니다. enumerate(sequence, start=0) 예시 코드 my_list = ['apple', 'banana', 'orange', 'grape'] for index, value in enumerate(my_list): print(index, value) # 결과 0 apple 1.. 2023. 10. 29.
범주형 변수, 연속형 변수 범주형 변수, 연속형 변수 범주형 변수 정의: 범주형 변수는 일정 범주 또는 카테고리에 속하는 변수입니다. 이산적이며유한한 값을 갖습니다. 예시: 성별(남성, 여성), 혈액형(A, B, AB, O), 교육 수준(고졸, 대졸, 석사, 박사) 등 [추천 그래프] Count Plot: 범주형 변수의 빈도수를 막대 그래프로 표현 Bar Plot: 한 변수에 대한 다른 변수의 값의 평균이나 합을 보여줍니다. Violin Plot: 변수의 분포를 박스 플롯과 함께 보여주어 데이터의 분포와 밀집도를 시각화 연속형 변수 정의: 연속형 변수는 연속적인 값을 가지며, 무한한 범위 안에서어떠한 값이든 가질 수 있습니다. 예시: 키, 몸무게, 온도, 시간 등 [추천 그래프] Histogram: 데이터를 일정한 간격으로 구간을.. 2023. 10. 28.