범주형 변수, 연속형 변수
범주형 변수
- 정의: 범주형 변수는 일정 범주 또는 카테고리에 속하는 변수입니다. 이산적이며유한한 값을 갖습니다.
- 예시: 성별(남성, 여성), 혈액형(A, B, AB, O), 교육 수준(고졸, 대졸, 석사, 박사) 등
[추천 그래프]
- Count Plot: 범주형 변수의 빈도수를 막대 그래프로 표현
- Bar Plot: 한 변수에 대한 다른 변수의 값의 평균이나 합을 보여줍니다.
- Violin Plot: 변수의 분포를 박스 플롯과 함께 보여주어 데이터의 분포와 밀집도를 시각화
연속형 변수
- 정의: 연속형 변수는 연속적인 값을 가지며, 무한한 범위 안에서어떠한 값이든 가질 수 있습니다.
- 예시: 키, 몸무게, 온도, 시간 등
[추천 그래프]
- Histogram: 데이터를 일정한 간격으로 구간을 나누어 그리는 막대 그래프로, 데이터의 분포를 확인
- Box Plot: 데이터의 Min, Q1, Median, Q3, Max 값을 시각적으로 표현하여 이상치 여부나 데이터 분포를 확인
- Scatter Plot: 두 연속형 변수 사이의 관계를 나타내는 산포도를 표현
예시 코드
import seaborn as sns
import matplotlib.pyplot as plt
# [범주형 변수 시각화]
# Count Plot
sns.countplot(data=your_data, x='categorical_column')
plt.title('Count Plot for Categorical Variable')
plt.show()
# Bar Plot
sns.barplot(data=your_data, x='categorical_column', y='other_variable')
plt.title('Bar Plot for Categorical Variable')
plt.show()
# Violin Plot
sns.violinplot(data=your_data, x='categorical_column', y='numeric_column')
plt.title('Violin Plot for Categorical vs Numeric Variable')
plt.show()
#######################################################################################
# [연속형 변수 시각화]
# Histogram
sns.histplot(your_data['numeric_column'], bins=20) # Adjust bins for desired intervals
plt.title('Histogram for Numeric Variable')
plt.show()
# Box Plot
sns.boxplot(data=your_data, y='numeric_column')
plt.title('Box Plot for Numeric Variable')
plt.show()
# Scatter Plot
sns.scatterplot(data=your_data, x='numeric_column1', y='numeric_column2')
plt.title('Scatter Plot for Two Numeric Variables')
plt.show()
위 코드는 주어진 데이터에 대해 Seaborn을 사용하여 다양한 그래프를 생성
'your_data', 'categorical_column', 'numeric_column' 등은 데이터프레임과 해당 열의 이름으로 변경
본 게시글은 ChatGPT의 도움을 받아 작성하였습니다.
'BigData > Knowledge' 카테고리의 다른 글
코호트 분석(Cohort Analysis) (0) | 2024.03.04 |
---|---|
데이터 분석 & 마케팅 관련 용어 (0) | 2024.02.24 |
데이터 관련 용어 (0) | 2024.02.03 |
OLAP와 OLTP란? (0) | 2024.01.23 |