본문 바로가기

전체 글66

코호트 분석(Cohort Analysis) 코호트 분석(Cohort Analysis) 코호트란 '특정 기간 동안 공통된 특성이나 경험을 갖는 사용자 집단'을 의미 코호트 분석은 이 집단이 행동 패턴이나 유지율을 '시간의 흐름'을 기준으로 추적, 비교하여 분석하는 것 주로 사용자 행동의 변화나 성과를 이해하고, 비즈니스나 제품의 성과 개선을 위해 활용 1. 코호트 분석 과정 1) 코호트 정의 분석하고자 하는 특성이나 기간에 따라 코호트를 정의 ex) 가입한 월별 사용자, 특정 지역의 고객, 특정 행동을 한 사용자 등을 코호트로 정의 가능 2) 데이터 수집 정의한 코호트에 해당하는 데이터를 수집 이는 보통 사용자 행동 로그, 구매 기록, 이벤트 트래킹 등을 통해 이루어집니다. 3) 측정 지표 설정 분석하고자 하는 목적에 따라 적절한 측정 지표를 설정.. 2024. 3. 4.
데이터 분석 & 마케팅 관련 용어 데이터 분석 & 마케팅 관련 용어 1. 코호트 (Cohort) 특정 기간이나 사건을 기준으로 그룹화된 사용자 집합을 의미 예를 들어, 같은 달에 가입한 사용자들로 구성된 코호트를 비교하여 그들의 특성이나 행동 패턴을 파악 2. 퍼널 (Funnel) 사용자가 제품 또는 서비스를 이용하는 과정을 단계별로 나타내는 모델 예를 들어, 사용자가 웹사이트에 방문하고 회원가입을 마치며 결제까지 이어지는 과정을 퍼널로 표현 3. 리텐션 (Retention) 특정 기간 동안 고객이 제품 또는 서비스를 계속 이용하는 정도를 나타냅니다. 고객 유지율이 높을수록 좋은 성과로 평가 4. LTV (Customer Lifetime Value) 고객 1명이 회사에서 가져올 수 있는 예상 수익을 나타내는 지표 LTV는 고객의 유지 기.. 2024. 2. 24.
결정계수 (R-squared) 결정계수 (Coefficient of Determination, R-squared) 회귀분석에서 종속 변수의 변동량을 설명하는 지표로 사용 0에서 1 사이의 값을 가지며, 1에 가까울수록 회귀 모형이 종속 변수의 변동량을 잘 설명한다는 것을 의미 결정계수는 종속 변수와 독립 변수 간의 선형 관계의 강도를 측정하는 데 사용 이러한 통계적 개념을 통해 데이터에 숨겨진 패턴을 발견하고 추론할 수 있습니다. 결정계수를 구하는 이유 모델의 적합도 평가 결정계수는 회귀 모델이 주어진 데이터를 얼마나 잘 설명하는지를 나타내므로, 모델의 적합도를 평가하는 데 사용 변수의 중요도 비교 여러 변수가 있는 경우, 각 변수의 중요도를 비교할 수 있습니다. 결정계수가 높은 변수는 종속 변수를 예측하는 데 더 많은 설명력을 가지.. 2024. 2. 8.
상관계수 (Correlation Coefficient) 상관계수 (Correlation Coefficient) 상관계수(correlation coefficient)는 두 변수 간의 선형적 관계의 강도와 방향을 나타내는 통계적 측도입니다. 상관계수는 두 변수 간의 관계를 이해하고, 모델을 개선하는 데 중요한 도구로, 범위는 일반적으로 -1 < r < 1 이며, 다음과 같은 성질이 있습니다. 1에 가까울수록 두 변수는 양의 선형 관계를 갖습니다. -1에 가까울수록 두 변수는 음의 선형 관계를 갖습니다. 0에 가까울수록 두 변수는 선형적으로 상관 관계가 없습니다. 공식 1. 데이터 탐색 두 변수 간의 관계를 시각화하고 이해하는 데 도움이 됩니다. 상관계수는 두 변수 간의 선형적 관계의 강도를 제공하므로 데이터 탐색 및 시각화에 유용합니다. 2. 회귀 분석 회귀 분.. 2024. 2. 7.
공분산 (Covariance) 공분산 (Covariance) 두 변수 간의 관계를 나타내는 통계적 측도로, 두 변수가 함께 어떻게 변하는지를 보여줍니다. 공분산은 양수, 음수, 0일 수 있습니다. 공분산 = 양수: 두 변수가 함께 증가or감소하는 경향 공분산 = 음수: 한 변수가 증가할 때 다른 변수는 감소하는 경향 공분산 = 0: 두 변수가 선형 관계가 없음을 의미 공분산의 크기가 클수록 두 변수 간의 관계가 강하다고 해석 가능 공식 이 공식은 각 데이터 포인트에서 각 변수의 평균을 빼고, 그 결과를 곱한 후 모두 합하여 데이터 포인트 수로 나눈 것 여기서 n−1로 나누는 것은 표본이 모집단을 대표하기 위한 것이며, 편향 보정을 위해 사용 또한, 두 변수 X와 Y가 동일한 데이터셋에서 완전히 독립적이라면 공분산은 0 하지만 공분산이.. 2024. 2. 6.
itertools.combinations itertools.combinations itertools.combinations은 itertools 모듈에서 제공되는 함수 중 하나로, 주어진 iterable(반복 가능한 객체)에서 가능한 모든 조합을 생성합니다. 여기에는 iterable에서 원소를 선택하여 지정된 길이의 조합을 만드는 작업이 포함됩니다. from itertools import combinations my_list = [1, 2, 3, 4] # 길이가 2인 조합 생성 combs = combinations(my_list, 2) # 생성된 조합 출력 for comb in combs: print(comb) # 결과 (1, 2) (1, 3) (1, 4) (2, 3) (2, 4) (3, 4) 본 게시글은 ChatGPT의 도움을 받아 작성하였습니다. 2024. 2. 5.
LEAD 함수, LAG 함수 LEAD 함수, LAG 함수 1. LEAD() LEAD(): 현재 행을 기준으로 다음 행의 값 반환 LEAD(expression, offset, default) OVER (partition_clause ORDER BY order_clause) expression: 가져올 값의 열이나 식 offset(선택적): 가져올 행의 상대적인 위치, 기본값=1로 다음 행을 의미 (2인 경우 2번째 다음 행을 의미) default(선택적): LEAD 함수가 더 이상 행이 없는 경우 반환할 기본값 (미지정 시 NULL 반환) partition_clause(선택적): 데이터를 파티션으로 나누는 데 사용 ('PARTITION BY'를 추가하여 category별 계산) order_clause: 데이터 정렬 지정에 사용 # [.. 2024. 2. 4.
데이터 관련 용어 데이터 관련 용어 데이터 레이크 (Data Lake) 정의: 정형/비정형 데이터를 원본 형태로 저장하는 '중앙 저장소'를 의미 데이터 레이크는 다양한 형태의 데이터를 보관하고 필요한 시점에서 처리 및 분석할 수 있도록 합니다. 특징: 스키마나 구조를 미리 정의하지 않고 Raw Data를 보관 용도: 대규모 데이터 분석 및 기계 학습에 활용 데이터 웨어하우스 (Data Warehouse) 정의: 다양한 소스에서 추출한 대규모 데이터를 통합하고 중앙에서 저장하는 시스템 특징: 주로 분석 및 의사결정 지원을 위한 데이터를 저장하며, 일반적으로 대용량이며 정형화된 데이터를 다룹니다. 용도: 기업의 의사결정 프로세스를 지원하고 통합된 데이터를 활용하여 비즈니스 인텔리전스(BI)를 수행 데이터 마트 (Data Ma.. 2024. 2. 3.
EXISTS 연산자 EXISTS 연산자 EXISTS 연산자는 서브쿼리의 결과가 비어 있지 않은 경우에만 true를 반환하고, 그렇지 않으면 false를 반환하는 논리 연산자입니다. 이 연산자는 외부 쿼리의 각 행에 대해 서브쿼리를 실행하고, 서브쿼리의 결과가 적어도 하나 이상의 행을 반환하는지 여부를 확인합니다. 이러한 특징으로 인해 EXISTS 연산자는 조건이 충족되는지 여부에 따라 결과를 제어할 수 있습니다. EXISTS 연산자는 일반적으로 SELECT 문이나 WHERE 절에서 사용됩니다. 외부 쿼리의 각 행에 대해 서브쿼리가 실행되며, 서브쿼리의 결과가 비어 있지 않으면 외부 쿼리에 해당 행이 포함됩니다. 서브쿼리의 결과가 비어 있으면 외부 쿼리에 해당 행은 포함되지 않습니다. 'Nike' 브랜드 유무 확인 SELEC.. 2024. 2. 2.