데이터 분석 부트캠프

[패스트캠퍼스] 데이터 분석 부트캠프 18기 2주차

synnmzzwole 2025. 3. 9. 02:08

패스트캠퍼스 데이터 분석 부트캠프 2주차

이번 주차에는 이동훈 강사님의 <데이터 분석을 위한 기초수학/통계> 실시간 강좌와 <깊이 있는 데이터 분석을 위한 기초수학/통계> 온라인 강좌를 병행하며, 데이터 분석을 위한 기초 수학과 통계 개념을 학습했다. 데이터 전처리, 통계학의 기본 개념, 가설 검정, 회귀 분석, 시계열 데이터 분석, 머신러닝, 그리고 데이터 시각화까지 다양한 내용을 다루었다. 특히, 데이터 분석에서 중요한 기초 통계 개념과 분석 방법론을 실습을 통해 익히며, 이를 실제 데이터 분석에 적용할 수 있도록 학습하는 데 중점을 두었다.


 

데이터 분석을 위한 기초 수학/통계

1. 데이터 전처리

 

1-1. 날짜 데이터 처리

- 날짜 데이터의 원리: 하이픈을 사용해 날짜를 입력하면 서식이 자동으로 [일반]에서 [날짜]로 변경됨

날짜를 입력했는데도 4~5자리의 숫자로 나올 경우  → 다시 서식을 [일반]으로 변경

- 날짜 데이터의 계산: 종료일-시작일 = 기간 (종료일은 기간에서 제외)

- 날짜 데이터 분리 및 합치기:

더보기

=YEAR(셀)

=MONTH(셀)

=DAY(셀)

→ DATE(연도,월,일)

 

1-2. 기능을 활용한 데이터  전처리

1) 텍스트 나누기: [데이터]탭 → [텍스트 나누기] → [구분 기호로 분리됨] → [기타] 체크 → “-” 입력 → [마침]

 

2) 중복된 항목 제거하기: 특정 열에서 중복되어 있는 데이터를 1개씩만 남기고 제거(고유 값만 추출) 선택한 열에 입력된 데이터의 중복만 제거하거나, 중복된 데이터가 포함된 행 전체를 제거할 수도 있음

[데이터]탭 → [중복된 항목 제거] → 중복 값을 제거할 기준 열 선택 → [확인]

 

3)  FILTER: 필터는 필터링(필요한 데이터만 선택 or 필요하지 않은 데이터 제외) 기능과 데이터 정렬(오름차순/내림차순) 기능을 가지고 있음. 기본적으로 사용하는 필터링 이외에도 숫자 필터, 텍스트 필터, 색 기준 필터 등 다양한 필터 사용 가능

 

4)  데이터 유효성 검사: 특정 셀이나 범위에, 상황에 따라 내가 유효하다고 인정하는 데이터만 입력되게 하는 기능

셀이나 범위 선택 → [데이터]탭 → [데이터 유효성 검사] → [제한 대상], [제한 방법] 지정

- 데이터 유효성 검사로 잘못된 데이터 확인하기: 셀이나 범위 선택 → [데이터]탭 → [데이터 유효성 검사] → [잘못된 데이터]

- 데이터 유효성 검사로 목록 만들기: 셀이나 범위 선택 → [데이터]탭 → [데이터 유효성 검사] → [목록] → 데이터 직접 입력 또는 목록 범위 설정

 

2. 데이터 분석/모델링

 

2-1. 통계학: 관심 또는 연구의 대상이 되는 모집단(population)으로 부터 자료를 수집, 정리, 요약을 하고 표본(수집한 자료, sample) 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문

 

(1) 기술 통계학: 요약 통계량, 그래프 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법

(2) 추론 통계학: 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법

   -모집단: 관심의 대상이 되는 집단

   -표본: 모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터

   -가설 검정: 통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의                        합당성 여부를 판정하는 과정

      -귀무 가설: 기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설(차이가 없거나, 의미 있는 차이가 없는                             경우)

      -대립 가설: 귀무 가설에 대립하는 명제. 귀무가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있음

 

2-2. 가설검정의 기준: p-value

:귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률

 

2-3. t-test

두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정

t-test의 시행 단계: 변수 선택 F-검정 t-test 결과 해석

 

더보기

* F-검정: 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정

f-검정의 귀무 가설: 두 집단의 분산에 유의미한 차이가 없다. (p >= 유의수준(0.05)) →등분산 가정 t-test

f-검정의 대립 가설: 두 집단의 분산에 유의미한 차이가 있다. (p < 유의수준(0.05)) →이분산 가정 t-test

=F-검정은 두 집단의 분산 차이를 검정해 각 상황에 맞는 t-test 방법을 선정하기 위해 사용

더보기

t-test의 가설 설정

t-test의 귀무 가설 두 집단의 평균에 유의미한 차이가 없다. (p >= 유의수준(0.05))

t-test의 대립 가설 두 집단의 평균에 유의미한 차이가 있다. (p < 유의수준(0.05))

 

2-4. 회귀분석

두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

<y=ax+b>

*y: 종속변수=우리가 알고 싶은 값

x: 독립변수 = 우리가 알고 있는 값

 

(1) 선형 회귀 분석: 함수식이 선형 함수 식일 때

(1)-1 단순 선형 회귀 분석: 독립변수가 한 개일 때

(1)-2 다중 선형 회귀 분석: 독립변수가 여러 개일 때

(2) 비선형 회귀 분석: 함수식이 선형 함수 식이 아닐 때

 

(1)-1 단순 선형 회귀 분석

독립 변수(x)가 변할 때, 종속 변수(y)값이 어떻게 변하는지를 가장 잘 설명해주는 직선을 찾아 그 직선이 x와 y의 관계를 얼마나 설명하고 있는지 분석하는 방법 → y와 x사이의 1차 방정식 구하기

더보기

-결정 계수: 0 ~ 1값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함

- F값: F 값이 0.05 미만이면 이 회귀 모형이 유의미하므로 사용 가능함

- Y절편 및 X1의 계수 확인: y = ax + b에서 Y 절편은 b값을, X1값은 a(기울기)를 뜻함

 

(1)-2 다중 선형 회귀 분석

독립 변수가 (x1), (x2), (x3) … 등으로 2개 이상일 때 독립 변수들과 종속 변수 간의 관계를 파악하는 분석

더보기

-조정된 결정 계수: 결정 계수는 0 ~ 1값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함

-F값: F 값이 0.05 미만이면 이 회귀 모형이 유의미하므로 사용 가능함

-Y절편 및 각 독립 변수의 p-value와 계수 확인

 

2-5. 시계열 데이터 분석: 시간의 흐름에 따라 발생된 데이터를 분석하는 기법

(1) 정상 시계열 데이터: 정상성을 가지고 있음

(2) 비정상 시계열 데이터: 정상성을 가지고 있지 않음

*정상성: 추세나 계절성을 가지고 있지 않으며, 관측된 시간에 무관한 성질

→ 비정상 시계열 데이터의 정상 시계열 데이터화

 

- 지수평활법: 현재 시점에 가까운 시계열 자료에 큰 가중치를 주고, 과거 시계열 데이터일수록 작은 가중치를 주어 미래 시계열 데이터를 예측하는 기법

더보기

미래의 예측 값 = 과거의 실제 값 X α (가중치) + 과거의 예측 값 X (1- α)

FORECAST.ETS : 엑셀에서 사용할 수 있는 지수 평활법 관련 예측 함수

=FORECAST.ETS(예측할 날짜, 알고있는 실제값들(과거 매출등), 과거의 날짜들, *계절성주기, **누락데이터처리, ***중복시계열처리)

*계절성을 알기 위해서는 먼저 꺾은선그래프 그려본 후 주기를 파악 (적어도 3주기는 반복되어야 계절성 있다고 할 수 있음. 3년치 이상의 데이터 必)

**누락데이터 0으로 처리 할건지(0) 앞뒤 평균값을 낼건지 (1)

***중복된 시계열 평균낼건지, 최대값낼건지 .. 등등, 평균이 가장 일반적

****누락이든 중복이든 미리 다 처리하는 게 가장 베스트

 

2-6. 머신러닝

컴퓨터가 어떤 작업(T, task)을 하는데 있어서 경험(E, experience)으로부터 학습하여 성능(P, Performance)을 향상시키는 학문

 -지도 학습: 지도 학습은 정답(Y)이 있는 데이터를 활용해 데이터를 학습하고, 학습한 모델이 얼마나 정답을 정확하게 맞추는지 평가하는 학습 분류, 회귀 문제들을 해결할 수 있음

 -비지도 학습: 비지도 학습은 정답(Y)이 없는 데이터를 활용해 데이터를 학습 데이터가 어떻게 구성되어 있는지, 혹은 어떻게 분류될 수 있는지에 대한 문제 해결

 -강화 학습: 에이전트(학습 시스템)가 취한 행동에 대해 보상 또는 벌점을 주어 가장 큰 보상을 받는 방향으로 유도하는 방법 가장 큰 보상을 얻기 위해 에이전트가 해야 할 행동을 선택하는 방법을 정의하게 되는데 이를 ‘정책’이라고 함

 

3. 데이터 시각화

데이터 시각화가 중요한 이유: 현대의 기업은 일반적으로 다양한 데이터 소스에서 수집되는 많은 데이터를 처리하지만, raw 데이터는 이해하고 사용하기 어려울 수 있음 → 의사 결정자가 데이터 간의 관계를 식별하고 숨겨진 패턴이나 추세를 감지할 수 있도록 데이터에 시각적 형태를 부여 → 데이터 시각화는 비즈니스 인텔리전스를 개선하고 데이터 중심 의사 결정 및 전략적 계획 수립을 지원하는 이야기를 만드는 스토리텔링

더보기

데이터 시각화는 도구(Tool)가 아니라 전략(Strategy)이다.

-스토리: 데이터 시각화의 목적 (어떤 숫자로 차트를 그릴 것인가?)

-데이터: 데이터의 스토리를 설명하는 데 도움이 되는 적절한 데이터 세트를 식별해야함 (어떤 차트가 숫자를 가장 잘 설명하는가?)

콤보형 차트: 데이터 범위 선택 →[막대형 차트]삽입 → 그래프의 막대 선택 → 마우스 오른쪽 클릭 → [계열 차트 종류 변경]

거품형 차트

폭포형 차트

-시각적 객체: 새로운 인사이트를 공유하는 데 가장 적합한 시각화 방법을 선택 (차트를 어떻게 디자인하는 게 가장 효과적인가?)

1. 차트의 모든 데이터를 단색으로 변경(회색 추천)

2. 차트에서 가장 중요한(강조해야 하는) 데이터 선정

3. 차트의 메인 컬러(1개) 선택

4. 2의 중요 데이터에만 3의 메인 컬러 적용


깊이 있는 데이터 분석을 위한 기초 수학/통계 (온라인 강좌)

1. 기초 통계

 

1-1. 변량, 도수, 상대도수, 도수분포표, 히스토그램

-변량: 자료의 수치, 데이터 값

-계급: 변량을 일정한 간격으로 나눈 구간. 계급을 정할 때 변량의 최소, 최대를 고려

-도수: 각 계급에 속하는 변량의 개수

-상대도수: 각 계급에 속하는 변량의 비율

-도수분포표: 주어진 자료를 계급에 따라 나눔, 각 계급에 속하는 도수를 조사

                     장점: 구간별 분포를 한눈에 알아보기 좋음

                     단점: 각 변량의 정확한 값을 생략

-히스토그램: 도수분포표를 시각화해서 보는 가장 기본적인 방법

 

1-2 평균, 분산, 표준편차

-평균: (산술평균) 변량의 합을 변량의 수로 나눈 값

-분산: 변량이 중심 (평균)에서 얼마나 떨어져있는지를 보기 위한 통계량

-편차: 변량에서 평균을 뺀 값

-분산: 편차의 제곱해서 더한 값

-표준편차: 분산의 제곱근. 관찰값들이 얼마나 흩어져 있는지를 하나의 수치로 나타내는 통계량. 관측된 변량의 스케일을 표준화할 수 있는 좋은 수단

 

1-3. 정규분포, 표준 정규 분포, 표준화

정규분포: 평균과 표준편차에 대해 아래의 확률밀도함수를 가지는 분포

중심극한정리: 독립적인 확률변수들의 평균은 정규분포에 가까워진다.

표준화: 다양한 형태의 정규 분포를 표준 정규 분포로 변환하는 방법

Z=(x-mean)/std

 

1-4. 모집단, 표본, 모평균, 표본평균, 모분산, 표본 분산

모집단: 조사 대상이 되는 전체 집합

모수: 모집단에 대한 요약된 수치. 값에 대한 평균이나 비율 등

표본: 모집단을 대표하는 모집단의 일부

통계량: 표본에 대한 수치적 요약

 

1-5. 추정, 신뢰도, 신뢰구간

표본 추출의 목적: 표본 데이터를 바탕으로 모집단을 추정하기 위해서. 표본이 커질수록 모평균에 가까워진다.

신뢰도: 값이 알맞은 모평균이라고 믿을 수 있는 정도 (95%, 99% 주로 사용)

신뢰구간: 모평균의 추정 구간. 신뢰도에 따라 표본의 수에 따라 정해짐

 

2. 기술통계

 

2-1. 기술 통계와 추론 통계의 차이점

기술통계: 데이터의 간결한 요약 정보.

                 수치적인 통계량 또는 시각화

                 데이터의 특징을 파악하는 관점 (EDA 단계에서 주요하게 사용됨)

 

추론통계: 모집단으로부터 추출한 샘플을 사용

                모집단에 대한 추론이 목적

                전체 모집단을 조사할 수 없을 때 유용

                 p-value 구하는 등의 과정을 거쳐서 모집단에 대한 가설을 감정

 

2-2. 대표값과 기초통계량

 

(1) 중심경향성

데이터의 분포의 중심을 보여주는 값 

퍼짐정도: 자료가 얼마나 흩어져있고 얼마나 모여있는지

(2) 왜도, 첨도

왜도: 분포의 좌우 비대칭성 정도

왜도>0 (좌편향성)

왜도=0 (좌우대칭)

왜도<0 (우편향성)

 

첨도: 분포의 뾰족한 정도

평균을 중심으로 얼마나 가까이 몰려있는지 나타내는 지표

양쪽 꼬리의 두터움 정도를 나타내는 값

편차가 큰 데이터가 많을수록 커짐

이상치에 영향을 많이 받음

 

2-3. 대표값으로 데이터 분포 파악하기

평균 =average

중앙값=median

최빈값=mode

표준편차=stdev.s

표준오차=표준편차/sqrt(데이터수)

분산=var.s

첨도=kurt

왜도=skew *절대값 3기준, 3을넘으면 왼쪽으로 치우치고, -3넘으면 오른쪽으로 치우친 모양

최소값=min

제1사분위수=quartile(범위,1)

중앙값(2분위수)=quartile(범위,2)

제3사분위수=quartile(범위,3)

최대값=max/ =quartile(범위,4)

합=sum

범위=최대값-최소값

IQR=3사분위수-1사분위수

 

2-4. 이상치 탐지

1) 사분위수 활용 이상치 탐지하기

Q3+1.5*IQR 보다 크거나 (B)

Q1-1.5*IQR 보다 작은 관측값 (A)

 

=IF(OR(셀<A,셀>B), 1, 0) 조건 만족하면 1 아니면 0

결과값이 1이면 이상치임을 뜻함

 

2) z-score 활용해서 이상치 탐지하기

정규분포

m 평균 =average

std 표준편차 =stdev.s

표준화=셀-평균/표준편차

outlier_z=if(or셀< -3, 셀>3),1,0)

 

3) box-plot 활용해서 이상치 탐지하기

 

3. 회귀분석, 공분산, 상관계수

공분산: 2개의 확률변수의 선형 관계를 나타내는 값

공분산의 부호

-: 음의 상관관계

0: 상관관계 없음

+: 양의 상관관계

 

※두 변수가 아무 관계 없는 독립 변수일 때: 공분산=0

공분산=0: 두변수가 독립은 아닐 수 있음

 

4. 추론통계 맛보기

정규분포 관련 함수

=NORM.DIST 정규분포 확률밀도함수의 값 (x,평균, 표준편차,0) *1은 누적

=NORM.INV

=NORM.S.DIST 표준정규누적 분포값

=NORM.S.INV 정규분포를 따르는 확률값

 

t-분포 관련 함수

t분포는 언제쓰는가? 표본의 개수가 30개보다 작을 때, 통상적으로 자유도=표본의 개수

t분포와 정규분포: 자유도가 커짐에 따라 (30이상) t분포가 정규분포에 가까워진다

=t.dist(x,자유도,0)


2주차 활동 후기

이번 주차는 데이터 분석에서 필수적인 수학과 통계 개념을 익히며, 데이터 분석의 기초를 탄탄히 다질 수 있었다. 특히, 실시간 강의를 통해 개념을 익힌 후, 온라인 강좌를 활용해 복습하며 개념을 다시 정리할 수 있었다. 앞으로도 이번주처럼 실시간 강의는 물론 온라인 강의까지 활용해 이 같은 학습 방식을 유지하면서 배운 내용을 복습하고, 실습에 적극 적용해보려고 한다. 데이터 분석에서 기본이 중요한 만큼, 기초 개념을 더욱 확실하게 이해하고 활용할 수 있도록 꾸준히 학습을 이어가겠다.