📊 ADsP 실시간 기록

📊 ADsP 실시간 기록 | 7일차 – 분석의 깊이를 더하는 기술들

code.with.siyeon 2025. 6. 28. 21:21

📅 2025년 5월 28일 (7일차)
🎓 데이터 분석 준전문가(ADsP) 자격과정 실시간 기록


✨ 오늘의 주제

“상관 → 축소 → 분류 → 예측”
분석의 전 과정에서 쓰이는 고급 기법들의 기초를 배우다.
오늘은 실제 실무에 가장 가까운 개념들을 빠르게 훑은 날이었다.


📌 오늘 배운 핵심 내용

✅ 1. 상관 분석 (복습)

  • 두 변수 간 선형 관계의 방향과 강도 측정
  • 지표: 피어슨(r), 스피어만(순위형), 켄달 등
cor(x, y)  # 피어슨 상관계수

📌 상관은 인과가 아님에 유의!
→ 상관이 높다고 원인이라 단정하면 오해의 소지 있음


✅ 2. 차원 축소 & 주성분 분석(PCA)

🧩 왜 차원 축소?

  • 변수가 많을수록 계산 복잡도 ↑, 해석력 ↓
  • 중복 정보 제거, 시각화, 속도 향상 목적

📉 PCA (주성분 분석)

  • 고차원 데이터를 선형 결합으로 차원 축소
  • 분산(정보량)이 큰 방향으로 새로운 축 구성
개념 설명
주성분 기존 변수들의 선형 결합
고유값/고유벡터 분산 최대 방향을 찾는 수학적 도구
누적 기여율 주요 성분 몇 개로 전체 분산을 얼마나 설명하는지
 
prcomp(data, scale=TRUE)

✅ 3. 시계열 자료와 분석

⏳ 시계열 자료(Time Series)

  • 시간 순서에 따라 관측된 데이터
    예: 일별 기온, 월별 매출, 연도별 방문자 수 등

⌛ 시계열 모형의 주요 구성

  • 추세(Trend): 전반적인 증가/감소
  • 계절성(Seasonality): 주기적 변화
  • 순환(Cycle): 예측 불가한 비정기적 패턴
  • 불규칙성(Irregularity): 잡음

📦 분해 시계열 모델

  • 시계열 = 추세 + 계절 + 불규칙
    → 각각 따로 분석 후 재조합

✅ 4. 데이터 마이닝과 모형 평가

📌 데이터 마이닝

  • 대용량 데이터에서 패턴을 찾아내는 과정
  • 목표: 예측, 분류, 연관 규칙, 이상 탐지 등

🎯 모형 평가 지표

지표 설명
정확도(Accuracy) 전체 중 맞춘 비율
정밀도(Precision) 예측이 맞은 것 중 실제 맞은 비율
재현율(Recall) 실제 맞은 것 중 예측이 맞은 비율
F1 점수 정밀도와 재현율의 조화 평균
 

✅ 5. 분류 분석 모형

모형 특징
로지스틱 회귀 이항 분류, 확률 기반 해석 용이
의사결정나무 IF-THEN 규칙 기반, 직관적 해석
K-NN 가까운 데이터 기준으로 분류
랜덤포레스트 다수의 결정트리 결합한 앙상블
SVM 초평면 기반 분류, 복잡한 경계에 유리
 

✅ 6. 로지스틱 회귀 분석

  • 종속변수가 **범주형(이진)**일 때 사용
  • p = 1 / (1 + e^(-z)) 형태의 S자 확률 함수 사용
  • 결과는 확률로 해석 → 0.5 기준으로 분류
glm(y ~ x1 + x2, family=binomial, data=...)

✅ 7. 의사결정나무 (Decision Tree)

  • 데이터 분할을 통해 규칙 생성
  • 직관적 해석 가능, 시각화 쉬움
  • 단점: 과대적합 가능성 ↑, 일반화에 약함
library(rpart)
rpart(y ~ x1 + x2, data=...)

🧠 오늘의 느낀 점

  • 드디어 실무에서 자주 들었던 용어들(PCA, 로지스틱, 결정트리 등)의 정확한 개념과 위치를 알게 된 날이었다.
  • 특히 PCA는 시각화나 노이즈 제거에, 로지스틱은 분류 문제에 꼭 필요한 도구란 걸 느꼈다.
  • 의사결정나무처럼 해석이 직관적인 모델은 실제 발표나 의사결정 지원 시 큰 강점이 있다는 걸 실감했다.

💬 기억에 남는 문장

“좋은 분석가는 복잡한 모델보다, 해석 가능한 모델을 우선한다.”

결국 분석의 목적은 예측 정확도와 더불어 설명력이라는 걸 다시 한 번 깨달은 하루였다.