Notice
Recent Posts
Recent Comments
코드 위의 하루 (A Day on the Code)
📊 ADsP 실시간 기록 | 7일차 – 분석의 깊이를 더하는 기술들 본문
📅 2025년 5월 28일 (7일차)
🎓 데이터 분석 준전문가(ADsP) 자격과정 실시간 기록
✨ 오늘의 주제
“상관 → 축소 → 분류 → 예측”
분석의 전 과정에서 쓰이는 고급 기법들의 기초를 배우다.
오늘은 실제 실무에 가장 가까운 개념들을 빠르게 훑은 날이었다.
📌 오늘 배운 핵심 내용
✅ 1. 상관 분석 (복습)
- 두 변수 간 선형 관계의 방향과 강도 측정
- 지표: 피어슨(r), 스피어만(순위형), 켄달 등
cor(x, y) # 피어슨 상관계수
📌 상관은 인과가 아님에 유의!
→ 상관이 높다고 원인이라 단정하면 오해의 소지 있음
✅ 2. 차원 축소 & 주성분 분석(PCA)
🧩 왜 차원 축소?
- 변수가 많을수록 계산 복잡도 ↑, 해석력 ↓
- 중복 정보 제거, 시각화, 속도 향상 목적
📉 PCA (주성분 분석)
- 고차원 데이터를 선형 결합으로 차원 축소
- 분산(정보량)이 큰 방향으로 새로운 축 구성
개념 | 설명 |
주성분 | 기존 변수들의 선형 결합 |
고유값/고유벡터 | 분산 최대 방향을 찾는 수학적 도구 |
누적 기여율 | 주요 성분 몇 개로 전체 분산을 얼마나 설명하는지 |
prcomp(data, scale=TRUE)
✅ 3. 시계열 자료와 분석
⏳ 시계열 자료(Time Series)
- 시간 순서에 따라 관측된 데이터
예: 일별 기온, 월별 매출, 연도별 방문자 수 등
⌛ 시계열 모형의 주요 구성
- 추세(Trend): 전반적인 증가/감소
- 계절성(Seasonality): 주기적 변화
- 순환(Cycle): 예측 불가한 비정기적 패턴
- 불규칙성(Irregularity): 잡음
📦 분해 시계열 모델
- 시계열 = 추세 + 계절 + 불규칙
→ 각각 따로 분석 후 재조합
✅ 4. 데이터 마이닝과 모형 평가
📌 데이터 마이닝
- 대용량 데이터에서 패턴을 찾아내는 과정
- 목표: 예측, 분류, 연관 규칙, 이상 탐지 등
🎯 모형 평가 지표
지표 | 설명 |
정확도(Accuracy) | 전체 중 맞춘 비율 |
정밀도(Precision) | 예측이 맞은 것 중 실제 맞은 비율 |
재현율(Recall) | 실제 맞은 것 중 예측이 맞은 비율 |
F1 점수 | 정밀도와 재현율의 조화 평균 |
✅ 5. 분류 분석 모형
모형 | 특징 |
로지스틱 회귀 | 이항 분류, 확률 기반 해석 용이 |
의사결정나무 | IF-THEN 규칙 기반, 직관적 해석 |
K-NN | 가까운 데이터 기준으로 분류 |
랜덤포레스트 | 다수의 결정트리 결합한 앙상블 |
SVM | 초평면 기반 분류, 복잡한 경계에 유리 |
✅ 6. 로지스틱 회귀 분석
- 종속변수가 **범주형(이진)**일 때 사용
- p = 1 / (1 + e^(-z)) 형태의 S자 확률 함수 사용
- 결과는 확률로 해석 → 0.5 기준으로 분류
glm(y ~ x1 + x2, family=binomial, data=...)
✅ 7. 의사결정나무 (Decision Tree)
- 데이터 분할을 통해 규칙 생성
- 직관적 해석 가능, 시각화 쉬움
- 단점: 과대적합 가능성 ↑, 일반화에 약함
library(rpart)
rpart(y ~ x1 + x2, data=...)
🧠 오늘의 느낀 점
- 드디어 실무에서 자주 들었던 용어들(PCA, 로지스틱, 결정트리 등)의 정확한 개념과 위치를 알게 된 날이었다.
- 특히 PCA는 시각화나 노이즈 제거에, 로지스틱은 분류 문제에 꼭 필요한 도구란 걸 느꼈다.
- 의사결정나무처럼 해석이 직관적인 모델은 실제 발표나 의사결정 지원 시 큰 강점이 있다는 걸 실감했다.
💬 기억에 남는 문장
“좋은 분석가는 복잡한 모델보다, 해석 가능한 모델을 우선한다.”
결국 분석의 목적은 예측 정확도와 더불어 설명력이라는 걸 다시 한 번 깨달은 하루였다.
'📊 ADsP 실시간 기록' 카테고리의 다른 글
📊 ADsP 실시간 기록 | 8일차 – 분석의 완성, 기계학습과 인사이트 도출 (6) | 2025.06.28 |
---|---|
📊 ADsP 실시간 기록 | 6일차 – 회귀 분석, 예측을 넘어 해석으로 (0) | 2025.06.28 |
📊 ADsP 실시간 기록 | 5일차 – 확률과 추론, 그리고 회귀의 시작 (2) | 2025.06.28 |
📊 ADsP 실시간 기록 | 4일차 – R 실습과 통계 분석의 첫걸음 (0) | 2025.06.28 |
📊 ADsP 실시간 기록 | 3일차 – 분석 프로젝트, 기획에서 실행까지 (1) | 2025.06.28 |