📊 ADsP 실시간 기록
📊 ADsP 실시간 기록 | 8일차 – 분석의 완성, 기계학습과 인사이트 도출
code.with.siyeon
2025. 6. 28. 21:29
📅 2025년 5월 29일 (8일차, 마지막 날!)
🎓 데이터 분석 준전문가(ADsP) 자격과정 실시간 기록
✨ 오늘의 주제
“모형을 비교하고 선택할 줄 알아야 진짜 분석가다.”
“데이터는 패턴으로 말하고, 분석가는 인사이트로 답한다.”
마지막 날은 지금까지 배운 분석 기법들을 종합적으로 비교·평가하고,
기계 학습·딥러닝의 기초 개념까지 확장하는 시간이었어.
📌 오늘 배운 핵심 내용
✅ 1. 대표 분류 모형 복습
모형 | 특징 |
의사결정나무 | 직관적 규칙 기반, 해석 쉬움, 과적합 주의 |
앙상블 모형 | 여러 모델 결합 → 예측력 향상 (랜덤포레스트, 부스팅 등) |
K-NN | 인접한 데이터 기반 분류, 직관적이지만 연산량 큼 |
SVM | 초평면으로 클래스 분리, 고차원에서도 효과적 |
ANN (인공신경망) | 복잡한 비선형 관계도 모델링 가능, 학습시간/데이터 요구 ↑ |
✅ 2. 오분류표 (Confusion Matrix)
항목 | 설명 |
TP | 실제 양성 & 예측 양성 |
FP | 실제 음성 & 예측 양성 |
FN | 실제 양성 & 예측 음성 |
TN | 실제 음성 & 예측 음성 |
지표 계산:
- 정확도(Accuracy) = (TP + TN) / 전체
- 정밀도(Precision) = TP / (TP + FP)
- 재현율(Recall) = TP / (TP + FN)
- F1 Score = 정밀도와 재현율의 조화 평균
✅ 3. ROC 곡선 & AUC
- ROC 곡선: 민감도(재현율) vs 1 - 특이도
- AUC (Area Under Curve): ROC 곡선 아래 면적 → 1에 가까울수록 성능 우수
🔍 여러 모형의 성능을 시각적으로 비교하는 대표 도구
✅ 4. 군집 분석 (Clustering)
📦 계층적 군집 (Hierarchical)
- 데이터 간 거리 기반 트리 구조 생성 (덴드로그램)
- 병합(Agglomerative), 분할(Divisive) 방식
🔪 분할적 군집 (Partitioning)
- 대표적 방법: K-Means
- 군집 수(k)를 지정하고 중심점 기준으로 데이터 분할
✅ 평가 방법
- 실루엣 계수(Silhouette Score): 군집 내 응집력 + 군집 간 분리도
✅ 5. 자기조직화지도 (SOM)
- 신경망 기반 비지도 학습 군집 모델
- 고차원 데이터를 2D 격자로 시각화 가능
→ 패턴 인식, 고객 세분화 등에서 사용
✅ 6. 연관 분석 (Association Analysis)
- 대표 기법: 장바구니 분석 (Market Basket Analysis)
→ ex: “우유를 산 사람은 빵도 함께 살 확률이 높다”
핵심 지표
지표 | 설명 |
지지도(Support) | A, B 동시에 발생 비율 |
신뢰도(Confidence) | A 발생 시 B도 발생할 확률 |
향상도(Lift) | A, B가 독립일 때 대비 얼마나 더 자주 발생하는가 |
# arules 패키지 활용
✅ 7. 연속형 확률분포 복습
분포 | 특징 |
정규분포 | 평균을 중심으로 대칭 |
t-분포 | 표본 수 적은 경우 사용 |
F-분포 | 분산비 검정에 사용 |
카이제곱 | 범주형 자료 분석에 사용 (교차표) |
✅ 8. 기계학습 & 딥러닝 개념
🤖 기계학습(Machine Learning)
- 컴퓨터가 데이터를 통해 스스로 규칙을 학습하는 알고리즘
🧠 딥러닝(Deep Learning)
- 다층 신경망 기반, 이미지·음성 등 복잡한 비정형 데이터 처리에 강함
구분 | 설명 |
지도학습 | 입력과 정답 존재 (분류, 회귀) |
비지도학습 | 정답 없음 (군집, 차원 축소) |
강화학습 | 보상을 기반으로 학습 (게임, 로봇 제어 등) |
🧠 오늘의 느낀 점
- 마지막 날이라 그런지 그동안 배운 내용을 전방위적으로 연결하며 정리할 수 있었다.
- 각 모델마다 장단점이 있고, 상황에 따라 어떤 모델을 선택하고 왜 그 모델을 쓰는지 설명할 수 있어야 한다는 점이 가장 중요했다.
- ADsP 강의 전반을 통해 이론 + 실무 감각 + 전략적 사고를 모두 배운 느낌!
💬 기억에 남는 문장
“좋은 분석가는 정답을 찾는 사람이 아니라, 설명할 수 있는 사람이다.”
데이터는 거짓말을 하지 않지만,
분석이 엉성하면 해석도 왜곡될 수 있다는 사실을 잊지 말자.
🏁 ADsP 실시간 기록 – 마무리하며
이 8일간의 기록은 단순한 수업 정리를 넘어,
내가 분석가로서 어떤 자세를 가져야 하는지를 고민하게 만든 시간이었다.
이제는 데이터를 숫자가 아닌
문제 해결의 열쇠로 바라볼 수 있게 되었다.
이 경험을 앞으로의 프로젝트, 진로, 도전들에 반드시 활용할 것이다.