📊 ADsP 실시간 기록

📊 ADsP 실시간 기록 | 8일차 – 분석의 완성, 기계학습과 인사이트 도출

code.with.siyeon 2025. 6. 28. 21:29

📅 2025년 5월 29일 (8일차, 마지막 날!)
🎓 데이터 분석 준전문가(ADsP) 자격과정 실시간 기록


✨ 오늘의 주제

“모형을 비교하고 선택할 줄 알아야 진짜 분석가다.”
“데이터는 패턴으로 말하고, 분석가는 인사이트로 답한다.”

마지막 날은 지금까지 배운 분석 기법들을 종합적으로 비교·평가하고,
기계 학습·딥러닝의 기초 개념까지 확장하는 시간이었어.


📌 오늘 배운 핵심 내용

✅ 1. 대표 분류 모형 복습

모형 특징
의사결정나무 직관적 규칙 기반, 해석 쉬움, 과적합 주의
앙상블 모형 여러 모델 결합 → 예측력 향상 (랜덤포레스트, 부스팅 등)
K-NN 인접한 데이터 기반 분류, 직관적이지만 연산량 큼
SVM 초평면으로 클래스 분리, 고차원에서도 효과적
ANN (인공신경망) 복잡한 비선형 관계도 모델링 가능, 학습시간/데이터 요구 ↑
 

✅ 2. 오분류표 (Confusion Matrix)

항목 설명
TP 실제 양성 & 예측 양성
FP 실제 음성 & 예측 양성
FN 실제 양성 & 예측 음성
TN 실제 음성 & 예측 음성
 

지표 계산:

  • 정확도(Accuracy) = (TP + TN) / 전체
  • 정밀도(Precision) = TP / (TP + FP)
  • 재현율(Recall) = TP / (TP + FN)
  • F1 Score = 정밀도와 재현율의 조화 평균

✅ 3. ROC 곡선 & AUC

  • ROC 곡선: 민감도(재현율) vs 1 - 특이도
  • AUC (Area Under Curve): ROC 곡선 아래 면적 → 1에 가까울수록 성능 우수

🔍 여러 모형의 성능을 시각적으로 비교하는 대표 도구


✅ 4. 군집 분석 (Clustering)

📦 계층적 군집 (Hierarchical)

  • 데이터 간 거리 기반 트리 구조 생성 (덴드로그램)
  • 병합(Agglomerative), 분할(Divisive) 방식

🔪 분할적 군집 (Partitioning)

  • 대표적 방법: K-Means
  • 군집 수(k)를 지정하고 중심점 기준으로 데이터 분할

✅ 평가 방법

  • 실루엣 계수(Silhouette Score): 군집 내 응집력 + 군집 간 분리도

✅ 5. 자기조직화지도 (SOM)

  • 신경망 기반 비지도 학습 군집 모델
  • 고차원 데이터를 2D 격자로 시각화 가능
    → 패턴 인식, 고객 세분화 등에서 사용

✅ 6. 연관 분석 (Association Analysis)

  • 대표 기법: 장바구니 분석 (Market Basket Analysis)
    → ex: “우유를 산 사람은 빵도 함께 살 확률이 높다”

핵심 지표

지표 설명
지지도(Support) A, B 동시에 발생 비율
신뢰도(Confidence) A 발생 시 B도 발생할 확률
향상도(Lift) A, B가 독립일 때 대비 얼마나 더 자주 발생하는가
 
# arules 패키지 활용

✅ 7. 연속형 확률분포 복습

분포 특징
정규분포 평균을 중심으로 대칭
t-분포 표본 수 적은 경우 사용
F-분포 분산비 검정에 사용
카이제곱 범주형 자료 분석에 사용 (교차표)
 

✅ 8. 기계학습 & 딥러닝 개념

🤖 기계학습(Machine Learning)

  • 컴퓨터가 데이터를 통해 스스로 규칙을 학습하는 알고리즘

🧠 딥러닝(Deep Learning)

  • 다층 신경망 기반, 이미지·음성 등 복잡한 비정형 데이터 처리에 강함
구분 설명
지도학습 입력과 정답 존재 (분류, 회귀)
비지도학습 정답 없음 (군집, 차원 축소)
강화학습 보상을 기반으로 학습 (게임, 로봇 제어 등)
 

🧠 오늘의 느낀 점

  • 마지막 날이라 그런지 그동안 배운 내용을 전방위적으로 연결하며 정리할 수 있었다.
  • 각 모델마다 장단점이 있고, 상황에 따라 어떤 모델을 선택하고 왜 그 모델을 쓰는지 설명할 수 있어야 한다는 점이 가장 중요했다.
  • ADsP 강의 전반을 통해 이론 + 실무 감각 + 전략적 사고를 모두 배운 느낌!

💬 기억에 남는 문장

“좋은 분석가는 정답을 찾는 사람이 아니라, 설명할 수 있는 사람이다.”

데이터는 거짓말을 하지 않지만,
분석이 엉성하면 해석도 왜곡될 수 있다는 사실을 잊지 말자.


🏁 ADsP 실시간 기록 – 마무리하며

이 8일간의 기록은 단순한 수업 정리를 넘어,
내가 분석가로서 어떤 자세를 가져야 하는지를 고민하게 만든 시간이었다.

이제는 데이터를 숫자가 아닌
문제 해결의 열쇠로 바라볼 수 있게 되었다.
이 경험을 앞으로의 프로젝트, 진로, 도전들에 반드시 활용할 것이다.