코드 위의 하루 (A Day on the Code)

📊 ADsP 실시간 기록 | 4일차 – R 실습과 통계 분석의 첫걸음 본문

📊 ADsP 실시간 기록

📊 ADsP 실시간 기록 | 4일차 – R 실습과 통계 분석의 첫걸음

code.with.siyeon 2025. 6. 28. 20:39

📅 2025년 5월 22일 (4일차)
🎓 데이터 분석 준전문가(ADsP) 자격과정 실시간 기록


✨ 오늘의 주제

“R로 데이터를 읽고, 정리하고, 요약하자”
“통계 분석은 집중화에서 시작된다”

오늘은 R 언어를 직접 다뤄보며,
데이터의 구조를 파악하고 통계적 분석의 기초를 실습한 날이었다.
처음 다루는 R이 낯설었지만, 시각화나 요약 함수가 꽤 직관적이라 생각보다 금방 적응됐다.


📌 오늘 배운 핵심 내용

✅ 1. R 언어 기초 복습

x <- c(10, 20, 30)
mean(x)    # 평균
summary(x) # 요약통계
  • 벡터, 리스트, 행렬, 데이터프레임 등 자료구조 형식
  • RStudio 환경 구성, 콘솔/소스창 사용법 숙지

✅ 2. summary() 함수

  • 데이터프레임 또는 벡터에 대해 최소값, 최대값, 평균, 사분위수 요약 제공
summary(c(5, 10, 15, 20, 25))

🔍 데이터 탐색 시 가장 먼저 사용하는 기초 통계 요약 함수


✅ 3. 그래프 함수들

함수 기능
plot() 기본 산점도, 선형 그래프
hist() 히스토그램
boxplot() 이상치 탐지 및 분포 시각화
barplot() 막대그래프
 
hist(c(1,2,2,3,3,4,5))
boxplot(c(1,2,2,3,100))  # 이상치 시각화

✅ 4. 기타 유용 함수

함수 설명
mean(), median(), sd() 집중 경향 및 분산 분석
is.na(), na.omit() 결측치 처리
which.max(), which.min() 최댓값/최솟값 위치 확인
 

✅ 5. 결측치 & 이상값 처리

🧩 결측치(NA)

  • is.na()로 확인
  • na.omit() 또는 평균/중앙값 대체

🧨 이상값

  • boxplot()으로 확인
  • 사분위 범위(IQR)를 벗어난 값은 이상값으로 판단

✅ 6. 통계 분석의 기초

📊 데이터 분류

  • 명목형 (범주): 성별, 지역
  • 순서형: 고객 등급
  • 이산형: 정수 수치 (ex. 방문 횟수)
  • 연속형: 실수 수치 (ex. 키, 온도)

🎯 집중화 경향

지표 의미
평균 전체 합 / 개수
중앙값 순서 중간값
최빈값 가장 많이 나타난 값
 

🧠 데이터 왜도(Skewness)에 따라 평균 ≠ 중앙값 ≠ 최빈값일 수 있음 → 해석 주의!


🧠 오늘의 느낀 점

  • 처음 해본 R이 의외로 굉장히 직관적이었다.
    summary, hist, boxplot 등은 앞으로 EDA(탐색적 데이터 분석)에서 정말 많이 쓰일 것 같다.
  • 데이터를 숫자가 아닌 ‘의미와 분포로 바라보는 훈련’이 시작된 날이었다.
  • 특히 이상값 처리와 변수 분류는 이후 분석 모델에도 직접 영향을 준다는 걸 체감함.

💬 기억에 남는 문장

“데이터는 숫자가 아니다. 현상을 담은 이야기다.”

그 수치들이 어떤 맥락에서 나왔고, 어떤 이상이 있고, 왜 평균과 중앙값이 다른지를 질문하며 바라보는 눈이 중요하다는 걸 실감했다.