Notice
Recent Posts
Recent Comments
코드 위의 하루 (A Day on the Code)
📊 ADsP 실시간 기록 | 4일차 – R 실습과 통계 분석의 첫걸음 본문
📅 2025년 5월 22일 (4일차)
🎓 데이터 분석 준전문가(ADsP) 자격과정 실시간 기록
✨ 오늘의 주제
“R로 데이터를 읽고, 정리하고, 요약하자”
“통계 분석은 집중화에서 시작된다”
오늘은 R 언어를 직접 다뤄보며,
데이터의 구조를 파악하고 통계적 분석의 기초를 실습한 날이었다.
처음 다루는 R이 낯설었지만, 시각화나 요약 함수가 꽤 직관적이라 생각보다 금방 적응됐다.
📌 오늘 배운 핵심 내용
✅ 1. R 언어 기초 복습
x <- c(10, 20, 30)
mean(x) # 평균
summary(x) # 요약통계
- 벡터, 리스트, 행렬, 데이터프레임 등 자료구조 형식
- RStudio 환경 구성, 콘솔/소스창 사용법 숙지
✅ 2. summary() 함수
- 데이터프레임 또는 벡터에 대해 최소값, 최대값, 평균, 사분위수 요약 제공
summary(c(5, 10, 15, 20, 25))
🔍 데이터 탐색 시 가장 먼저 사용하는 기초 통계 요약 함수
✅ 3. 그래프 함수들
함수 | 기능 |
plot() | 기본 산점도, 선형 그래프 |
hist() | 히스토그램 |
boxplot() | 이상치 탐지 및 분포 시각화 |
barplot() | 막대그래프 |
hist(c(1,2,2,3,3,4,5))
boxplot(c(1,2,2,3,100)) # 이상치 시각화
✅ 4. 기타 유용 함수
함수 | 설명 |
mean(), median(), sd() | 집중 경향 및 분산 분석 |
is.na(), na.omit() | 결측치 처리 |
which.max(), which.min() | 최댓값/최솟값 위치 확인 |
✅ 5. 결측치 & 이상값 처리
🧩 결측치(NA)
- is.na()로 확인
- na.omit() 또는 평균/중앙값 대체
🧨 이상값
- boxplot()으로 확인
- 사분위 범위(IQR)를 벗어난 값은 이상값으로 판단
✅ 6. 통계 분석의 기초
📊 데이터 분류
- 명목형 (범주): 성별, 지역
- 순서형: 고객 등급
- 이산형: 정수 수치 (ex. 방문 횟수)
- 연속형: 실수 수치 (ex. 키, 온도)
🎯 집중화 경향
지표 | 의미 |
평균 | 전체 합 / 개수 |
중앙값 | 순서 중간값 |
최빈값 | 가장 많이 나타난 값 |
🧠 데이터 왜도(Skewness)에 따라 평균 ≠ 중앙값 ≠ 최빈값일 수 있음 → 해석 주의!
🧠 오늘의 느낀 점
- 처음 해본 R이 의외로 굉장히 직관적이었다.
summary, hist, boxplot 등은 앞으로 EDA(탐색적 데이터 분석)에서 정말 많이 쓰일 것 같다. - 데이터를 숫자가 아닌 ‘의미와 분포로 바라보는 훈련’이 시작된 날이었다.
- 특히 이상값 처리와 변수 분류는 이후 분석 모델에도 직접 영향을 준다는 걸 체감함.
💬 기억에 남는 문장
“데이터는 숫자가 아니다. 현상을 담은 이야기다.”
그 수치들이 어떤 맥락에서 나왔고, 어떤 이상이 있고, 왜 평균과 중앙값이 다른지를 질문하며 바라보는 눈이 중요하다는 걸 실감했다.
'📊 ADsP 실시간 기록' 카테고리의 다른 글
📊 ADsP 실시간 기록 | 6일차 – 회귀 분석, 예측을 넘어 해석으로 (0) | 2025.06.28 |
---|---|
📊 ADsP 실시간 기록 | 5일차 – 확률과 추론, 그리고 회귀의 시작 (2) | 2025.06.28 |
📊 ADsP 실시간 기록 | 3일차 – 분석 프로젝트, 기획에서 실행까지 (1) | 2025.06.28 |
📊 ADsP 실시간 기록 | 2일차 – 빅데이터 전략과 분석 기획의 시작 (0) | 2025.06.28 |
📊 ADsP 실시간 기록 | 1일차 – 데이터의 시대를 여는 기본기 (2) | 2025.06.28 |