데이터 전처리 랩 상세 사용 가이드
이 랩은 진짜 Jupyter Notebook 전체를 웹으로 옮긴 것이 아닙니다.
대신, 전처리를 왜 하는지, 어떤 순서로 보는지, pandas 코드로 어떻게 이어지는지를 직관적으로 익히는 교육용 실습실입니다.
용도
CSV를 보기 좋게 정리하고, 분석 전에 꼭 필요한 기본 정리 단계를 배우는 용도입니다.
핵심 경험
전처리 전과 후를 바로 비교하고, 무엇이 왜 바뀌는지 눈으로 이해하는 것이 핵심입니다.
Jupyter 연결
마지막에 생성된 pandas 코드를 그대로 읽으면, 다음 단계로 Jupyter 실습에 연결할 수 있습니다.
샘플 CSV 선택
처음에는 직접 파일을 준비하지 말고 제공된 샘플부터 여세요. 무엇이 문제인지 비교하기 쉽습니다.
문제 탐지 읽기
행 수, 누락값, 중복 행, 날짜 통일 대상 수치를 먼저 보고 어디를 손볼지 판단합니다.
전처리 단계 켜기
문자열 공백 정리 → 누락값 채우기 → 중복 제거 → 날짜 통일 순서로 하나씩 켜 보세요.
전후 표 비교
왼쪽 원본과 오른쪽 결과를 비교하며 실제로 어떤 셀이 달라졌는지 확인합니다.
pandas 코드 보기
마지막에 생성된 코드를 보면, 브라우저 실습이 Jupyter에서 어떤 코드로 바뀌는지 이해할 수 있습니다.
문자열 공백 정리
앞뒤 공백, 중복 공백, 보기 불편한 텍스트를 깔끔하게 만듭니다.
누락값 채우기
비어 있는 칸을 기본값으로 채워 다음 분석 단계가 멈추지 않게 만듭니다.
중복 행 제거
완전히 같은 행이 두 번 들어간 경우 하나만 남깁니다.
날짜 형식 통일
2026/03/01, 2026-03-01 같은 제각각 날짜를 한 형식으로 맞춥니다.
| date | product | sales |
|---|---|---|
| 2026/03/01 | Notebook | 120000 |
| 2026-03-01 | Notebook | 120000 |
| (blank) | Mouse | (blank) |
이런 데이터는 바로 분석하면 합계, 정렬, 필터가 흔들립니다. 그래서 전처리를 먼저 해서 같은 값은 같은 형식으로 맞춰야 합니다.
이 랩에서 하는 일
전처리 단계를 눈으로 보고, 켜고 끄고, 왜 필요한지 이해합니다.
Jupyter에서 이어지는 일
같은 작업을 pandas 코드로 반복 실행하고, 더 큰 파일과 실제 업무 데이터에 적용합니다.
즉, 이 가이드는
“Jupyter가 무서운 초보자”가 먼저 전처리 감각을 익히는 다리 역할을 합니다.