실습으로 돌아가기Data Preprocessing Guide

처음 쓰는 사람용

데이터 전처리 랩 상세 사용 가이드

이 랩은 진짜 Jupyter Notebook 전체를 웹으로 옮긴 것이 아닙니다.
대신, 전처리를 왜 하는지, 어떤 순서로 보는지, pandas 코드로 어떻게 이어지는지를 직관적으로 익히는 교육용 실습실입니다.

용도

CSV를 보기 좋게 정리하고, 분석 전에 꼭 필요한 기본 정리 단계를 배우는 용도입니다.

핵심 경험

전처리 전과 후를 바로 비교하고, 무엇이 왜 바뀌는지 눈으로 이해하는 것이 핵심입니다.

Jupyter 연결

마지막에 생성된 pandas 코드를 그대로 읽으면, 다음 단계로 Jupyter 실습에 연결할 수 있습니다.

언제 쓰면 좋은가

엑셀이나 CSV를 열었는데 값이 들쭉날쭉해 보일 때

비어 있는 칸 때문에 합계나 필터가 이상하게 나올 때

같은 데이터가 두 번 들어간 것 같을 때

날짜 형식이 제각각이라 정렬이 꼬일 때

먼저 기억할 것

전처리는 데이터를 예쁘게 꾸미는 작업이 아니라, 분석 가능하게 만드는 작업입니다.

처음에는 한 번에 다 켜지 말고, 단계별로 켜서 차이를 보는 편이 훨씬 이해가 쉽습니다.

이 랩은 실전 대용량 처리보다 학습용 흐름 이해에 초점을 둡니다.

한눈에 보는 흐름도

샘플 CSV 선택

처음에는 직접 파일을 준비하지 말고 제공된 샘플부터 여세요. 무엇이 문제인지 비교하기 쉽습니다.

문제 탐지 읽기

행 수, 누락값, 중복 행, 날짜 통일 대상 수치를 먼저 보고 어디를 손볼지 판단합니다.

전처리 단계 켜기

문자열 공백 정리 → 누락값 채우기 → 중복 제거 → 날짜 통일 순서로 하나씩 켜 보세요.

전후 표 비교

왼쪽 원본과 오른쪽 결과를 비교하며 실제로 어떤 셀이 달라졌는지 확인합니다.

pandas 코드 보기

마지막에 생성된 코드를 보면, 브라우저 실습이 Jupyter에서 어떤 코드로 바뀌는지 이해할 수 있습니다.

전처리 단계가 실제로 무슨 뜻인가

문자열 공백 정리

앞뒤 공백, 중복 공백, 보기 불편한 텍스트를 깔끔하게 만듭니다.

Before

" Keyboard "

After

"Keyboard"

누락값 채우기

비어 있는 칸을 기본값으로 채워 다음 분석 단계가 멈추지 않게 만듭니다.

Before

sales = ""

After

sales = "0"

중복 행 제거

완전히 같은 행이 두 번 들어간 경우 하나만 남깁니다.

Before

같은 날짜/제품/값이 2행

After

중복 1행 제거

날짜 형식 통일

2026/03/01, 2026-03-01 같은 제각각 날짜를 한 형식으로 맞춥니다.

Before

2026/03/01

After

2026-03-01

샘플로 이해하기

date	product	sales
2026/03/01	Notebook	120000
2026-03-01	Notebook	120000
(blank)	Mouse	(blank)

이런 데이터는 바로 분석하면 합계, 정렬, 필터가 흔들립니다. 그래서 전처리를 먼저 해서 같은 값은 같은 형식으로 맞춰야 합니다.

Jupyter와 어떤 관계인가

이 랩에서 하는 일

전처리 단계를 눈으로 보고, 켜고 끄고, 왜 필요한지 이해합니다.

Jupyter에서 이어지는 일

같은 작업을 pandas 코드로 반복 실행하고, 더 큰 파일과 실제 업무 데이터에 적용합니다.

즉, 이 가이드는

“Jupyter가 무서운 초보자”가 먼저 전처리 감각을 익히는 다리 역할을 합니다.

데이터 전처리 랩 상세 사용 가이드

용도

핵심 경험

Jupyter 연결

샘플 CSV 선택

문제 탐지 읽기

전처리 단계 켜기

전후 표 비교

pandas 코드 보기

문자열 공백 정리

누락값 채우기

중복 행 제거

날짜 형식 통일

이 랩에서 하는 일

Jupyter에서 이어지는 일

즉, 이 가이드는

처음이면 이렇게 시작하세요

FAQ