About
home
청년들의 시작
home

5장. 데이터 처리와 분석

이 장에서 배우는 것

CSV/엑셀 파일의 구조를 파악하는 방법
여러 파일을 하나로 합치고 열 이름 불일치 해결하기
데이터 품질 점검 (빈 칸, 중복, 이상값)
집계표와 그래프 만들기
분석 결과를 검증하는 방법
큰 파일과 엑셀 피벗 테이블 중 무엇을 선택할지
영업팀에서 월별 매출 CSV 파일 12개를 받았습니다. 각 파일은 한 달치 판매 기록입니다. 분기 보고용으로 이 데이터를 합치고, 지역별·월별 매출을 정리하고, 추이 그래프까지 만들어야 합니다. 이 장에서는 이 과정을 처음부터 끝까지 따라갑니다.

파일 하나를 먼저 살펴본다

12개를 한꺼번에 열기 전에, 하나만 먼저 봅니다. 데이터가 어떻게 생겼는지 알아야 뭘 시킬 수 있습니다.
sales_01.csv 파일의 구조를 보여줘. 처음 5행과 열 이름, 각 열의 데이터 타입을 알려줘
Plain Text
복사
Claude가 파일을 읽고 구조를 정리합니다:
sales_01.csv (1,247행) 열 구성: - 날짜 (텍스트, "2024-01-05" 형식) - 지역 (텍스트: 서울, 부산, 대구 등 8개 지역) - 상품명 (텍스트) - 수량 (숫자) - 단가 (숫자) - 매출액 (숫자) 처음 5행: 날짜 지역 상품명 수량 단가 매출액 2024-01-05 서울 무선이어폰 3 89,000 267,000 2024-01-05 부산 충전케이블 12 15,000 180,000
Plain Text
복사
Python이 필요할 수 있습니다 데이터 처리에는 Python이라는 도구가 필요할 수 있습니다. 여러분이 직접 코드를 쓸 일은 없습니다. 설치되어 있지 않으면 Claude가 "Python이 필요합니다. 설치할까요?"라고 묻습니다. Y를 누르면 자동으로 설치됩니다.

파일을 열었는데 이상할 때

실제로 해보면 결과가 이렇게 깔끔하지 않은 경우가 많습니다.
한글이 깨져서 나올 수 있습니다.
CSV 파일의 인코딩 문제입니다. 한국에서 만든 엑셀 파일을 CSV로 저장하면 EUC-KR 인코딩이 되는 경우가 흔합니다.
한글이 깨져 보여. EUC-KR 인코딩으로 다시 읽어봐
Plain Text
복사
그래도 안 되면:
CP949 인코딩으로 시도해봐
Plain Text
복사
한국 윈도우 환경 파일은 CP949인 경우가 많습니다 동료에게 받은 파일이 깨질 때는 이 순서로 시도해보세요: UTF-8 → EUC-KR → CP949
숫자가 텍스트로 저장되어 있을 수 있습니다.
매출액 열에 콤마가 포함되어 있으면 Python이 숫자로 인식하지 못합니다. 합계를 계산했는데 결과가 0이거나 에러가 나면 이 문제를 의심해보세요.
매출액 열이 텍스트인 것 같아. 콤마를 제거하고 숫자로 변환해줘
Plain Text
복사
탭이나 세미콜론으로 구분된 파일일 수 있습니다.
확장자가 .csv여도 실제로는 다른 구분자를 쓰는 경우가 있습니다.
파일의 처음 3줄을 있는 그대로 보여줘
Plain Text
복사

12개 파일을 하나로 합친다

구조를 확인했으면 파일을 합칩니다.
sales_01.csv부터 sales_12.csv까지 12개 파일을 하나로 합쳐줘
Plain Text
복사
열 이름이 모든 파일에서 같으면 바로 합쳐집니다. 하지만 실무에서는 이런 일이 자주 생깁니다:
확인이 필요합니다. sales_01~sales_09 파일의 열 이름: "매출액" sales_10~sales_12 파일의 열 이름: "매출" 같은 열인가요?
Plain Text
복사
Claude가 열 이름이 다른 걸 발견하면 확인을 요청합니다.
응, 같은 열이야. "매출액"으로 통일해줘
Plain Text
복사
합친 뒤 결과를 확인합니다:
합쳐진 파일은 총 몇 행인지, 월별 행 수를 보여줘
Plain Text
복사
행 수가 예상과 크게 다르면 점검이 필요합니다 파일이 빠졌거나 중복된 겁니다. 이 시점에서 확인하는 게 나중에 문제를 발견하는 것보다 훨씬 낫습니다.

합치기에서 흔히 생기는 문제

엑셀 파일에 시트가 여러 개 있는 경우:
Sheet1에 있는 데이터를 사용해줘
Plain Text
복사
셀 병합이 있는 경우:
엑셀에서 셀을 병합한 경우, CSV로 변환하면 병합된 셀의 값이 첫 번째 행에만 들어가고 나머지는 빈 칸이 됩니다.
이 파일은 셀 병합이 있는 것 같아. 병합된 셀의 값을 아래 행에도 채워줘
Plain Text
복사
12개 파일이 완전히 같은 형식이 아닌 경우:
합친 후 "12개 파일의 열 구조가 모두 같았는지 확인해줘"라고 한 번 더 점검하세요.

데이터를 점검한다

합친 데이터에 문제가 없는지 확인합니다. 이 단계를 건너뛰면 나중에 분석 결과를 신뢰할 수 없습니다.
이 데이터에 문제가 있는지 점검해줘. 빈 칸, 중복 행, 이상한 값이 있는지 확인해줘
Plain Text
복사
점검 결과: 1. 빈 칸 - "지역" 열: 23행에서 빈 칸 발견 - "매출액" 열: 5행에서 빈 칸 발견 2. 중복 행 - 완전히 동일한 행 12개 발견 (6쌍) 3. 이상값 - "매출액" 열: 음수 값 3건 (-15,000, -89,000, -267,000) - "수량" 열: 0인 행 8건
Plain Text
복사
각 문제를 어떻게 처리할지 지시합니다:
지역이 비어 있는 행은 날짜와 상품명을 보고 추정할 수 있으면 채워줘. 추정이 안 되면 "미확인"으로 표시해줘. 매출액이 비어 있는 행은 수량 × 단가로 계산해서 채워줘. 중복 행은 하나만 남기고 삭제해줘. 음수 매출은 반품 처리인 것 같으니 그대로 두고, 별도로 표시해줘.
Plain Text
복사
Claude가 발견하지 못하는 문제들 - 논리적 오류: "같은 상품인데 단가가 89,000원과 890,000원으로 다른 행" - 하나가 오타일 가능성이 높지만 Claude는 두 가격이 모두 데이터에 있으니 둘 다 정상으로 봅니다. "같은 상품인데 단가가 크게 다른 행이 있는지 확인해줘"라고 별도로 요청하세요. - 원본 자체가 틀린 경우: 영업팀에서 1월 매출을 2월 파일에 잘못 넣었다면, Claude가 알 방법이 없습니다.

집계표를 만든다

데이터가 깨끗해지면 본격적인 분석에 들어갑니다.
지역별, 월별 매출 합계를 표로 정리해줘
Plain Text
복사
1월 2월 3월 ... 12월 합계 서울 45,230,000 48,150,000 52,340,000 ... 61,200,000 623,450,000 부산 23,100,000 21,890,000 25,670,000 ... 28,340,000 289,120,000
Plain Text
복사
엑셀에서 피벗 테이블을 만드는 것과 같은 결과입니다. 함수를 설정하는 대신 말로 지시합니다.
검증도 말로 합니다:
서울 3월 매출 합계가 맞는지 원본 데이터에서 직접 확인해줘
Plain Text
복사

계산 결과를 검증하는 습관

Claude의 숫자를 의심 없이 쓰면 안 됩니다 Claude의 집계가 틀리는 경우가 있습니다. 흔하지는 않지만, 발생하면 보고서 전체의 신뢰성이 무너집니다. 핵심 수치 2~3개만이라도 엑셀에서 직접 확인하세요. Claude의 결과와 엑셀의 SUM 결과가 일치하면 나머지도 신뢰할 수 있습니다.
집계 기준이 애매하면 명시합니다:
반품을 제외한 순매출로 다시 계산해줘
Plain Text
복사
결제일 기준으로 월별 매출을 집계해줘
Plain Text
복사

그래프를 만든다

숫자만으로는 파악이 어려운 추이를 그래프로 봅니다.
월별 총 매출 추이를 꺾은선 그래프로 그려줘
Plain Text
복사
Claude가 그래프를 PNG 파일로 저장합니다. 파일이 작업 폴더에 저장되므로 파일 탐색기에서 열어볼 수 있습니다.
그래프를 수정하고 싶으면:
지역별로 선을 나눠서 그려줘. 범례를 오른쪽 위에 넣어줘
Plain Text
복사

그래프의 한계

한글 폰트 문제가 자주 발생합니다.
그래프를 열었는데 한글이 네모(□□□)로 표시되면:
그래프에서 한글이 깨져. 한글 폰트를 설정해서 다시 그려줘
Plain Text
복사
Mac에서는 AppleGothic, Windows에서는 Malgun Gothic 폰트를 사용하도록 Claude가 설정합니다.
최종 발표 자료용 그래프는 전용 도구가 낫습니다 Claude 그래프는 추이를 빠르게 확인하는 용도로는 좋지만, 색상, 폰트, 여백을 하나하나 다듬어야 하는 최종 보고서용 그래프는 엑셀이나 구글 시트에서 직접 만드는 게 더 빠릅니다.

큰 파일을 다룰 때

엑셀 파일이 10만 행을 넘으면 한 번에 처리할 때 시간이 오래 걸리거나 메모리가 부족할 수 있습니다.
big-data.csv 파일의 처음 10행만 보여줘. 총 행 수도 알려줘
Plain Text
복사
구조를 파악한 뒤, 조건으로 범위를 나눕니다:
2024년 1분기 데이터만 먼저 추출해서 분석해줘
Plain Text
복사
지역별로 파일을 나눠서 저장해줘
Plain Text
복사
Claude가 "메모리가 부족합니다" 같은 메시지를 보여주면 범위를 더 줄여서 다시 시도합니다.

엑셀 피벗 테이블이 나은 경우

모든 데이터 작업에 Claude Code가 필요한 건 아닙니다.
상황
추천 도구
파일 1개, 단순 집계
엑셀 피벗 테이블
실시간 탐색, 드릴다운
엑셀 피벗 테이블
파일 여러 개, 형식 제각각
Claude Code
정제 + 분석 + 보고서 한 흐름
Claude Code
반복 작업 자동화
Claude Code
고객 설문조사 자유응답 분석 고객 만족도 조사에서 자유응답 200건을 받았습니다. 수작업으로 읽으면서 분류하면 반나절이 걸리는 양입니다. Claude에게 맡기면 주제별 분류와 핵심 키워드 추출을 한 번에 처리합니다. survey_responses.csv 파일에 고객 자유응답이 들어 있어. 응답을 주제별로 분류하고, 자주 등장하는 키워드 상위 10개를 뽑아줘 여기서 끝이 아닙니다. "부정적 응답만 모아서 불만 유형별로 정리해줘"라고 이어서 요청하면, CS팀에 바로 전달할 수 있는 개선 과제 목록이 만들어집니다. 200건의 목소리에서 패턴을 찾아내는 일을 사람이 하면 놓치는 것이 생기지만, Claude는 전체를 한 번에 읽고 분류합니다.
인사팀 근태 데이터 이상 패턴 탐지 월별 근태 엑셀에서 "지각 3회 이상인 직원"을 찾는 건 엑셀 필터로도 쉽습니다. Claude가 진짜 도움이 되는 건 여러분이 미처 생각하지 못한 패턴을 발견할 때입니다. "특정 팀의 월요일 지각률이 다른 요일의 3배"처럼, 필터 조건을 걸 생각조차 못한 패턴을 찾아냅니다. attendance_2024.xlsx 파일을 분석해서 눈에 띄는 패턴을 찾아줘. 요일별, 팀별, 시기별로 특이한 점이 있는지 확인해줘 엑셀 필터는 여러분이 질문한 것만 답합니다. Claude는 여러분이 질문하지 않은 것까지 찾아줍니다. 데이터를 탐색하는 단계에서 Claude의 이 차이가 가장 크게 드러납니다.
마케팅 캠페인 성과 데이터 크로스 분석 Google Ads, Meta, 네이버 광고에서 각각 CSV를 다운로드하면 열 이름이 모두 다릅니다. 구글은 "Cost", 메타는 "Amount Spent", 네이버는 "총비용". 이걸 하나로 합쳐서 비교하는 게 첫 번째 난관입니다. Claude에게 "이 세 파일의 열을 매칭해줘"라고 하면 열 이름 대응표를 만들고 병합까지 처리합니다. google_ads.csv, meta_ads.csv, naver_ads.csv 세 파일을 하나로 합쳐줘. 플랫폼별 CPA를 비교하고, 전환당 비용이 가장 낮은 플랫폼 기준으로 예산 재배분 안을 제안해줘 플랫폼별 CPA 비교, 캠페인별 성과 순위, 예산 재배분 추천까지 한 흐름으로 나옵니다. 각 플랫폼 관리자 화면을 따로 보면서 수동으로 비교하던 시간을 크게 줄일 수 있습니다.

직접 해보기

CSV나 엑셀 파일이 있다면 같은 과정을 따라 해보세요:
"이 파일의 구조를 보여줘"로 시작
한글 깨짐이 있으면 "EUC-KR 인코딩으로 다시 읽어봐" 시도
"이 데이터에 문제가 있는지 점검해줘"로 품질 확인
원하는 기준으로 집계나 필터링 요청
핵심 수치 1-2개를 엑셀에서 직접 교차 검증

정리

데이터 작업은 구조 확인 → 병합/정리 → 품질 검증 → 분석 → 시각화 순서로 진행합니다.
CSV 인코딩 문제(EUC-KR, CP949)와 숫자가 텍스트로 저장된 경우는 자주 발생합니다. 첫 파일을 열 때 확인하세요.
원본 파일을 덮어쓰지 마세요. "정제된 결과를 sales_cleaned.csv로 별도 저장해줘"라고 지시하는 습관을 들이세요.
분석 결과는 원본 데이터로 검증하는 습관을 들이세요. 핵심 수치 2~3개를 엑셀에서 교차 확인하면 전체를 신뢰할 수 있습니다.
큰 파일은 범위를 좁혀서 나누어 처리합니다.

 웹에서 정보를 수집하고 정리하는 방법은 다음 장에서 다룹니다.