반응형
1주차 계획
- 커리큘럼
- 일정 : 7/1 ~ 7/7
- 진도 : Chapter 01
- 기본 미션 : p. 81의 확인 문제 4번 풀고 인증하기
- 추가 미션 : p. 71 ~ 73 남산 도서관 데이터를 코랩에서 데이터프레임으로 출력하고 화면 캡처하기
미션
기본 미션
p. 81의 확인 문제 4번 풀고 인증하기
- 판다스 read_csv() 함수의 매개변수 설명이 옳은 것은 무엇인가요?
- header 매개변수의 기본값은 1로 CSV 파일의 첫 번째 행을 열 이름으로 사용합니다. - 오답 - header 매개변수의 기본값은 'infer' 다.
- names 매개변수에 행 이름을 리스트로 지정할 수 있습니다. - 오답 - names 매개변수는 열 이름을 리스트로 지정해야 한다.
- encoding 매개변수에 CSV 파일의 인코딩 방식을 지정할 수 있습니다. - 정답
- dtype 매개변수를 사용하려면 모든 열의 데이터 타입을 지정해야 합니다. - 오답 - dict 타입으로 개별 컬럼의 데이터 타입을 지정할 수 있다.
참고 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
추가 미션
p. 71 ~ 73 남산 도서관 데이터를 코랩에서 데이터프레임으로 출력하고 화면 캡처하기
하단의 실습 부분으로 대체
Chapter 01. 데이터 분석을 시작하며
01-1. 데이터 분석이란
데이터 분석과 데이터 과학
데이터 분석과 데이터 과학이 가장 크게 다른 점은 두 분야가 만들어내는 결과물이다.
- 데이터 분석
- 유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정
- 비즈니스 결정을 과학적으로 내리기 위한 도구로 사용
- 올바른 의사 결정을 돕기 위한 통찰(insight)을 제공
- 데이터 과학
- 통계학, 데이터 분석, 머신러닝, 데이터 마이닝 등을 아우르는 큰 개념
- 문제 해결을 위한 최선의 솔루션(solution)을 제공
데이터 과학 vs. 데이터 분석

- 기술통계 (dscriptive statistics)
- 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법
- 예) 평균 계산, 최대값 또는 최소값 찾기
- 탐색적 데이터 분석 (EDA: exploratory data analysis)
- 데이터를 시각화하여 특징을 찾고 분석하는 방법
- 가설검정 (hypothesis testing)
- 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계 방법
데이터 분석가 (data anylyst)
- 데이터 분석가는 프로그래밍, 수학 및 통계, 도메인 지식 능력을 모두 갖추어야 한다.
- 데이터 분석가의 작업 과정
- 넓은 의미 : 데이터 수집/처리/정제, 모델링
- 좁은 의미 : 기술통계, 탐색적 데이터 분석, 가설검정
데이터 분석을 위한 도구
- 프로그래밍 언어
- Python
- R
- SQL
- 프로그래밍 환경
- Google Colab
- 파이썬 필수 패키지
- numpy
- 고성능 과학 계산과 다차원 배열을 위한 패키지
- pandas
- 데이터 분석을 위한 패키지
- 엑셀처럼 표 형태로 저장할 수 있는 데이터프레임(dataframe)을 사용
- matplotlib
- 데이터 시각화를 위한 패키지
- 다른 시각화 패키지 : seaborn, bokeh
- SciPy
- numpy를 기반으로 구축된 수학과 과학 계산 전문 패키지
- 미분, 적분, 확률, 선형대수, 최적화 등을 알고리즘으로 구현
- scikit-learn
- 머신러닝 패키지
- numpy
데이터 마이닝 vs. 머신러닝
- 데이터 마이닝
- 데이터에서 패턴 혹은 지식을 추출하는 작업
- "사람"이 규칙, 패턴을 사용
- 머신러닝
- 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 소프트웨어를 만드는 기술
- "컴퓨터"가 규칙, 패턴을 사용
01-2. 구글 코랩과 주피터 노트북
다 알고 있는 내용이라서 skip...
01-3. 이 도서가 얼마나 인기가 좋을까요?
도서 데이터 찾기
- [국내] 공개 데이터 세트
- [해외] 공개 데이터 세트
코랩에서 데이터 확인하기

파이썬으로 CSV 파일 출력하기
- open() 함수
- 파일을 읽어옴
- 기본적으로 텍스트 파일이 UTF-8 형식으로 읽음
- mode 매개변수를 바이너리 읽기 모드인 'rb'로 지정하면 문자 인코딩 형식에 상관없이 파일을 읽을 수 있다.
- chardet.detect() 함수
- 문자열 인코딩 방식을 알아낼 수 있음
데이터프레임 다루기: 판다스
- 판다스는 CSV 파일을 읽어 데이터프레임(DataFrame)이라는 표 형식 데이터(tabular data)로 저장한다.
- 표 형식 데이터 : 행과 열로 구성된 데이터 구조
- 판다스 데이터 구조
- 데이터프레임(DataFrame) : 데이터를 가로, 세로로 나열한 2차원 배열과 비슷
- 시리즈(series) : 동일한 종류의 데이터가 담긴 1차원 배열과 비슷
- 데이터프레임의 한 열을 따로 선택하면 시리즈 객체가 된다.
read_csv() 함수
to_csv() 메서드
반응형