본문 바로가기

카테고리 없음

[혼공데분 12기] 1주차 스터디 및 과제

반응형

1주차 계획

  • 커리큘럼
  • 일정 : 7/1 ~ 7/7
  • 진도 : Chapter 01
  • 기본 미션 : p. 81의 확인 문제 4번 풀고 인증하기
  • 추가 미션 : p. 71 ~ 73 남산 도서관 데이터를 코랩에서 데이터프레임으로 출력하고 화면 캡처하기

미션

기본 미션

p. 81의 확인 문제 4번 풀고 인증하기

  1. 판다스 read_csv() 함수의 매개변수 설명이 옳은 것은 무엇인가요?
  2. header 매개변수의 기본값은 1로 CSV 파일의 첫 번째 행을 열 이름으로 사용합니다. - 오답 - header 매개변수의 기본값은 'infer' 다.
  3. names 매개변수에 행 이름을 리스트로 지정할 수 있습니다. - 오답 - names 매개변수는 열 이름을 리스트로 지정해야 한다.
  4. encoding 매개변수에 CSV 파일의 인코딩 방식을 지정할 수 있습니다. - 정답
  5. dtype 매개변수를 사용하려면 모든 열의 데이터 타입을 지정해야 합니다. - 오답 - dict 타입으로 개별 컬럼의 데이터 타입을 지정할 수 있다.

참고 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

추가 미션

p. 71 ~ 73 남산 도서관 데이터를 코랩에서 데이터프레임으로 출력하고 화면 캡처하기

하단의 실습 부분으로 대체


Chapter 01. 데이터 분석을 시작하며

01-1. 데이터 분석이란

데이터 분석과 데이터 과학

데이터 분석과 데이터 과학이 가장 크게 다른 점은 두 분야가 만들어내는 결과물이다.

  • 데이터 분석
    • 유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정
    • 비즈니스 결정을 과학적으로 내리기 위한 도구로 사용
    • 올바른 의사 결정을 돕기 위한 통찰(insight)을 제공
  • 데이터 과학
    • 통계학, 데이터 분석, 머신러닝, 데이터 마이닝 등을 아우르는 큰 개념
    • 문제 해결을 위한 최선의 솔루션(solution)을 제공

데이터 과학 vs. 데이터 분석

통계학 관점에서 데이터 분석 구분
  • 기술통계 (dscriptive statistics)
    • 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법
    • 예) 평균 계산, 최대값 또는 최소값 찾기
  • 탐색적 데이터 분석 (EDA: exploratory data analysis)
    • 데이터를 시각화하여 특징을 찾고 분석하는 방법
  • 가설검정 (hypothesis testing)
    • 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계 방법

데이터 분석가 (data anylyst)

  • 데이터 분석가는 프로그래밍, 수학 및 통계, 도메인 지식 능력을 모두 갖추어야 한다.
  • 데이터 분석가의 작업 과정
    • 넓은 의미 : 데이터 수집/처리/정제, 모델링
    • 좁은 의미 : 기술통계, 탐색적 데이터 분석, 가설검정

데이터 분석을 위한 도구

  • 프로그래밍 언어
    • Python
    • R
    • SQL
  • 프로그래밍 환경
    • Google Colab
  • 파이썬 필수 패키지
    • numpy
      • 고성능 과학 계산과 다차원 배열을 위한 패키지
    • pandas
      • 데이터 분석을 위한 패키지
      • 엑셀처럼 표 형태로 저장할 수 있는 데이터프레임(dataframe)을 사용
    • matplotlib
      • 데이터 시각화를 위한 패키지
      • 다른 시각화 패키지 : seaborn, bokeh
    • SciPy
      • numpy를 기반으로 구축된 수학과 과학 계산 전문 패키지
      • 미분, 적분, 확률, 선형대수, 최적화 등을 알고리즘으로 구현
    • scikit-learn
      • 머신러닝 패키지

데이터 마이닝 vs. 머신러닝

  • 데이터 마이닝
    • 데이터에서 패턴 혹은 지식을 추출하는 작업
    • "사람"이 규칙, 패턴을 사용
  • 머신러닝
    • 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 소프트웨어를 만드는 기술
    • "컴퓨터"가 규칙, 패턴을 사용

01-2. 구글 코랩과 주피터 노트북

다 알고 있는 내용이라서 skip...

01-3. 이 도서가 얼마나 인기가 좋을까요?

파이썬으로 CSV 파일 출력하기

  • open() 함수
    • 파일을 읽어옴
    • 기본적으로 텍스트 파일이 UTF-8 형식으로 읽음
    • mode 매개변수를 바이너리 읽기 모드인 'rb'로 지정하면 문자 인코딩 형식에 상관없이 파일을 읽을 수 있다.
  • chardet.detect() 함수
    • 문자열 인코딩 방식을 알아낼 수 있음

데이터프레임 다루기: 판다스

  • 판다스는 CSV 파일을 읽어 데이터프레임(DataFrame)이라는 표 형식 데이터(tabular data)로 저장한다.
    • 표 형식 데이터 : 행과 열로 구성된 데이터 구조
  • 판다스 데이터 구조
    • 데이터프레임(DataFrame) : 데이터를 가로, 세로로 나열한 2차원 배열과 비슷
    • 시리즈(series) : 동일한 종류의 데이터가 담긴 1차원 배열과 비슷
    • 데이터프레임의 한 열을 따로 선택하면 시리즈 객체가 된다.

read_csv() 함수

to_csv() 메서드

반응형