파이썬으로 배우는 데이터시각화

2020 숙명 Women IN Engineering

파이썬으로 배우는 데이터 시각화 강의내용 참고

숙명여자대학교 기초교양대학 융합학부 박영민교수님 | 공학박사

1. Numpy 분석 함수

- numpy 함수 개요

numpy (numerical python) : 과학계산을 위파이썬 데이터 분석 패키지, 다차원 배열을 처리하는데 필요한 여러 유용한 기능 제공, 데이터 분석을 위해서는 pandas와 함께 필수적으로 숙지해야하는 패키지

다차원배열 (ndarray) : 같은 자료형의 데이터를 담을 수 있는 포괄적인 다차원 배열, ndarray의 모든 원소는 같은 자료형만 사용가능하며 배열의 차원을 rank라 하고, 각 차원의 크기를 튜플로 표시하는 것을 shape라고 한다

- numpy 함수 다루기

numpy 배열 생성

명렁어 : np.array (리스트 형태로 데이터 입력)

배열 만들기 : 연속되거나 일정한 규칙을 가진 숫자 또는 테이터 타입 명시

명령어 : np.arrange (시작값, 끝값, 간격) or np.arrange (끝값)

행렬만들기

명령어 : np.reshape (행, 열, 차원 order = 'C' or 'F')

order = 'C' : 값을 행부터 채워넣음 (기본값, 생략가능), order = 'F' : 값을 열부터 채워넣음

행렬계산 np.add : 덧셈, np.subtract : 뺄셈, np.multiply : 곱셈, np.dot : 행렬연산

다차원배열 만들기

명령어 : np.reshape (행, 열, 차원 order = 'C' or 'F')

order = 'C' : 값을 행부터 채워넣음 (기본값, 생략가능), order = 'F' : 값을 열부터 채워넣음

다차원 배열에서 요소의 최댓값 및 최솟값 반환 _ 명령어 : np.amax : 최댓값, np.amin : 최솟값

다차원 배열에서 데이터 타입 확인 _ 명령어 : 변수명.dtype

다차원 배열에서 행, 열, 차원 확인 _ 명령어 : 변수명.shape

- numpy 제공 함수

abs, fabs : 절댓값을 리턴, 복소수가 아닌 경우에는 빠른 연산을 위해 fabs 이용 numpy.abs(arr)

sqrt : 제곱근 계산 numpy.sqrt(arr)

square : 제곱계산 numpy.square(arr)

exp : 지수계산 numpy.exp(arr)

Log : 로그계산 numpy.Log(arr)

add : 두 배열을 더한다 numpy.add(arr1, arr2)

subtract : 첫번째 배열에서 두번째 배열을 뺀다 numpy.subtract(arr1, arr2)

multiply : 두 배열을 곱한다 numpy.multiply(arr1, arr2)

2. Pandas 함수와 데이터 다루기

- pandas 함수 개요

pandas : 자료구조 및 데이터 분석/처리를 위한 파이썬 패키지, 기본적으로 정의되는 자료구조인 Series와 DataFrame사용

Series : index와 value의 형태를 갖고 있는 pandas의 자료구조, Series의 index와 value로 구성된다는 점에서 value만 갖는 리스트와 구분, index는 기본값으로 0, 1, 2, 3 ... 으로 자동생성

- DataFrame과 데이터 불러오기

1 ) DataFrame과 데이터 파일 불러오기

import pandas as pd

df = pd.read_csv('file name.csv') CSV 파일 불러 올 경우

df = pd.read_excel('file name.xlsx) Excel 파일 불러 올 경우

엑셀과 같이 숫자, 문자 등 다양한 데이터를 하나의 표에 담을 수 있는 자료구조

각 열은 서로 다른 자료형이 될 수 있고 열 이름, 행 이름을 가진다

2 ) DataFramer과 데이터 살펴보기

df.head() : 데이터 앞 몇개의 행 불러옴, 공백인 경우 5개

df.tail() : 데이터 뒤 몇개의 행 불러옴, 공백인 경우 5개

df[1:6] : 1에서 5까지 출력

명령어 : 변수명 [처음 출력할 행 : 마지막으로 출력할 행 + 1]

데이터프레임 특정 열 불러오기 : df['amount'], df[df.columns[[1, 3, 10]]], df.loc[:, 'decision':'location']

3 ) DataFrame과 데이터 변환하기

복사, 추가 , 삭제 : df_columns = df.copy(), df_columns.columns, df_columns = df_columns[['a', 'b', 'c']], df_olumns.head()

변수이름 변경, 행 추가 및 삭제 : df_columns.rename(columns={'a' : 'b'}, inplace=True), df['a'] = df['b']*1.1, del df['a']

데이터 케이스 추출 : df_a = df[(df['a']=1)], df_a : a 중 1만 추출하여 별도의 프레임 만들기

3. 분석데이터 살펴보기

- 실습용 데이터 둘러보기

데이터 속성

분석모형

- 자료와 분석 간의 관계

척도의 종류 : 명목척도, 서열척도, 등간척도, 비율척도

자료유형과 분석 방법 :

척도와 분석간의 관계		독립변수
척도와 분석간의 관계		범주형 자료	연속형 자료
종속변수	범주형 자료	교차분석	로지스틱 회귀분석, 판별분석, 군집분석
종속변수	연속형 자료	t-test, 분산분석	상관관계분석, 선형회귀분석

교차분석 : 독립변수와 종속변수가 모두 범주형인 경우 두 변수간의 관계를 파악하는 통계분석방법

t-test, 분산분석 : 독립변수가 범주형이고, 종속변수가 연속형 자료간의 관계를 파악하는 통계분석방법

상관관계, 선형회귀분석 : 독립변수와 종속변수가 모두 연속형인 경우 두 변수 간의 관계를 파악하는 통계분석방법

- 실습용 데이터 분석하기

자료 간의 어떤 분석이 적합한지 생각하기

4. 데이터 탐색과 빈도분석

- 데이터 탐색

개념 : 데이터 분석을 수행하기 전에 각 변수 및 변수간의 관계를 탐색적 목적으로 파악하는 것

데이터 탐색이 충실해야 성능 좋은 모델을 얻을 수 있다

목적 : 자료입력의 실수나 이상값 탐지, 분석의 가정이 충족되었는지 파악, 적절한 모델 선택을 위한 초기 진단, 변수들 간 관계가 존재하는지 파악함으로써 독립변수와 종속변수간에 +관계인지 -관계인지, 얼마나 관련성이 큰지를 평가

단일 변수의 데이터 탐색 분석 : 정규성, 이상치

변수들 간의 데이터 탐색 분석 : 선형성, 이상치

- 빈도분석

분석 및 자료의 특성 : 범주형 자료의 응답자, 퍼센트를 구하는 분석방법, 범주형자료가 분석의 대상

분석목적 : 범주형 자료의 응답 및 구성 표본수와 비율 파악, 모든 변수에 대해 잘못 입력된 값, 혹은 이상치가 있는지 파악, 하위범주가 적정한지 검토

- 빈도분석 실습

ㅇㅇ변수에 대한 빈도분석 수행

원, 막대 그래프 등을 이용한 빈도분석 시각화

replace함수를 이용한 열 이름 변경

5. 데이터 탐색과 기술통계분석

- 기술 통계분석

분석 및 자료의 특성 : 연속형 자료의 평균.표준편차.왜도.첨도를 구하는 분석방법, 연속형자료가 분석의 대상

분석목적 : 연속형 자료의 중심, 자료의 퍼짐, 치우침과 뾰족함 등의 특성 요약을 파악, 표준화점수를 계산하여 각 응답값의 표준화점수를 저장

- 연속형 자료의 통계량

중심화경향 : 평균, 중위수, 최빈값

산포도 : 분산, 표준편차, 범위, 사분위범위

분포도 : 왜도, 첨도

- 데이터 탐색을 위한 기술통계 함수

count, describe, min/max, argmin/argmax, idxmin/idxmax, quantile, sum, mean, median, mad, var, std, skew, kurt, cumsum, summin/cummax, cumprod, diff, pct_change, corr, cov

- 기술통계분석 실습

1 ) 데이터 특성 분석 및 기술

데이터의 중심화경향, 산포도, 분포도 기술 통계분석

최댓값, 최솟값, 합계, 평균, 분산, 표준편차, 왜도, 첨도 등 요약 및 정리

data명.info()

data명.describe()

data명['변수명'].describe()

2 ) 그래프 시각화

import matplotlib.pyplot as plt

df.hist(bins = a, figsize = (b, c))

df_a = df['d'] : d변수만 보기

df_d.hist(bins = a, figsize = (b, c))

df_a = df['e'] : e변수만 보기

df_e.hist(bins = a, figsize = (b, c))

seaborn패키지 이용 : import seaborn as sns

sns.distplot(df_d, rug=True)

sns.jointplot(x="d", y="e", data=df) : d와 e간 산점도/분포 그려보기

- 이상치 제거

1 ) IQR 기준 이상치 제거

사위수를 이용한 이상치 제거

df.quantile()

Q1 = df['변수명'].quantile(q=0.25)

Q2 = df['변수명'].quantile(q=0.50)

Q3 = df['변수명'].quantile(q=0.75)

IQR = Q3 - Q1

df[(df['변수명']<Q3+IQR*1.5) & df['변수명']>Q1-IQR*1.5)]

2 ) 연구자 기준 이상치 제거

a는 5 미만, b는 10 미만으로 데이터 필터링

ndf = df.filter(['a','b'])

ndf = ndf[(ndf['b']<10) & (ndf['a']<5)]

ndf.hist(bins=50, figsize=(15,10))

sns.jointplot(x='a', y='b', data=ndf)

3 ) log 변환후 결과

import numpy as np

ndf['logamount']=np.log(ndf['a'])

sns.jointplot(x='a', y='b', data=ndf, kind="kde", space=0, zorder=0, n_levels=6)

'교내활동' 카테고리의 다른 글

사물인터넷 (0)	2020.04.14
자기주도 진로설계프로젝트 (0)	2020.04.06
제5회 숙명 CITIZENSHIP FAIR (0)	2019.05.10
2019-1 숙명 재학생멘토단 (0)	2019.05.10
2018-2 숙명 재학생멘토단 (0)	2019.05.10

𝒷𝓁𝒾𝓈𝓈𝒻𝓊𝓁 𝓂𝑜𝓂𝑒𝓃𝓉𝓈

파이썬으로 배우는 데이터시각화

'교내활동' 카테고리의 다른 글

티스토리툴바

파이썬으로 배우는 데이터시각화

'교내활동' 카테고리의 다른 글

'교내활동' Related Articles

티스토리툴바