반응형
SMALL
■ 주피터 노트북으로 진행
■ 하기에 데이터를 통하여 진행
■ pandas를 통해 데이터 불러오기
import pandas as pd
# 불러온 csv 데이터 df라는 변수에 담기
# 필자는 파일들이 한 폴더안에 있어서 경로를 따로 지정 하지않음
df= pd.read_csv("transfermakt50_use_before_init_list.csv")
df.shape #행열의 개수를 가져옴 : 변수형태 #output (column:5, row:50)
(rows, columns) = df.shape # 튜플로 각 변수에 행열의 개수를 담음
■ 다양한 메서드를 통하여 자료형태가 숫자 인 값의 통계치 구하기
■Describe()
- 모든 숫자형 데이터에 대한 통계치
#숫자형 데이터에 관한 통계치
df.describe()
• OutPut
나이 | 선수 몸 값 | |
count | 50.00000 | 50.000000 |
mean | 24.24000 | 92.500000 |
std | 2.72973 | 29.089061 |
min | 16.00000 | 70.000000 |
25% | 23.00000 | 70.000000 |
50% | 24.50000 | 80.000000 |
75% | 26.00000 | 107.500000 |
max | 30.00000 | 180.000000 |
- 특정 컬럼에 대한 평균
df['나이'].describe()
#output
count 50.00000
mean 24.24000
std 2.72973
min 16.00000
25% 23.00000
50% 24.50000
75% 26.00000
max 30.00000
Name: 나이, dtype: float64
■ Sum()
- 특정 컬럼에 대해 모두 더한 값
#50명의 선수 몸 값 더하기
df['선수 몸 값'].sum()
#output
4625.0
■ Mode()
- 특정 컬럼에 대한 최빈값
- 최빈값 : 주어진 값 중에서 가장 많이 나오는 값
#속한 선수들이 가장 많은 나라
df['국가'].mode()
#output
0 Brazil
1 England
dtype: object
■ GroupBy
- 특정 조건으로 그룹화
# 나라별로 그룹화
g = df.groupby('국가')
• OutPut
- size() 메서드 사용
- 그룹내 속한 수로 표현
g.size()
#Output
국가
Argentina 4
Brazil 7
Colombia 1
Croatia 1
Ecuador 1
England 7
France 5
Georgia 1
Germany 3
Hungary 1
Italy 2
Netherlands 2
Nigeria 1
Norway 2
Portugal 4
Spain 4
Sweden 1
Uruguay 3
dtype: int64
- Count() 메서드 사용
- 테이블로 표현
국가 | 이름 | 포지션 | 나이 | 팀 | 선수 몸 값 |
Argentina | 4 | 4 | 4 | 4 | 4 |
Brazil | 7 | 7 | 7 | 7 | 7 |
Colombia | 1 | 1 | 1 | 1 | 1 |
Croatia | 1 | 1 | 1 | 1 | 1 |
Ecuador | 1 | 1 | 1 | 1 | 1 |
England | 7 | 7 | 7 | 7 | 7 |
France | 5 | 5 | 5 | 5 | 5 |
Georgia | 1 | 1 | 1 | 1 | 1 |
Germany | 3 | 3 | 3 | 3 | 3 |
Hungary | 1 | 1 | 1 | 1 | 1 |
Italy | 2 | 2 | 2 | 2 | 2 |
Netherlands | 2 | 2 | 2 | 2 | 2 |
Nigeria | 1 | 1 | 1 | 1 | 1 |
Norway | 2 | 2 | 2 | 2 | 2 |
Portugal | 4 | 4 | 4 | 4 | 4 |
Spain | 4 | 4 | 4 | 4 | 4 |
Sweden | 1 | 1 | 1 | 1 | 1 |
Uruguay | 3 | 3 | 3 | 3 | 3 |
- 선수들 몸값의 합 내림차순 으로 보여주기
# 선수의 몸값의 합 내림차순으로 보여주기
c = df.groupby('팀')
c.sum()
c['선수 몸 값'].sum().sort_values(ascending=False)
#output
팀
Real Madrid 780.0
Manchester City 745.0
Arsenal FC 565.0
FC Barcelona 385.0
Liverpool FC 360.0
Bayern Munich 290.0
Inter Milan 255.0
Chelsea FC 230.0
SSC Napoli 190.0
Paris Saint-Germain 180.0
Newcastle United 155.0
Bayer 04 Leverkusen 110.0
AC Milan 90.0
RB Leipzig 80.0
Manchester United 70.0
Aston Villa 70.0
Tottenham Hotspur 70.0
Name: 선수 몸 값, dtype: float64
LIST
'Programming > python' 카테고리의 다른 글
[ Python ] pandas, pdfplumber 를 사용한 범죄통계 PDF 데이터 전처리 (0) | 2024.05.22 |
---|---|
[ Python ] Mac에서 Pycharm, Conda 사용해서 FastApi 설치 및 테스트 (0) | 2024.05.20 |
[ Python ] 불러온 데이터 csv 로 임포트 해보기 (0) | 2024.05.19 |
[ Python ] requests, beautifulSoup 을 통하여 웹 크롤링 해보기 (0) | 2024.05.16 |
[ Python ] Requests, BeautifulSoup 기본 사용법 (0) | 2024.05.16 |