Manipulação de dados - III¶

Agregação e agrupamento¶

Agregando informações de linhas ou colunas¶

Para agregar informações (p.ex. somar, tomar médias etc.) de linhas ou colunas podemos utilizar alguns métodos específicos já existentes em DataFrames e Series, tais como sum, mean, cumsum e aggregate (ou equivalentemente agg):

import pandas as pd
import numpy as np

dados_covid_PB = pd.read_csv('https://superset.plataformatarget.com.br/superset/explore_json/?form_data=%7B%22slice_id%22%3A1550%7D&csv=true', 
                             sep=',', index_col=0)

dados_covid_PB.agg(lambda vetor: np.sum(vetor))[['casosNovos','obitosNovos']].astype('int')

casosNovos     440037
obitosNovos      9294
dtype: int64

Podemos conferir esta agregação resultante com o número de casos acumulados e óbitos acumulados

dados_covid_PB.head()

	casosAcumulados	casosNovos	descartados	recuperados	obitosAcumulados	obitosNovos	Letalidade
data
2021-09-26	441155	134	484336	333751	9294	2.0	0.0211
2021-09-25	441021	165	484331	333441	9292	2.0	0.0211
2021-09-24	440856	225	484301	332845	9290	3.0	0.0211
2021-09-23	440631	203	484276	332540	9287	3.0	0.0211
2021-09-22	440428	297	484265	331958	9284	6.0	0.0211

Isto também pode ser obtido utilizando o método sum de DataFrames e Series:

dados_covid_PB[['casosNovos','obitosNovos']].sum()

casosNovos     440037.0
obitosNovos      9294.0
dtype: float64

Podemos recriar a coluna 'obitosAcumulados' com o método cumsum (soma cumulativa):

dados_covid_PB.obitosNovos.sort_index().cumsum()

data
2020-03-16       0.0
2020-03-17       0.0
2020-03-18       0.0
2020-03-19       0.0
2020-03-20       0.0
               ...  
2021-09-22    9284.0
2021-09-23    9287.0
2021-09-24    9290.0
2021-09-25    9292.0
2021-09-26    9294.0
Name: obitosNovos, Length: 559, dtype: float64

Selecionando entradas distintas¶

Para selecionar entradas distintas utilizamos o método drop_duplicate. Aqui, para exemplificar, vamos utilizar o banco de dados oficial sobre COVID no Brasil:

# pode levar um tempo para ler...
covid_BR = pd.read_excel('../database/HIST_PAINEL_COVIDBR_18jul2020.xlsx')

covid_BR.tail(3)

	Unnamed: 0	regiao	estado	municipio	coduf	codmun	codRegiaoSaude	nomeRegiaoSaude	data	semanaEpi	populacaoTCU2019	casosAcumulado	casosNovos	obitosAcumulado	obitosNovos	Recuperadosnovos	emAcompanhamentoNovos	interior/metropolitana
629803	629803	Centro-Oeste	DF	Brasília	53	530010.0	53001.0	DISTRITO FEDERAL	2020-07-16	29	3015268	77621	2242	1037	36	NaN	NaN	1.0
629804	629804	Centro-Oeste	DF	Brasília	53	530010.0	53001.0	DISTRITO FEDERAL	2020-07-17	29	3015268	79400	1779	1060	23	NaN	NaN	1.0
629805	629805	Centro-Oeste	DF	Brasília	53	530010.0	53001.0	DISTRITO FEDERAL	2020-07-18	29	3015268	81163	1763	1075	15	NaN	NaN	1.0

# resumo da tabela
covid_BR.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 629806 entries, 0 to 629805
Data columns (total 18 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 Unnamed: 0              629806 non-null  int64  
 regiao                  629806 non-null  object 
 estado                  629661 non-null  object 
 municipio               623352 non-null  object 
 coduf                   629806 non-null  int64  
 codmun                  625746 non-null  float64
 codRegiaoSaude          623352 non-null  float64
 nomeRegiaoSaude         623352 non-null  object 
 data                    629806 non-null  object 
 semanaEpi               629806 non-null  int64  
populacaoTCU2019        627412 non-null  object 
casosAcumulado          629806 non-null  int64  
casosNovos              629806 non-null  int64  
obitosAcumulado         629806 non-null  int64  
obitosNovos             629806 non-null  int64  
Recuperadosnovos        91 non-null      float64
emAcompanhamentoNovos   91 non-null      float64
interior/metropolitana  623352 non-null  float64
dtypes: float64(5), int64(7), object(6)
memory usage: 86.5+ MB

# todos os estados únicos
covid_BR.estado.drop_duplicates().array

<PandasArray>
[ nan, 'RO', 'AC', 'AM', 'RR', 'PA', 'AP', 'TO', 'MA', 'PI', 'CE', 'RN', 'PB',
 'PE', 'AL', 'SE', 'BA', 'MG', 'ES', 'RJ', 'SP', 'PR', 'SC', 'RS', 'MS', 'MT',
 'GO', 'DF']
Length: 28, dtype: object

# ordena alfabeticamente
covid_BR.estado.drop_duplicates().dropna().sort_values().array

<PandasArray>
['AC', 'AL', 'AM', 'AP', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MG', 'MS', 'MT',
 'PA', 'PB', 'PE', 'PI', 'PR', 'RJ', 'RN', 'RO', 'RR', 'RS', 'SC', 'SE', 'SP',
 'TO']
Length: 27, dtype: object

Agrupando dados por valores em colunas e agregando os resultados¶

Vamos determinar uma coluna para agrupar. Consideraremos o DataFrame covid_BRe selecionaremos os estados PB, PE, RJ e SP para realizar análises agrupando os resultados por estados.

covid_BR.query('estado in ["PB", "PE", "RJ", "SP"]')

	Unnamed: 0	regiao	estado	municipio	coduf	codmun	codRegiaoSaude	nomeRegiaoSaude	data	semanaEpi	populacaoTCU2019	casosAcumulado	casosNovos	obitosAcumulado	obitosNovos	Recuperadosnovos	emAcompanhamentoNovos	interior/metropolitana
1740	1740	Nordeste	PB	NaN	25	NaN	NaN	NaN	2020-02-25	9	4018127	0	0	0	0	NaN	NaN	NaN
1741	1741	Nordeste	PB	NaN	25	NaN	NaN	NaN	2020-02-26	9	4018127	0	0	0	0	NaN	NaN	NaN
1742	1742	Nordeste	PB	NaN	25	NaN	NaN	NaN	2020-02-27	9	4018127	0	0	0	0	NaN	NaN	NaN
1743	1743	Nordeste	PB	NaN	25	NaN	NaN	NaN	2020-02-28	9	4018127	0	0	0	0	NaN	NaN	NaN
1744	1744	Nordeste	PB	NaN	25	NaN	NaN	NaN	2020-02-29	9	4018127	0	0	0	0	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
448655	448655	Sudeste	SP	Estiva Gerbi	35	355730.0	35141.0	BAIXA MOGIANA	2020-07-14	29	11304	62	6	3	1	NaN	NaN	0.0
448656	448656	Sudeste	SP	Estiva Gerbi	35	355730.0	35141.0	BAIXA MOGIANA	2020-07-15	29	11304	65	3	3	0	NaN	NaN	0.0
448657	448657	Sudeste	SP	Estiva Gerbi	35	355730.0	35141.0	BAIXA MOGIANA	2020-07-16	29	11304	70	5	3	0	NaN	NaN	0.0
448658	448658	Sudeste	SP	Estiva Gerbi	35	355730.0	35141.0	BAIXA MOGIANA	2020-07-17	29	11304	75	5	4	1	NaN	NaN	0.0
448659	448659	Sudeste	SP	Estiva Gerbi	35	355730.0	35141.0	BAIXA MOGIANA	2020-07-18	29	11304	75	0	4	0	NaN	NaN	0.0

130768 rows × 18 columns

Inspecionando o conjunto de dados, observamos que os dados para estado são apresentados com o valor NaN para codmun e quando codmun possui um valor diferente de NaN, o resultado é apenas para o município do código em questão.

Como estamos interessados nos valores por estado, vamos selecionar apenas os dados com codmun contendo NaN.

covid_estados = covid_BR.query('estado in ["PB", "PE", "RJ", "SP"]')
covid_apenas_estados = covid_estados.loc[covid_estados['codmun'].isna()]

Vamos agora selecionar apenas as colunas de interesse. Para tanto, vejamos os nomes das colunas:

covid_apenas_estados.columns

Index(['Unnamed: 0', 'regiao', 'estado', 'municipio', 'coduf', 'codmun',
       'codRegiaoSaude', 'nomeRegiaoSaude', 'data', 'semanaEpi',
       'populacaoTCU2019', 'casosAcumulado', 'casosNovos', 'obitosAcumulado',
       'obitosNovos', 'Recuperadosnovos', 'emAcompanhamentoNovos',
       'interior/metropolitana'],
      dtype='object')

covid_apenas_estados = covid_apenas_estados[['estado', 'data', 'casosNovos', 'obitosNovos']]

A data parece ser o index natural, já que o index atual não representa nada. Observe que teremos index repetidos, pois teremos as mesmas datas em estados diferentes.

covid_apenas_estados

	estado	data	casosNovos	obitosNovos
1740	PB	2020-02-25	0	0
1741	PB	2020-02-26	0	0
1742	PB	2020-02-27	0	0
1743	PB	2020-02-28	0	0
1744	PB	2020-02-29	0	0
...	...	...	...	...
3040	SP	2020-07-14	12000	417
3041	SP	2020-07-15	6569	316
3042	SP	2020-07-16	8872	398
3043	SP	2020-07-17	5367	339
3044	SP	2020-07-18	4612	270

580 rows × 4 columns

covid_apenas_estados = covid_apenas_estados.set_index('data')

covid_apenas_estados

	estado	casosNovos	obitosNovos
data
2020-02-25	PB	0	0
2020-02-26	PB	0	0
2020-02-27	PB	0	0
2020-02-28	PB	0	0
2020-02-29	PB	0	0
...	...	...	...
2020-07-14	SP	12000	417
2020-07-15	SP	6569	316
2020-07-16	SP	8872	398
2020-07-17	SP	5367	339
2020-07-18	SP	4612	270

580 rows × 3 columns

Agrupando com o método groupby¶

Podemos escolher uma (ou mais colunas, incluindo o índice) para agrupar os dados. Ao agruparmos os dados, receberemos um objeto do tipo DataFrameGroupBy. Para vermos os resultados, devemos agregar os valores:

covid_estados_agrupado = covid_apenas_estados.groupby('estado')

covid_estados_agrupado.sum().rename({'casosNovos':'Casos Totais', 'obitosNovos':'Obitos Totais'},axis=1)

	Casos Totais	Obitos Totais
estado
PB	66971	1477
PE	78509	5928
RJ	135230	11919
SP	412027	19647

Podemos agrupar por mais de uma coluna. Vamos fazer dois grupos. grupo_1 formado por PB e PE e grupo_2 formado por RJ e SP. Em seguida, vamos agrupar por grupo e por data:

covid_estados_grupos = covid_apenas_estados.copy()
col_grupos = covid_estados_grupos.estado.map(lambda estado: 'grupo_1' if estado in ['PB','PE']
                                                  else 'grupo_2')
covid_estados_grupos['grupo'] = col_grupos

covid_estados_grupos

	estado	casosNovos	obitosNovos	grupo
data
2020-02-25	PB	0	0	grupo_1
2020-02-26	PB	0	0	grupo_1
2020-02-27	PB	0	0	grupo_1
2020-02-28	PB	0	0	grupo_1
2020-02-29	PB	0	0	grupo_1
...	...	...	...	...
2020-07-14	SP	12000	417	grupo_2
2020-07-15	SP	6569	316	grupo_2
2020-07-16	SP	8872	398	grupo_2
2020-07-17	SP	5367	339	grupo_2
2020-07-18	SP	4612	270	grupo_2

580 rows × 4 columns

Agora vamos agrupar e agregar:

covid_grupo_agrupado = covid_estados_grupos.groupby(['grupo','data'])

covid_grupo_agrupado.sum()

		casosNovos	obitosNovos
grupo	data
grupo_1	2020-02-25	0	0
	2020-02-26	0	0
	2020-02-27	0	0
	2020-02-28	0	0
	2020-02-29	0	0
...	...	...	...
grupo_2	2020-07-14	12778	567
	2020-07-15	8196	449
	2020-07-16	8996	490
	2020-07-17	6024	409
	2020-07-18	4612	270

290 rows × 2 columns

Mesclando DataFrames¶

Vamos agora ver algumas formas de juntar dois ou mais DataFrames com index ou colunas em comum para formar um novo DataFrame.

Mesclando DataFrames através de concatenações¶

Concatenar nada mais é do que “colar” dois ou mais DataFrames. Podemos concatenar por linhas ou por colunas.

A função que realiza a concatenação é concat. Os dois argumentos mais utilizados são a lista de DataFrames a serem concatenados e axis, onde axis = 0 indica concatenação por linha (um DataFrame “embaixo” do outro) e axis=1 indica concatenação por coluna (um DataFrame ao lado do outro).

Relembre do DataFrame df_dict_series:

df_dict_series = pd.read_csv('../database/df_dict_series.csv')

Vamos criar um novo, com novas pessoas:

serie_Idade_nova = pd.Series({'Augusto':13, 'André': 17, 'Alexandre': 45}, name="Idade")
serie_Peso_novo = pd.Series({'Augusto':95, 'André': 65, 'Alexandre': 83}, name="Peso")
serie_Altura_nova = pd.Series({'Augusto':192, 'André': 175, 'Alexandre': 177}, name="Altura")
serie_sobrenome = pd.Series({'Augusto':'Castro', 'André':'Castro', 'Alexandre':'Castro'}, name='Sobrenome')
dicionario_novo = {'Sobrenome':serie_sobrenome, 'Peso': serie_Peso_novo, 
                   'Idade': serie_Idade_nova, 'Altura': serie_Altura_nova}
df_novo = pd.DataFrame(dicionario_novo)
df_novo = df_novo.assign(IMC=round(df_novo.eval('Peso/(Altura/100)**2'),2))

df_novo

	Sobrenome	Peso	Idade	Altura	IMC
Augusto	Castro	95	13	192	25.77
André	Castro	65	17	175	21.22
Alexandre	Castro	83	45	177	26.49

Agora vamos concatená-los:

pd.concat([df_dict_series,df_novo]) 

	Unnamed: 0	Idade	Peso	Altura	IMC	Sobrenome
0	Ana	20	65	162	24.77	Silva
1	João	19	80	178	25.25	PraDo
2	Maria	21	62	162	23.62	Sales
3	Pedro	22	67	165	24.61	MachadO
4	Túlio	20	73	171	24.96	Coutinho
Augusto	NaN	13	95	192	25.77	Castro
André	NaN	17	65	175	21.22	Castro
Alexandre	NaN	45	83	177	26.49	Castro

Concatenando por coluna¶

Para exemplificar vamos considerar os dados de COVID da Paraíba, selecionando casos novos e óbitos novos, e vamos obter dos dados do Brasil apenas os casos e óbitos diários do país, e vamos concatená-los por coluna.

covid_PB_casos_obitos = dados_covid_PB[['casosNovos','obitosNovos']]

Vamos tratar os dados do Brasil:

covid_BR_casos_obitos = covid_BR.query('regiao=="Brasil"')
covid_BR_casos_obitos = covid_BR_casos_obitos.set_index('data')
covid_BR_casos_obitos = covid_BR_casos_obitos[['casosNovos','obitosNovos']].rename({
    'casosNovos':'casosBR', 'obitosNovos':'obitosBR'
}, axis=1)

covid_PB_casos_obitos

	casosNovos	obitosNovos
data
2021-09-26	134	2.0
2021-09-25	165	2.0
2021-09-24	225	3.0
2021-09-23	203	3.0
2021-09-22	297	6.0
...	...	...
2020-03-20	0	0.0
2020-03-19	0	0.0
2020-03-18	0	0.0
2020-03-17	0	0.0
2020-03-16	0	0.0

559 rows × 2 columns

covid_BR_casos_obitos

	casosBR	obitosBR
data
2020-02-25	0	0
2020-02-26	1	0
2020-02-27	0	0
2020-02-28	0	0
2020-02-29	1	0
...	...	...
2020-07-14	41857	1300
2020-07-15	39924	1233
2020-07-16	45403	1322
2020-07-17	34177	1163
2020-07-18	28532	921

145 rows × 2 columns

Vamos agora concatená-los por coluna:

pd.concat([covid_PB_casos_obitos, covid_BR_casos_obitos], axis=1)

	casosNovos	obitosNovos	casosBR	obitosBR
data
2021-09-26	134.0	2.0	NaN	NaN
2021-09-25	165.0	2.0	NaN	NaN
2021-09-24	225.0	3.0	NaN	NaN
2021-09-23	203.0	3.0	NaN	NaN
2021-09-22	297.0	6.0	NaN	NaN
...	...	...	...	...
2020-03-11	NaN	NaN	18.0	0.0
2020-03-12	NaN	NaN	25.0	0.0
2020-03-13	NaN	NaN	21.0	0.0
2020-03-14	NaN	NaN	23.0	0.0
2020-03-15	NaN	NaN	79.0	0.0

579 rows × 4 columns

Para um polimento final, vamos substituir os valores NaN que ocorreram antes do dia 13 de julho por 0. Para tanto, a forma ideal é utilizando o método map:

dados_PB_BR = pd.concat([covid_PB_casos_obitos, covid_BR_casos_obitos], axis=1)
dados_PB_BR['casosNovos'] = dados_PB_BR.casosNovos.map(lambda caso: 0 if np.isnan(caso) else caso).astype('int')
dados_PB_BR['obitosNovos'] = dados_PB_BR.obitosNovos.map(lambda obito: 0 if np.isnan(obito) else obito).astype('int')
dados_PB_BR

	casosNovos	obitosNovos	casosBR	obitosBR
data
2021-09-26	134	2	NaN	NaN
2021-09-25	165	2	NaN	NaN
2021-09-24	225	3	NaN	NaN
2021-09-23	203	3	NaN	NaN
2021-09-22	297	6	NaN	NaN
...	...	...	...	...
2020-03-11	0	0	18.0	0.0
2020-03-12	0	0	25.0	0.0
2020-03-13	0	0	21.0	0.0
2020-03-14	0	0	23.0	0.0
2020-03-15	0	0	79.0	0.0

579 rows × 4 columns

Mesclando DataFrames através de joins¶

Para realizar joins iremos utilizar a função merge do pandas. joins tomam duas tabelas, uma tabela à esquerda e uma à direita e retornam uma terceira tabela contendo a união das colunas das duas tabelas.

Existem 4 tipos de joins:

left join: Apenas irão aparecer os index (da linha) que existem na tabela à esquerda;
right join: Apenas irão aparecer os index (da linha) que existem na tabela à direita;
inner join: Apenas irão aparecer os index que existem nas duas tabelas;
full join ou outer join: irão aparecer todos os index das duas tabelas.

Para exemplificar vamos considerar dois DataFrames (aqui teremos menos linhas, com nomes e dados fictícios). O primeiro DataFrame consistirá de nomes de alunos, CPF e matrícula da UFPB (nome_cpf_mat). O segundo DataFrame consistirá de nome, CPF e e-mail (nome_cpf_email). Nosso objetivo é criar um novo DataFrame contendo Nome, CPF, matrícula e e-mail.

Temos ainda as seguintes situações:

No DataFrame nome_cpf_mat existem alunos que não estão presentes no nome_cpf_email, pois não enviaram esta informação.
No DataFrame nome_cpf_email existem alunos que não estão presentes no nome_cpf_mat pois estes não são alunos da UFPB.

nome_cpf_mat = pd.read_csv('../database/nome_cpf_mat.csv')
nome_cpf_email = pd.read_csv('../database/nome_cpf_email.csv')

Vamos agora examinar os DataFrames. Como são bem simples, basta realizar prints deles.

nome_cpf_mat

	Nome	CPF	Matricula
0	João Paulo	326.475.190-99	8848484
1	Ana Silva	073.101.240-22	8451212
2	Antonio Carlos	830.060.930-03	5151213
3	Debora Santos	472.006.460-40	51848484
4	Rodrigo Gomes	566.712.550-16	1415816
5	Edson Jardim	308.226.400-07	9592303

nome_cpf_email

	Nome	CPF	e-mail
0	João Paulo	326.475.190-99	joao@inventado.com.br
1	Ana Silva	073.101.240-22	ana@inventado.com.br
2	Antonio Carlos	830.060.930-03	antonio@inventado.com.br
3	Saulo Santos	370.981.810-99	saulo@inventado.com.br
4	Paulo Cardoso	250.078.710-95	paulo@inventado.com.br
5	Edson Jardim	308.226.400-07	edson@inventado.com.br
6	Ana Silva	344.246.630-00	anasilva@inventado.com.br

Tipicamente é bom possuir index únicos. Neste sentido, vamos definir o CPF como index:

nome_cpf_mat = nome_cpf_mat.set_index('CPF')
nome_cpf_email = nome_cpf_email.set_index('CPF')

Vamos agora realizar um left join com o DataFrame nome_cpf_mat ficando à esquerda (neste caso, apenas alunos com matrícula irão aparecer):

pd.merge(nome_cpf_mat, nome_cpf_email, how = 'left', on = ['Nome','CPF'])

	Nome	Matricula	e-mail
CPF
326.475.190-99	João Paulo	8848484	joao@inventado.com.br
073.101.240-22	Ana Silva	8451212	ana@inventado.com.br
830.060.930-03	Antonio Carlos	5151213	antonio@inventado.com.br
472.006.460-40	Debora Santos	51848484	NaN
566.712.550-16	Rodrigo Gomes	1415816	NaN
308.226.400-07	Edson Jardim	9592303	edson@inventado.com.br

Na opção how dizemos qual o tipo de join que queremos realizar.
Na opção on dizemos quais as colunas que existem em comum nos DataFrames.

Veja o que aconteceria se informássemos apenas que o CPF está presente nos dois DataFrames:

pd.merge(nome_cpf_mat, nome_cpf_email, how = 'left', on = 'CPF')

	Nome_x	Matricula	Nome_y	e-mail
CPF
326.475.190-99	João Paulo	8848484	João Paulo	joao@inventado.com.br
073.101.240-22	Ana Silva	8451212	Ana Silva	ana@inventado.com.br
830.060.930-03	Antonio Carlos	5151213	Antonio Carlos	antonio@inventado.com.br
472.006.460-40	Debora Santos	51848484	NaN	NaN
566.712.550-16	Rodrigo Gomes	1415816	NaN	NaN
308.226.400-07	Edson Jardim	9592303	Edson Jardim	edson@inventado.com.br

Observe que os nomes dos alunos que estão na segunda tabela ficam indeterminados na coluna Nome_y.

Vamos agora realizar um right join com o DataFrame nome_cpf_mat ficando à esquerda (neste caso, apenas alunos com e-mail irão aparecer):

pd.merge(nome_cpf_mat, nome_cpf_email, how = 'right', on = ['Nome','CPF'])

	Nome	Matricula	e-mail
CPF
326.475.190-99	João Paulo	8848484.0	joao@inventado.com.br
073.101.240-22	Ana Silva	8451212.0	ana@inventado.com.br
830.060.930-03	Antonio Carlos	5151213.0	antonio@inventado.com.br
370.981.810-99	Saulo Santos	NaN	saulo@inventado.com.br
250.078.710-95	Paulo Cardoso	NaN	paulo@inventado.com.br
308.226.400-07	Edson Jardim	9592303.0	edson@inventado.com.br
344.246.630-00	Ana Silva	NaN	anasilva@inventado.com.br

Vamos agora realizar um inner join com o DataFrame nome_cpf_mat ficando à esquerda (neste caso, apenas alunos com matrícula e com e-mail irão aparecer):

pd.merge(nome_cpf_mat, nome_cpf_email, how = 'inner', on = ['Nome','CPF'])

	Nome	Matricula	e-mail
CPF
326.475.190-99	João Paulo	8848484	joao@inventado.com.br
073.101.240-22	Ana Silva	8451212	ana@inventado.com.br
830.060.930-03	Antonio Carlos	5151213	antonio@inventado.com.br
308.226.400-07	Edson Jardim	9592303	edson@inventado.com.br

Por fim, vamos agora realizar um outer ou full join com o DataFrame nome_cpf_mat ficando à esquerda (neste caso, todos os alunos irão aparecer):

pd.merge(nome_cpf_mat, nome_cpf_email, how = 'outer', on = ['Nome','CPF'])

	Nome	Matricula	e-mail
CPF
326.475.190-99	João Paulo	8848484.0	joao@inventado.com.br
073.101.240-22	Ana Silva	8451212.0	ana@inventado.com.br
830.060.930-03	Antonio Carlos	5151213.0	antonio@inventado.com.br
472.006.460-40	Debora Santos	51848484.0	NaN
566.712.550-16	Rodrigo Gomes	1415816.0	NaN
308.226.400-07	Edson Jardim	9592303.0	edson@inventado.com.br
370.981.810-99	Saulo Santos	NaN	saulo@inventado.com.br
250.078.710-95	Paulo Cardoso	NaN	paulo@inventado.com.br
344.246.630-00	Ana Silva	NaN	anasilva@inventado.com.br

Os métodos apply, map e applymap¶

A ideia é relativamente simples. Os três métodos são vetorizados e aplicam uma função ou uma substituição via dicionário de tal forma que:

apply é realizado via linha ou coluna em um DataFrame;
map é aplicado a cada elemento de uma Series;
applymap é aplicado a cada elemento de um DataFrame.

Já vimos diversos exemplos de uso de map. Vejamos exemplos de applymap e apply.

Neste exemplo vamos retomar a concatenação entre os dados da Paraíba e do Brasil, porém iremos substituir todos os valores de NaN por zero, usando o métodp applymap.

dados_PB_BR = pd.concat([covid_PB_casos_obitos, covid_BR_casos_obitos], axis=1)
dados_PB_BR.applymap(lambda valor: 0 if np.isnan(valor) else valor)

	casosNovos	obitosNovos	casosBR	obitosBR
data
2021-09-26	134.0	2.0	0.0	0.0
2021-09-25	165.0	2.0	0.0	0.0
2021-09-24	225.0	3.0	0.0	0.0
2021-09-23	203.0	3.0	0.0	0.0
2021-09-22	297.0	6.0	0.0	0.0
...	...	...	...	...
2020-03-11	0.0	0.0	18.0	0.0
2020-03-12	0.0	0.0	25.0	0.0
2020-03-13	0.0	0.0	21.0	0.0
2020-03-14	0.0	0.0	23.0	0.0
2020-03-15	0.0	0.0	79.0	0.0

579 rows × 4 columns

Vamos utilizar apply para realizar a soma de casos e óbitos através de mais de uma forma

dados_PB_BR.apply(lambda x: np.sum(x)).astype('int')

casosNovos      440037
obitosNovos       9294
casosBR        2074860
obitosBR         78772
dtype: int64

Se quisermos realizar a operação por linhas, basta utilizar o argumento axis=1:

dados_PB_BR.apply(lambda x: (x>0).all(), axis=1)

data
2021-09-26    False
2021-09-25    False
2021-09-24    False
2021-09-23    False
2021-09-22    False
              ...  
2020-03-11    False
2020-03-12    False
2020-03-13    False
2020-03-14    False
2020-03-15    False
Length: 579, dtype: bool

Manipulação de dados - II Estatística Descritiva

Introdução à Ciência de Dados

Manipulação de dados - III¶

Agregação e agrupamento¶

Agregando informações de linhas ou colunas¶

Selecionando entradas distintas¶

Agrupando dados por valores em colunas e agregando os resultados¶

Agrupando com o método groupby¶

Mesclando DataFrames¶

Mesclando DataFrames através de concatenações¶

Concatenando por coluna¶

Mesclando DataFrames através de joins¶

Os métodos apply, map e applymap¶