Gabriel Quintella
- 30 de jul. de 2021
- 4 min de leitura

Python com Pandas, o fantástico método LOC

Dando continuidade em nossos posts sobre Python, hoje vamos abordar um pouco da biblioteca Pandas mais especificamente o método loc que é bem útil quando precisamos realizar a manipulação de dados.

Em busca uma definição sobre o que seria o método loc, fui na documentação oficial (link no fim desse posto) e encontrei a seguinte descrição:

O loc é um método de dataframe e série, o que significa que podemos chamar o método loc em qualquer um desses objetos Pandas. Ao usar o método loc em um dataframe, especificamos quais linhas e colunas queremos usando o seguinte formato: dataframe.loc [linhas especificadas: colunas especificadas] Fonte: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html

Vamos começar então a colocar a mão na massa!

Primeiro passo é realizar a importação da biblioteca Pandas e Numpy. Estou apenas usando a Numpy para inclusão de valores nulos no dataframe.

import pandas as pd
import numpy as np

Concluída a importação, vamos criar nosso DataFrame.

dfTimes=pd.DataFrame([
['América Mineiro','Belo Horizonte','Minas Gerais MG'],
['Cruzeiro','Belo Horizonte','Minas Gerais MG'],
['Atlético Mineiro','Belo Horizonte','Minas Gerais MG'],
['Corinthians','São Paulo','São Paulo SP'],
['Flamengo','Rio de Janeiro','Rio de Janeiro RJ'],
['Fluminense','Rio de Janeiro','Rio de Janeiro RJ'],
['Palmeiras','São Paulo','São Paulo SP'],
['Red Bull Bragantino','Bragança Paulista','São Paulo SP'],
['Santos','Santos','São Paulo SP'],
['São Paulo','São Paulo','São Paulo SP'],
['Vasco','Rio de Janeiro','Rio de Janeiro RJ'],
['Ceará','Ceará',np.nan],
['Fortaleza','Ceará',np.nan]
], 
columns=['Equipe','Cidade','Estado'])

Após a criação, vamos verificar como que os dados foram importados, ou melhor, como que ficou o nosso DataFrame.

Para isso executamos o script abaixo:

dfTimes

Muito bom! Dataframe criado, agora vamos explorar os dados usando o método loc da biblioteca Pandas.

De acordo com a descrição da documentação oficial, ao usar o método loc em um dataframe, especificamos quais linhas e colunas queremos usando o seguinte formato:

dataframe.loc [linhas especificadas: colunas especificadas]

Vamos analisar algumas possibilidades de utilização do método loc.

Em nosso primeiro exemplo, queremos retornar todas as informações como Equipe, Cidade, Estado do primeiro time. Para isso basta executar o script abaixo.

dfTimes.loc[1]

Já no segundo exemplo, podemos pedir que ele nos retorne as mesmas informações para vários times. Nesse caso, vamos pedir para retornar os registros dos índices 1, 3 e 5.

dfTimes.loc[[1,3,5]]

É possível selecionar vários índices e várias colunas de uma vez só. Para que isso venha ocorrer, basta passarmos uma lista com os índices e uma outra lista com as colunas.

Nessa lógica, vamos usar a estrutura que explicamos acima DataFrame.loc[linhas especificadas: colunas especificadas]. Observe o exemplo abaixo.

Pense que precisamos extrair do nosso dataframe as informações de Equipe e Cidade para os registros dos índices 1, 3 e 5.

dfTimes.loc[[1,3,5], ['Equipe','Cidade']]

E se o nosso objetivo for retornar as informações de Equipe e Cidade para todos os registros do nosso dataframe, faremos da seguinte forma:

dfTimes.loc[:, ['Equipe','Cidade']]

Uma outra possibilidade bem bacana que o método loc proporciona é a realização de um slice ou fatiamento, que nada mais é do que pegar um range de informações dentro de um dataframe. Sua sintaxe é bem simples, df.loc[start : stop], onde o start é o limite inicial e está incluído (não esqueçam isso) na saída e o stop é o limite final e não é incluído (não esqueçam isso, reparou a diferença?) na saída, isso não é observado no nosso DataFrame pois o nosso índice se inicia em 1 e não em zero como na maioria dos casos.

Vamos pedir para o pandas nos retornar os times que estão entre o índice 3 e 6.

dfTimes.loc[3:6]

No exemplo acima o índice do time foi incrementado de 1 em 1 que é o padrão, mais podemos fazer com que isso seja incrementado de 2 em 2 por exemplo. A sintaxe é parecida com a anterior só precisamos passar explicitamente o parâmetro step (valor incremental) da seguinte maneira: df.loc[start : stop : step].

dfTimes.loc[0:6:2]

E para selecionar do 3° até o último time, passamos somente o primeiro valor seguido de dois pontos.

dfTimes.loc[3:]

Vamos fazer um slice nas linhas e ao mesmo tempo selecionar algumas colunas.

dfTimes.loc[1:5, ['Equipe','Cidade']]

Uma outra possibilidade de utilização do método loc, é a utilização dele também para filtrar uma lista de registros. Vamos imaginar que você necessite extrair todos os registros (times) que são dos estados RJ e SP. Antes disso, vamos criar uma coluna chamada UF em nosso dataframe, para isso vamos executar o script de criação, é bem simples, observem ai!

dfTimes['UF'] = dfTimes.Estado.str.slice(-2)

Agora sim, vamos aplicar nosso filtro!

dfTimes.loc[dfTimes['UF'].isin(['RJ','SP']), ['Equipe','Cidade']]

Está ficando bom, você está gostando? Bora analisar outro caso. Imagine que durante essa sua análise você se deparou com o seguinte problema. Existem times que não possuem a coluna UF preenchida, ou seja, nula (sem valor). Como que você filtraria de forma rápida esses valores?

Primeiro vamos usar o comando info() para chegar ao entendimento de que existem valores nulos na coluna UF.

Destaquei na imagem acima a informação que precisamos. Observe que em nosso dataframe existem 13 registros e na coluna UF existem 11 non-null, ou seja, 11 preenchidos. Vamos a nossa caça desses 2 nulos! Mãos a obra.

Vamos usar a combinação da função isnull() para buscar essa informação.

dfTimes.loc[dfTimes['UF'].isnull(), ['Equipe','Cidade']]

E ao contrário, filtrar todos os registro que estão com a coluna UF preenchida, usando a função notnull() vejam o exemplo.

dfTimes.loc[dfTimes['UF'].notnull(), ['Equipe','Cidade']]

Outra possibilidade também é a criação de um outro dataframe a partir do nosso dataframe principal.

Para esse ponto, vamos criar um dataframe com os times do RJ.

dfTimesRJ = dfTimes.loc[dfTimes['UF'] == 'RJ', ['Equipe','Cidade','UF']]
dfTimesRJ

Nesse exemplo, aproveitamos e explicamos também como conseguimos filtrar alguns registros de um dataframe.

Resumindo esse tópico, apresentamos o método loc disponíveis na biblioteca Pandas que auxilia em muito na manipulação de dados.

No próximo tópico vamos abordar o método iloc que é bem parecido com o loc, espero que tenham gostado, espero vocês no próximo!

Link para download do notebook utilizado nesse post.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html

Python com Pandas, o fantástico método LOC

Posts recentes

Comments