Domine o Pandas: Transforme Dados Brutos em Insights

Imagine que você recebeu um arquivo Excel📊 OpenPyXL: Domine Planilhas Excel com Python!📊 OpenPyXL: Domine Planilhas Excel com Python!Domine o OpenPyXL e transforme suas planilhas Excel. Este tutorial apresenta técnicas de criação, formatação e automação com exemplos reais para profissionais. com 50 mil linhas de dados de vendas. Sua missão? Encontrar padrões, calcular métricas chave e gerar insights para a diretoria. Pandas🧮 NumPy: Cálculos Científicos em Velocidade de Luz!🧮 NumPy: Cálculos Científicos em Velocidade de Luz!Aprenda a usar NumPy e acelere seus cálculos em Python com arrays otimizados, vetorização e integração com Pandas, Matplotlib e SciPy. é sua ferramenta definitiva para transformar dados brutos em informação valiosa. Neste guia, você dominará as operações essenciais desta biblioteca PythonO que é Python e por que utilizá-lo?O que é Python e por que utilizá-lo?Aprenda por que Python é a escolha ideal para iniciantes. Descubra sua sintaxe simples, versatilidade e forte comunidade que ajudam no seu desenvolvimento. que revoluciona o trabalho com dados.

Conteúdo

1. Instalação e Setup 2. DataFrames e Series: Os Alicerces 3. Manipulação Básica de Dados 4. Análise Descritiva Poderosa 5. Limpeza de Dados Profissional 6. Caso Prático: Análise de Vendas

Instalação e Setup🔗

Para começar, instale o Pandas🧮 NumPy: Cálculos Científicos em Velocidade de Luz!🧮 NumPy: Cálculos Científicos em Velocidade de Luz!Aprenda a usar NumPy e acelere seus cálculos em Python com arrays otimizados, vetorização e integração com Pandas, Matplotlib e SciPy. via pip:

pip install pandas
# Ou se usar Anaconda:
conda install pandas

Dica Pro: Crie um ambiente virtual para evitar conflitos de versão!

DataFrames e Series: Os Alicerces🔗

DataFrame é uma tabela 2D (linhas x colunas), Series é uma coluna. Veja na prática:

import pandas as pd
# Criando um DataFrame a partir de um dicionário
dados = {
    'Produto': ['Notebook', 'Mouse', 'Teclado'],
    'Preço': [2500, 150, 300],
    'Vendas': [100, 500, 200]
}
df = pd.DataFrame(dados)
print(df.head())

Saída:

Produto  Preço  Vendas
otebook   2500     100
  Mouse    150     500
eclado    300     200

Carregando dados externos:

df = pd.read_csv('vendas.csv', sep=';')

Manipulação Básica de Dados🔗

Filtragem inteligente:

# Produtos com vendas > 150 unidades
high_sales = df[df['Vendas'] > 150]
# Preços entre R$200 e R$1000
mid_range = df[(df['Preço'] >= 200) & (df['Preço'] <= 1000)]

Adicionando colunas calculadas:

df['Faturamento'] = df['Preço'] * df['Vendas']

Ordenação:

# Top 3 produtos mais vendidos
df.sort_values('Vendas', ascending=False).head(3)

Análise Descritiva Poderosa🔗

Estatísticas rápidas:

df.describe()

Saída:

Preço      Vendas   Faturamento
000000    3.000000       3.000000
333333  266.666666  266666.666667
.19864  208.1666     258198.58974
.000000  100.000000   15000.000000
.000000  150.000000   82500.000000
.000000  200.000000   60000.000000
.000000  350.000000  437500.000000
.000000  500.000000  625000.000000

Agrupamento e agregação:

# Média de preço por categoria
df.groupby('Categoria')['Preço'].mean()

Limpeza de Dados Profissional🔗

Lidando com dados faltantes:

# Remove linhas com valores nulos
df_clean = df.dropna()
# Preenche com a média
df['Preço'].fillna(df['Preço'].mean(), inplace=True)

Removendo duplicatas:

df = df.drop_duplicates()

Convertendo tipos:

df['Data'] = pd.to_datetime(df['Data'])

Caso Prático: Análise de Vendas🔗

Vamos analisar um dataset real de e-commerce:

# Passo 1: Carregar dados
vendas = pd.read_csv('vendas_2023.csv')
# Passo 2: Limpeza inicial
vendas = vendas.dropna(subset=['Valor'])
vendas = vendas[vendas['Quantidade'] > 0]
# Passo 3: Análise chave
total_vendas = vendas['Valor'].sum()
produto_mais_vendido = vendas.groupby('Produto')['Quantidade'].sum().idxmax()
# Passo 4: Insights
print(f"Faturamento Total: R${total_vendas:,.2f}")
print(f"Campeão de Vendas: {produto_mais_vendido}")

Resultado:

Faturamento Total: R$1,234,567.89
Campeão de Vendas: Smartphone XYZ

Próximo nível: Exporte para Excel📊 OpenPyXL: Domine Planilhas Excel com Python!📊 OpenPyXL: Domine Planilhas Excel com Python!Domine o OpenPyXL e transforme suas planilhas Excel. Este tutorial apresenta técnicas de criação, formatação e automação com exemplos reais para profissionais. com um clique:

vendas.to_excel('relatorio_final.xlsx', index=False)

O que é Pandas e por que usar?🔗

O Pandas🧮 NumPy: Cálculos Científicos em Velocidade de Luz!🧮 NumPy: Cálculos Científicos em Velocidade de Luz!Aprenda a usar NumPy e acelere seus cálculos em Python com arrays otimizados, vetorização e integração com Pandas, Matplotlib e SciPy. é uma biblioteca de código aberto construída sobre o NumPy🧮 NumPy: Cálculos Científicos em Velocidade de Luz!🧮 NumPy: Cálculos Científicos em Velocidade de Luz!Aprenda a usar NumPy e acelere seus cálculos em Python com arrays otimizados, vetorização e integração com Pandas, Matplotlib e SciPy., projetada para facilitar a manipulação e análise de dados. Com ele, você pode trabalhar com dados estruturados (como tabelas) de forma eficiente, realizando operações complexas com poucas linhas de código.

Por que usar Pandas🧮 NumPy: Cálculos Científicos em Velocidade de Luz!🧮 NumPy: Cálculos Científicos em Velocidade de Luz!Aprenda a usar NumPy e acelere seus cálculos em Python com arrays otimizados, vetorização e integração com Pandas, Matplotlib e SciPy.?

Estruturas de Dados Básicas: Series e DataFrames🔗

O Pandas🧮 NumPy: Cálculos Científicos em Velocidade de Luz!🧮 NumPy: Cálculos Científicos em Velocidade de Luz!Aprenda a usar NumPy e acelere seus cálculos em Python com arrays otimizados, vetorização e integração com Pandas, Matplotlib e SciPy. trabalha principalmente com duas estruturas de dados:

import pandas as pd
s = pd.Series([1, 3, 5, 7, 9])
print(s)
data = {'Nome': ['Alice', 'Bob', 'Charlie'],
        'Idade': [25, 30, 35],
        'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']}
df = pd.DataFrame(data)
print(df)

Carregando Dados: CSV, Excel e Banco de Dados🔗

O Pandas🧮 NumPy: Cálculos Científicos em Velocidade de Luz!🧮 NumPy: Cálculos Científicos em Velocidade de Luz!Aprenda a usar NumPy e acelere seus cálculos em Python com arrays otimizados, vetorização e integração com Pandas, Matplotlib e SciPy. facilita a importação de dados de diversas fontes. Aqui estão alguns exemplos:

df = pd.read_csv('dados.csv')
df = pd.read_excel('dados.xlsx', sheet_name='Planilha1')
  • Banco de Dados:
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql_query('SELECT * FROM tabela', conn)

Limpeza de Dados: Lidando com Valores Faltantes e Outliers🔗

A limpeza de dados🧹 Data Cleaning: Transforme Dados Bagunçados em Ouro!🧹 Data Cleaning: Transforme Dados Bagunçados em Ouro!Descubra como transformar dados inconsistentes em insights confiáveis. Aprenda técnicas de data cleaning com ferramentas como Pandas e NumPy. é uma etapa crucial na análise. O Pandas oferece ferramentas poderosas para lidar com:

  • Valores Faltantes:
# Remove linhas com valores faltantes
df.dropna()
# Preenche valores faltantes com a média
df.fillna(df.mean())
  • Outliers:
# Remove valores fora de 3 desvios padrão
df = df[(df['coluna'] - df['coluna'].mean()).abs() <= 3*df['coluna'].std()]

Manipulação de Dados: Filtros, Agrupamentos e Transformações🔗

O Pandas🧮 NumPy: Cálculos Científicos em Velocidade de Luz!🧮 NumPy: Cálculos Científicos em Velocidade de Luz!Aprenda a usar NumPy e acelere seus cálculos em Python com arrays otimizados, vetorização e integração com Pandas, Matplotlib e SciPy. permite manipular dados de diversas formas:

  • Filtros:
df_filtrado = df[df['Idade'] > 30]
  • Agrupamentos:
df_agrupado = df.groupby('Cidade')['Idade'].mean()
  • Transformações:
df['Idade'] = df['Idade'].apply(lambda x: x * 2)

Análise de Dados: Estatísticas Descritivas e Visualizações🔗

O Pandas🧮 NumPy: Cálculos Científicos em Velocidade de Luz!🧮 NumPy: Cálculos Científicos em Velocidade de Luz!Aprenda a usar NumPy e acelere seus cálculos em Python com arrays otimizados, vetorização e integração com Pandas, Matplotlib e SciPy. integra-se com bibliotecas de visualização para criar gráficos e análises estatísticas:

  • Estatísticas Descritivas:
print(df.describe())
  • Gráficos:
df['Idade'].plot(kind='hist')

Exportando Dados: Salvando Resultados em Diferentes Formatos🔗

Depois de analisar os dados, você pode exportá-los:

df.to_csv('resultados.csv', index=False)
df.to_excel('resultados.xlsx', sheet_name='Resultados')
  • Banco de Dados:
df.to_sql('nova_tabela', conn, if_exists='replace')

Exemplo Prático: Analisando Vendas de uma Loja🔗

Vamos colocar a mão na massa com um exemploDicionários: armazenando e acessando dados por chavesDicionários: armazenando e acessando dados por chavesAprenda a usar dicionários em Python para organizar e manipular dados com praticidade. Tutorial completo com exemplos e dicas para otimizar seu código. real. Considere um dataset fictício de vendas de uma loja contendo colunas como 'Data', 'Produto', 'Categoria', 'Preço' e 'Quantidade'. O objetivo? Obter insights sobre:

  • Quanto a loja vendeu por categoria.
  • Qual produto tem o maior ticket médio.
  • Identificar períodos de alta e baixa demanda.

Código exemploDicionários: armazenando e acessando dados por chavesDicionários: armazenando e acessando dados por chavesAprenda a usar dicionários em Python para organizar e manipular dados com praticidade. Tutorial completo com exemplos e dicas para otimizar seu código.:

import pandas as pd
# Carregando o dataset
df = pd.read_csv('vendas_loja.csv')
# Conversão da coluna 'Data' para datetime
df['Data'] = pd.to_datetime(df['Data'])
# Criando uma nova coluna com o valor total por venda
df['Total'] = df['Preço'] * df['Quantidade']
# Agrupando por categoria para ver o total de vendas
vendas_por_categoria = df.groupby('Categoria')['Total'].sum()
print("Vendas por Categoria:")
print(vendas_por_categoria)
# Análise do ticket médio por produto
ticket_medio = df.groupby('Produto').agg({
    'Total': 'sum',
    'Quantidade': 'sum'
})
ticket_medio['Ticket Médio'] = ticket_medio['Total'] / ticket_medio['Quantidade']
print("\nTicket Médio por Produto:")
print(ticket_medio[['Ticket Médio']])

Esse exemplo práticoDicionários: armazenando e acessando dados por chavesDicionários: armazenando e acessando dados por chavesAprenda a usar dicionários em Python para organizar e manipular dados com praticidade. Tutorial completo com exemplos e dicas para otimizar seu código. mostra como o Pandas facilita a transformação dos seus dados em insights que podem guiar decisões estratégicas.

Conclusão🔗

O Pandas🧮 NumPy: Cálculos Científicos em Velocidade de Luz!🧮 NumPy: Cálculos Científicos em Velocidade de Luz!Aprenda a usar NumPy e acelere seus cálculos em Python com arrays otimizados, vetorização e integração com Pandas, Matplotlib e SciPy. é uma ferramenta poderosa para transformar dados em insights profundos. Dominar essa biblioteca permite que você, seja iniciante ou vindo de outra linguagem, lide com dados de forma prática e eficiente. Com a instalação simples, estruturas intuitivas (DataFrame e Series) e ferramentas robustas de limpeza, transformação e agregação de dados, suas análises nunca mais serão as mesmas.

Pratique com conjuntosConjuntos (Sets) e suas aplicaçõesConjuntos (Sets) e suas aplicaçõesAprenda a trabalhar com conjuntos em Python e domine operações como união, intersecção e diferença, garantindo eficiência e dados sem duplicatas. de dados reais, experimente as funções mostradas e veja por si mesmo como o Pandas pode ser um diferencial na sua jornada em Data Science!

Happy Data Wrangling! 🚀

Autor: Marcelo V. Souza - Engenheiro de Sistemas e Entusiasta em IoT e Desenvolvimento de Software, com foco em inovação tecnológica.

Referências🔗

Compartilhar artigo

Artigos Relacionados