Volver a la página principal
miércoles 21 agosto 2024
7

Cómo generar un DataFrame en Python

Un DataFrame es una estructura de datos bidimensional, similar a una tabla en una base de datos, que es fundamental para el análisis de datos en Python. La biblioteca Pandas es la herramienta más utilizada para crear y manipular DataFrames. A continuación, exploraremos cómo generar un DataFrame a partir de diferentes fuentes de datos.

Instalación de Pandas

Antes de crear un DataFrame, asegúrate de tener instalada la biblioteca Pandas. Puedes instalarla utilizando pip si aún no la tienes.

pip install pandas

Crear un DataFrame a partir de un diccionario

Uno de los métodos más comunes para crear un DataFrame es a partir de un diccionario. Cada clave del diccionario representa una columna, y los valores asociados representan las filas de esa columna.

Ejemplo:

import pandas as pd

datos = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
    'Edad': [23, 25, 30, 22],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(datos)
print(df)

Resultado:

Nombre  Edad     Ciudad
0     Ana    23     Madrid
1    Luis    25  Barcelona
2  Carlos    30   Valencia
3   María    22    Sevilla

En este ejemplo, se crea un DataFrame df donde cada columna corresponde a una clave del diccionario.

Crear un DataFrame a partir de listas

También puedes generar un DataFrame a partir de listas. Para ello, es necesario pasar una lista de listas (donde cada lista interna representa una fila) junto con una lista de nombres de columna.

Ejemplo:

import pandas as pd

datos = [
    ['Ana', 23, 'Madrid'],
    ['Luis', 25, 'Barcelona'],
    ['Carlos', 30, 'Valencia'],
    ['María', 22, 'Sevilla']
]

df = pd.DataFrame(datos, columns=['Nombre', 'Edad', 'Ciudad'])
print(df)

Resultado:

Nombre  Edad     Ciudad
0     Ana    23     Madrid
1    Luis    25  Barcelona
2  Carlos    30   Valencia
3   María    22    Sevilla

Aquí, columns se utiliza para asignar nombres a las columnas del DataFrame.

Crear un DataFrame a partir de un archivo CSV

Pandas facilita la creación de DataFrames a partir de archivos CSV, que es un formato común para almacenar datos tabulares. La función read_csv() se encarga de leer el archivo y convertirlo en un DataFrame.

Ejemplo:

import pandas as pd

df = pd.read_csv('ruta/al/archivo.csv')
print(df)

Asegúrate de que el archivo CSV esté bien formateado. Pandas leerá automáticamente los datos y creará un DataFrame donde la primera fila del CSV se usará como los nombres de las columnas, a menos que se especifique lo contrario.

Crear un DataFrame vacío

En algunos casos, puede que necesites crear un DataFrame vacío y luego llenarlo con datos más adelante. Esto se puede hacer especificando los nombres de las columnas.

Ejemplo:

import pandas as pd

df = pd.DataFrame(columns=['Nombre', 'Edad', 'Ciudad'])
print(df)

Resultado:

Empty DataFrame
Columns: [Nombre, Edad, Ciudad]
Index: []

El DataFrame df se crea con las columnas especificadas, pero sin ninguna fila.

Algunos ejemplos

1. Agregar una fila a un DataFrame vacío:

df.loc[0] = ['Ana', 23, 'Madrid']
    print(df)

2. Crear un DataFrame desde un diccionario de Series:

import pandas as pd
    
    datos = {
        'Nombre': pd.Series(['Ana', 'Luis', 'Carlos', 'María']),
        'Edad': pd.Series([23, 25, 30, 22])
    }
    
    df = pd.DataFrame(datos)
    print(df)

3. Leer un DataFrame desde un archivo Excel:

df = pd.read_excel('ruta/al/archivo.xlsx')
    print(df)

Referencias a sitios oficiales

Para obtener más información sobre cómo manipular y generar DataFrames en Python, visita la documentación oficial de Pandas.

Compartir:
Creado por:
Author photo

Jorge García

Fullstack developer