Un DataFrame es una estructura de datos bidimensional, similar a una tabla en una base de datos, que es fundamental para el análisis de datos en Python. La biblioteca Pandas es la herramienta más utilizada para crear y manipular DataFrames. A continuación, exploraremos cómo generar un DataFrame a partir de diferentes fuentes de datos.
Antes de crear un DataFrame, asegúrate de tener instalada la biblioteca Pandas. Puedes instalarla utilizando pip si aún no la tienes.
pip install pandas
Uno de los métodos más comunes para crear un DataFrame es a partir de un diccionario. Cada clave del diccionario representa una columna, y los valores asociados representan las filas de esa columna.
Ejemplo:
import pandas as pd
datos = {
'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
'Edad': [23, 25, 30, 22],
'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}
df = pd.DataFrame(datos)
print(df)
Resultado:
Nombre Edad Ciudad
0 Ana 23 Madrid
1 Luis 25 Barcelona
2 Carlos 30 Valencia
3 María 22 Sevilla
En este ejemplo, se crea un DataFrame df
donde cada columna corresponde a una clave del diccionario.
También puedes generar un DataFrame a partir de listas. Para ello, es necesario pasar una lista de listas (donde cada lista interna representa una fila) junto con una lista de nombres de columna.
Ejemplo:
import pandas as pd
datos = [
['Ana', 23, 'Madrid'],
['Luis', 25, 'Barcelona'],
['Carlos', 30, 'Valencia'],
['María', 22, 'Sevilla']
]
df = pd.DataFrame(datos, columns=['Nombre', 'Edad', 'Ciudad'])
print(df)
Resultado:
Nombre Edad Ciudad
0 Ana 23 Madrid
1 Luis 25 Barcelona
2 Carlos 30 Valencia
3 María 22 Sevilla
Aquí, columns
se utiliza para asignar nombres a las columnas del DataFrame.
Pandas facilita la creación de DataFrames a partir de archivos CSV, que es un formato común para almacenar datos tabulares. La función read_csv()
se encarga de leer el archivo y convertirlo en un DataFrame.
Ejemplo:
import pandas as pd
df = pd.read_csv('ruta/al/archivo.csv')
print(df)
Asegúrate de que el archivo CSV esté bien formateado. Pandas leerá automáticamente los datos y creará un DataFrame donde la primera fila del CSV se usará como los nombres de las columnas, a menos que se especifique lo contrario.
En algunos casos, puede que necesites crear un DataFrame vacío y luego llenarlo con datos más adelante. Esto se puede hacer especificando los nombres de las columnas.
Ejemplo:
import pandas as pd
df = pd.DataFrame(columns=['Nombre', 'Edad', 'Ciudad'])
print(df)
Resultado:
Empty DataFrame
Columns: [Nombre, Edad, Ciudad]
Index: []
El DataFrame df
se crea con las columnas especificadas, pero sin ninguna fila.
1. Agregar una fila a un DataFrame vacío:
df.loc[0] = ['Ana', 23, 'Madrid']
print(df)
2. Crear un DataFrame desde un diccionario de Series:
import pandas as pd
datos = {
'Nombre': pd.Series(['Ana', 'Luis', 'Carlos', 'María']),
'Edad': pd.Series([23, 25, 30, 22])
}
df = pd.DataFrame(datos)
print(df)
3. Leer un DataFrame desde un archivo Excel:
df = pd.read_excel('ruta/al/archivo.xlsx')
print(df)
Para obtener más información sobre cómo manipular y generar DataFrames en Python, visita la documentación oficial de Pandas.
Jorge García
Fullstack developer