miércoles 18 septiembre 2024

Técnicas de preprocesamiento de datos en Machine Learning con Pandas

¿Por qué es importante el preprocesamiento de datos?
1. Carga y exploración inicial de los datos
2. Manejo de valores faltantes
3. Conversión de tipos de datos
4. Escalado y normalización de datos
5. Manejo de valores atípicos (outliers)
6. Creación de nuevas características
7. División del conjunto de datos
Conclusión

El preprocesamiento de datos es una etapa fundamental en cualquier proyecto de Machine Learning. Antes de entrenar cualquier modelo, es crucial asegurarse de que los datos estén en un formato adecuado, limpio y estructurado. Una biblioteca que facilita enormemente esta tarea es Pandas, que ofrece herramientas eficientes para la manipulación y análisis de datos. En este artículo exploraremos las técnicas más utilizadas de preprocesamiento de datos en Machine Learning con Pandas.

¿Por qué es importante el preprocesamiento de datos?

Los modelos de Machine Learning son tan buenos como los datos que reciben. Los datos reales suelen estar llenos de imperfecciones: valores faltantes, tipos de datos incorrectos, valores atípicos y más. Si un modelo recibe datos sin preprocesar, sus predicciones serán imprecisas y poco confiables. El preprocesamiento permite:

Mejorar la precisión de los modelos.
Reducir la complejidad de los datos.
Normalizar y escalar variables.
Manejar valores faltantes y outliers.

Ahora, exploremos algunas de las técnicas más importantes utilizando Pandas.

1. Carga y exploración inicial de los datos

El primer paso es cargar el conjunto de datos y realizar una exploración preliminar. Pandas permite cargar datos desde una variedad de fuentes, como archivos CSV, Excel o bases de datos SQL.

import pandas as pd

# Cargar un archivo CSV
data = pd.read_csv('dataset.csv')

# Mostrar las primeras filas del dataset
print(data.head())

La función head() nos da una vista rápida de las primeras cinco filas del conjunto de datos, lo que permite detectar si hay algún problema evidente en la estructura de los datos.

Descripción de datos

Pandas también ofrece la función describe() para obtener estadísticas básicas, como el promedio, la desviación estándar y los percentiles.

print(data.describe())

Esto ayuda a identificar posibles problemas como valores atípicos y escalas de variables inconsistentes.

2. Manejo de valores faltantes

Los valores faltantes son comunes en los conjuntos de datos. Pandas ofrece varias formas de lidiar con ellos, dependiendo del enfoque que se desee adoptar:

2.1 Eliminar filas o columnas con valores nulos

Si una columna o fila tiene demasiados valores faltantes, podríamos optar por eliminarla.

# Eliminar filas con valores nulos
data_cleaned = data.dropna()

# Eliminar columnas con valores nulos
data_cleaned = data.dropna(axis=1)

2.2 Imputación de valores faltantes

Otra opción es reemplazar los valores faltantes por la media, mediana o un valor personalizado.

# Reemplazar valores nulos con la media de la columna
data['columna'] = data['columna'].fillna(data['columna'].mean())

# Reemplazar valores nulos con un valor específico
data['columna'] = data['columna'].fillna(0)

3. Conversión de tipos de datos

Es común encontrar datos que no están en el tipo correcto, como números almacenados como cadenas o fechas como texto plano. Pandas facilita la conversión de tipos de datos.

3.1 Convertir cadenas a fechas

Para trabajar con fechas, es esencial asegurarse de que estén en el formato adecuado.

data['fecha'] = pd.to_datetime(data['fecha'])

3.2 Convertir variables categóricas a numéricas

Los algoritmos de Machine Learning necesitan datos numéricos, por lo que las variables categóricas deben transformarse en números. Pandas ofrece get_dummies() para crear variables dummy o de indicador.

# Crear variables dummy para una columna categórica
data = pd.get_dummies(data, columns=['columna_categorica'])

4. Escalado y normalización de datos

Algunos algoritmos son sensibles a la escala de las variables. El escalado y la normalización garantizan que todas las características se midan en la misma escala, mejorando el rendimiento del modelo.

4.1 Escalado

El escalado se refiere a ajustar los valores de las características para que estén en un rango específico, como [0, 1].

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
data[['col1', 'col2']] = scaler.fit_transform(data[['col1', 'col2']])

4.2 Normalización

La normalización implica ajustar los datos para que la media sea 0 y la desviación estándar sea 1.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
data[['col1', 'col2']] = scaler.fit_transform(data[['col1', 'col2']])

5. Manejo de valores atípicos (outliers)

Los valores atípicos pueden distorsionar los modelos, especialmente aquellos basados en distancias como la regresión lineal o k-nearest neighbors. Identificar y tratar estos valores es crucial.

5.1 Detección de outliers

Una forma común de identificar outliers es usando el rango intercuartil (IQR).

Q1 = data['columna'].quantile(0.25)
Q3 = data['columna'].quantile(0.75)
IQR = Q3 - Q1

# Identificar outliers
outliers = data[(data['columna'] < (Q1 - 1.5 * IQR)) | (data['columna'] > (Q3 + 1.5 * IQR))]

5.2 Tratamiento de outliers

Dependiendo del contexto, podemos eliminar los outliers o transformarlos.

# Eliminar outliers
data_cleaned = data[~((data['columna'] < (Q1 - 1.5 * IQR)) | (data['columna'] > (Q3 + 1.5 * IQR)))]

6. Creación de nuevas características

El _feature engineering_ es el proceso de crear nuevas variables a partir de las existentes. Esto puede mejorar la capacidad predictiva del modelo.

6.1 Combinación de columnas

Pandas permite combinar varias columnas para crear nuevas características.

# Crear una nueva columna combinando dos existentes
data['nueva_columna'] = data['columna1'] + data['columna2']

6.2 Aplicación de funciones a columnas

Es posible aplicar funciones a columnas para crear nuevas características derivadas.

# Aplicar una función personalizada a una columna
data['log_columna'] = data['columna'].apply(lambda x: np.log(x) if x > 0 else 0)

7. División del conjunto de datos

Una vez que los datos están listos, el último paso del preprocesamiento es dividir el conjunto de datos en entrenamiento y prueba.

from sklearn.model_selection import train_test_split

X = data.drop('target', axis=1)
y = data['target']

# Dividir el dataset en 80% entrenamiento y 20% prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Esta división garantiza que el modelo se entrene con un subconjunto de datos y se evalúe con otro conjunto no visto previamente.

Conclusión

El preprocesamiento de datos es una etapa crítica que no debe pasarse por alto en el desarrollo de modelos de Machine Learning. Con las herramientas que ofrece Pandas, puedes limpiar, transformar y preparar tus datos de manera eficiente, mejorando así el rendimiento de tus modelos. Desde la gestión de valores nulos hasta la creación de nuevas características, las técnicas de preprocesamiento son esenciales para garantizar el éxito en cualquier proyecto de Machine Learning.

Etiquetas:

pandas machine learning python

Creado por:

Jorge García

Fullstack developer