Volver a la página principal
martes 5 noviembre 2024
22

Cómo usar KaggleHub en Python

KaggleHub es una herramienta que permite conectar entornos de programación en Python, como Google Colab, a datasets y notebooks de Kaggle sin necesidad de descarga manual. Facilita el acceso a datos y modelos de Kaggle directamente en el flujo de trabajo, simplificando el análisis y la manipulación de datos.

¿Qué es KaggleHub y cómo funciona?

KaggleHub es una biblioteca que utiliza la API de Kaggle para interactuar con datasets y notebooks desde entornos de Python. Esta herramienta permite descargar datos, ejecutar notebooks e integrar flujos de trabajo de Kaggle en otros entornos de desarrollo sin salir del código. KaggleHub requiere autenticación mediante el archivo de configuración de API de Kaggle (kaggle.json).

Instalación de KaggleHub

Para comenzar, es necesario instalar la biblioteca de KaggleHub. Puedes hacerlo usando el siguiente comando en tu terminal o en una celda de Jupyter Notebook:

pip install kagglehub

Configuración de la API de Kaggle

Para usar KaggleHub, primero necesitas configurar la API de Kaggle. Debes obtener el archivo kaggle.json desde tu cuenta de Kaggle:

1. Ingresa a tu cuenta en Kaggle.

2. Dirígete a My Account y selecciona Create New API Token.

3. Guarda el archivo kaggle.json en la carpeta ~/.kaggle en tu sistema, o cárgalo en tu entorno de desarrollo.

Ejemplo de Uso Básico de KaggleHub

Una vez configurada la API, puedes usar KaggleHub para acceder a datos y notebooks. Aquí tienes un ejemplo para descargar un dataset.

from kagglehub import KaggleHub

# Iniciar KaggleHub con el archivo de configuración
kaggle = KaggleHub(api_token_path="~/.kaggle/kaggle.json")

# Descargar un dataset específico
kaggle.download_dataset('nombre_del_autor/nombre_del_dataset', path='./datos')

En el ejemplo anterior, reemplaza 'nombre_del_autor/nombre_del_dataset' con el nombre del dataset que deseas descargar desde Kaggle.

Parámetros de la Función download_dataset de KaggleHub

Parámetro Tipo Descripción
dataset String Nombre del dataset en formato autor/nombre_del_dataset.
path String Ruta en la que se guardará el dataset descargado.
force Bool Si es True, reemplaza el dataset si ya existe.

Ejemplo de Ejecución de un Notebook desde KaggleHub

KaggleHub también permite ejecutar notebooks almacenados en Kaggle y recuperar sus resultados:

# Ejecutar un notebook específico
kaggle.run_notebook('nombre_del_autor/nombre_del_notebook', output_path='./resultados')

Referencia

Para más detalles sobre el uso y las funcionalidades de KaggleHub, puedes consultar la documentación oficial en GitHub.

Compartir:
Creado por:
Author photo

Jorge García

Fullstack developer