KaggleHub es una herramienta que permite conectar entornos de programación en Python, como Google Colab, a datasets y notebooks de Kaggle sin necesidad de descarga manual. Facilita el acceso a datos y modelos de Kaggle directamente en el flujo de trabajo, simplificando el análisis y la manipulación de datos.
KaggleHub es una biblioteca que utiliza la API de Kaggle para interactuar con datasets y notebooks desde entornos de Python. Esta herramienta permite descargar datos, ejecutar notebooks e integrar flujos de trabajo de Kaggle en otros entornos de desarrollo sin salir del código. KaggleHub requiere autenticación mediante el archivo de configuración de API de Kaggle (kaggle.json
).
Para comenzar, es necesario instalar la biblioteca de KaggleHub. Puedes hacerlo usando el siguiente comando en tu terminal o en una celda de Jupyter Notebook:
pip install kagglehub
Para usar KaggleHub, primero necesitas configurar la API de Kaggle. Debes obtener el archivo kaggle.json
desde tu cuenta de Kaggle:
1. Ingresa a tu cuenta en Kaggle.
2. Dirígete a My Account y selecciona Create New API Token.
3. Guarda el archivo kaggle.json
en la carpeta ~/.kaggle
en tu sistema, o cárgalo en tu entorno de desarrollo.
Una vez configurada la API, puedes usar KaggleHub para acceder a datos y notebooks. Aquí tienes un ejemplo para descargar un dataset.
from kagglehub import KaggleHub
# Iniciar KaggleHub con el archivo de configuración
kaggle = KaggleHub(api_token_path="~/.kaggle/kaggle.json")
# Descargar un dataset específico
kaggle.download_dataset('nombre_del_autor/nombre_del_dataset', path='./datos')
En el ejemplo anterior, reemplaza 'nombre_del_autor/nombre_del_dataset'
con el nombre del dataset que deseas descargar desde Kaggle.
download_dataset
de KaggleHub
Parámetro | Tipo | Descripción |
---|---|---|
dataset
|
String |
Nombre del dataset en formato autor/nombre_del_dataset .
|
path
|
String | Ruta en la que se guardará el dataset descargado. |
force
|
Bool |
Si es True , reemplaza el dataset si ya existe.
|
KaggleHub también permite ejecutar notebooks almacenados en Kaggle y recuperar sus resultados:
# Ejecutar un notebook específico
kaggle.run_notebook('nombre_del_autor/nombre_del_notebook', output_path='./resultados')
Para más detalles sobre el uso y las funcionalidades de KaggleHub, puedes consultar la documentación oficial en GitHub.
Jorge García
Fullstack developer