Ciencia de Datos con Python¶
La ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados, lo cual es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático, y la analítica predictiva.
También se define La ciencia de datos como "un concepto para unificar estadísticas, análisis de datos, aprendizaje automático, y sus métodos relacionados, a efectos de comprender y analizar los fenómenos reales", empleando técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, la estadística, la ciencia de la información, y la informática.
¿Porque Python?¶
Como ya sabemos, el Data Science se encarga de analizar, transformar datos y extraer información de utilidad para la toma de decisiones. Gracias a Python estas tareas se pueden llevar a cabo sin la necesidad de tener conocimientos avanzados de programación, con pocas líneas de código y en entornos de programación amigables que facilitan la programación y visualización de resultados.
En el desarrollo de un proyecto de Data Science existen diferentes bloques para completar dicho proyecto, algunos de los bloques más relevantes son:
- Extracción de datos
- Procesamiento de los datos
- Aplicación de algoritmos, los cuales pueden ser de machine learning, deep learning o NLP (Natural Language Processing)
- Terminando con la evaluación de los resultados
Lo que nos lleva a preguntarnos: ¿Qué herramientas computacionales se pueden utilizar para desarrollar cada uno de los bloques?, la respuesta siempre será Python, porque cuenta con una gran cantidad de bibliotecas disponibles para cada uno, además de la gran comunidad de programadores que dan soporte en diferentes foros de programación.
Algunos ejemplos de estas bibliotecas son¶
Nombre | Funcionalidad principal |
---|---|
Tensorflow | Creación de redes neuronales artificiales |
Seaborn | Visualización de datos |
Pandas | Manipulación de conjuntos de datos |
NLTK | Resolver problemas en el área del Procesamiento del Lenguaje Natural |
NumPy | Computación de datos en forma de matrices multidimensionales |
Scikit-learn | Procesamiento de datos y algoritmos de machine learning |
¿Como empezar?¶
Si le interesa este campo, puede consultar la documentación del siguiente curso realizado por Javier Barbero profesor de la Universidad de Córdoba y miembro del grupo de investigación AYRNA para el Aula de Software Libre: