Ciencia de los datos

La ciencia de datos es un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimientos y perspectivas de datos estructurados y no estructurados, y aplicar conocimientos y perspectivas procesables a partir de datos en una amplia gama de dominios de aplicación. La ciencia de datos está relacionada con la minería de datos, el aprendizaje automático y los macrodatos.

La ciencia de datos es un "concepto para unificar estadísticas, análisis de datos, informática y sus métodos relacionados" con el fin de "comprender y analizar fenómenos reales" con datos. Utiliza técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, la estadística, la informática, la ciencia de la información y el conocimiento del dominio. El ganador del premio Turing, Jim Gray, imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia (empírico, teórico, computacional y ahora basado en datos) y afirmó que "todo lo relacionado con la ciencia está cambiando debido al impacto de la tecnología de la información "y la avalancha de datos.

La ciencia de datos es un campo interdisciplinario centrado en extraer conocimiento de conjuntos de datos, que suelen ser grandes (ver big data), y aplicar el conocimiento y la información procesable de los datos para resolver problemas en una amplia gama de dominios de aplicación. El campo abarca la preparación de datos para el análisis, la formulación de problemas de ciencia de datos, el análisis de datos, el desarrollo de soluciones basadas en datos y la presentación de hallazgos para informar decisiones de nivel alto en una amplia gama de dominios de aplicación. Como tal, incorpora habilidades de informática, estadística, ciencias de la información, matemáticas, visualización de información, integración de datos, diseño gráfico, sistemas complejos, comunicación y negocios. El estadístico Nathan Yau, dependiente en Ben Fry, también vincula la ciencia de datos con la interacción entre humanos y computadoras: los usuarios deben poder controlar y explorar los datos de manera intuitiva. En 2015, la Asociación Estadounidense de Estadística identificó la administración de bases de datos, las estadísticas y el aprendizaje automático, y los sistemas distribuidos y paralelos como las tres comunidades profesionales fundamentales emergentes.

Relación con las estadísticas

Muchos estadísticos, incluido Nate Silver, han argumentado que la ciencia de datos no es un campo nuevo, sino otro nombre para la estadística. Otros argumentan que la ciencia de datos es distinta de las estadísticas porque se enfoca en problemas y técnicas exclusivas de los datos digitales. Vasant Dhar escribe que las estadísticas enfatizan los datos cuantitativos y la descripción. Por el contrario, la ciencia de datos se ocupa de datos cuantitativos y cualitativos (por ejemplo, imágenes) y enfatiza la predicción y la acción. Andrew Gelman de la Universidad de Columbia y el científico de datos Vincent Granville han descrito las estadísticas como una parte no esencial de la ciencia de datos. El profesor de Stanford, David Donoho, escribe que la ciencia de datos no se distingue de las estadísticas por el tamaño de los conjuntos de datos o el uso de la computación, y que muchos programas de posgrado anuncian engañosamente su capacitación en análisis y como estadística la esencia de un programa de ciencia de datos. Describe la ciencia de datos como un campo aplicada que surge de las estadísticas tradicionales. En resumen, la ciencia de datos se puede describir como una rama aplicada de la estadística.

La concepción moderna de la ciencia de datos como una disciplina independiente a veces se atribuye a William S. Cleveland. En un artículo de 2001, abogó por una expansión de la estadística más allá de la teoría hacia áreas técnicas; debido a que esto cambiaría significativamente el campo, justificaba un nuevo nombre. La "ciencia de datos" se volvió más utilizada en los próximos años: en 2002, el Comité de Datos para la Ciencia y la Tecnología lanzó Data Science Journal. En 2003, la Universidad de Columbia lanzó The Journal of Data Science. En 2014, la Sección de Aprendizaje Estadístico y Minería de Datos de la Asociación Estadounidense de Estadística cambió su nombre a Sección de Aprendizaje Estadístico y Ciencia de Datos, lo que refleja la creciente popularidad de la ciencia de datos.

El título profesional de "científico de datos" se ha atribuido a DJ Patil y Jeff Hammerbacher en 2008. Aunque fue utilizado por la Junta Nacional de Ciencia en su informe de 2005, "Colecciones de datos digitales de larga duración: habilitación de la investigación y la educación en el siglo XXI, "se refirió ampliamente a cualquier función clave en la gestión de una recopilación de datos digitales.

Hoy