Síntesis de Ciencia de Datos, Estrategia y Aplicaciones (Pierson)

Síntesis de Ciencia de Datos, Estrategia y Aplicaciones

Pierson, L. (2021). Data Science For Dummies (3.ª ed.). John Wiley & Sons, Inc.

Resumen Ejecutivo

Este documento sintetiza los temas centrales extraídos de un análisis exhaustivo de la ciencia de datos, abarcando desde sus técnicas fundamentales hasta sus aplicaciones estratégicas en el ámbito empresarial y de marketing. Las técnicas de agrupación, como el clustering (aprendizaje no supervisado) y la clasificación (aprendizaje supervisado), se presentan como métodos esenciales para generar predicciones valiosas a partir de los datos.

Para la gestión eficaz de la información, se subraya la importancia de SQL y el diseño de bases de datos relacionales, que garantizan la integridad, velocidad y capacidad de manejo de datos estructurados. La comunicación de los hallazgos es crucial, y una visualización de datos efectiva depende de una profunda comprensión de la audiencia, lo que dicta la elección entre un enfoque de data showcasing para expertos o de data storytelling para públicos no analíticos.

En el contexto empresarial, la perspicacia de negocio es indispensable, permitiendo a los científicos de datos conectar su trabajo técnico con la generación de valor tangible, ya sea a través de la reducción de costos o el aumento de ingresos. El marketing emerge como un campo de aplicación clave, donde técnicas como la puntuación de canales (channel scoring) y el modelado de marketing mix (MMM) se utilizan para optimizar el retorno de la inversión.

Finalmente, se exploran las vías para el emprendimiento en ciencia de datos, detallando modelos de negocio y de ingresos, y se proporciona un compendio de herramientas y recursos de datos abiertos que facilitan la práctica de la disciplina.

1. Técnicas Fundamentales de Agrupación de Datos

Las técnicas de agrupación son métodos simples y potentes para generar predicciones y obtener información valiosa a partir de los datos. Se dividen principalmente en dos categorías: clustering, para datos no etiquetados, y clasificación, para datos etiquetados.

Clustering: Aprendizaje No Supervisado

El clustering es una forma de aprendizaje automático no supervisado que se utiliza para dividir datos no etiquetados en subconjuntos o «clusters». El objetivo es que las observaciones dentro de un mismo clúster sean lo más similares posible entre sí. Este método es ideal cuando se quiere descubrir patrones, relaciones y correlaciones inherentes en un conjunto de datos sin una idea preconcebida de los subgrupos existentes.

Un ejemplo práctico utiliza datos del Banco Mundial que relacionan el porcentaje de ingresos del 10% más bajo de la población con el porcentaje de niños que completan la escuela primaria. Un simple gráfico de dispersión de estos datos revela visualmente la existencia de al menos dos o tres clústeres, lo que sugiere agrupaciones naturales de países según estas dos variables.

Algoritmos y Métricas de Clustering

Existen diversos algoritmos y métricas para realizar clustering, cuya elección depende de la naturaleza de los datos y el objetivo del análisis.

  • Tipos de Algoritmos:
    • Particionales: Crean un único conjunto de clústeres.
    • Jerárquicos: Crean conjuntos anidados de clústeres en diferentes niveles jerárquicos.
  • Métricas de Similitud (para datos numéricos):
    • Euclidiana: Mide la distancia en línea recta entre dos puntos en un plano.
    • Manhattan: Calcula la distancia como la suma de las diferencias absolutas de las coordenadas cartesianas.
    • Minkowski: Una generalización de las distancias Euclidiana y Manhattan.
    • Similitud del Coseno: Mide la similitud basándose en el ángulo entre dos puntos de datos.
  • Métricas de Similitud (para datos no numéricos):
    • Distancia de Jaccard: Compara el número de características que dos observaciones tienen en común, útil para datos de texto.

Métodos Populares de Clustering

Método Descripción Fortalezas Debilidades
K-means Un algoritmo rápido y simple que agrupa los datos en un número predefinido (k) de clústeres. Funciona identificando k centroides (puntos más representativos) y asignando cada observación al centroide más cercano. Rapidez, robustez y eficiencia computacional. La calidad depende de la elección correcta de k. Puede producir resultados incorrectos si los centros convergen en áreas de mínima densidad local.
Estimación de Densidad Kernel (KDE) Un método de suavizado que coloca una función de ponderación (kernel) en cada punto de datos para estimar la densidad general. Las áreas de mayor densidad forman los clústeres. No depende de la colocación de centros, evitando el riesgo de converger en mínimos locales. Genera una vista de cambio gradual de densidad. Es más un auxiliar visual que un método de partición estricto.
Clustering Jerárquico Un algoritmo más lento que predice agrupaciones calculando la distancia entre cada observación y su vecino más cercano, creando una jerarquía de clústeres. Los resultados se visualizan en un dendrograma. No requiere predefinir el número de clústeres. El dendrograma facilita la decisión sobre el número apropiado de clústeres. Más lento y computacionalmente más intensivo que k-means.

Clasificación: Aprendizaje Supervisado

A diferencia del clustering, la clasificación es una forma de aprendizaje automático supervisado. Se utiliza cuando los datos iniciales están etiquetados. El algoritmo «aprende» de estos datos etiquetados para construir un modelo predictivo que luego puede ser utilizado para pronosticar la clasificación de futuras observaciones.

2. Gestión de Datos Estructurados con SQL

El Lenguaje de Consulta Estructurado (SQL) es una herramienta fundamental para trabajar con datos estructurados que residen en Sistemas de Gestión de Bases de Datos Relacionales (RDBMS). Aunque no es un lenguaje de programación completo como R o Python, es un lenguaje de comandos indispensable para crear, mantener y buscar en bases de datos relacionales.

El Rol de SQL y las Bases de Datos Relacionales (RDBMS)

Los RDBMS se componen de tablas relacionadas entre sí, similar a un libro de Excel con múltiples hojas de cálculo vinculadas por columnas compartidas.

  • Beneficios Clave de los RDBMS:
    • Velocidad: El buen uso de índices (tablas de búsqueda que apuntan a los datos) es vital para una recuperación de datos ultrarrápida.
    • Capacidad: Manejan grandes volúmenes de datos en comparación con aplicaciones como Excel.
    • Integridad de los Datos: Aseguran la consistencia y precisión de los datos, permitiendo realizar cambios y actualizaciones de manera sistemática y sin errores.
  • Implementaciones Populares de SQL:
    • MySQL: La versión de código abierto más popular.
    • PostgreSQL: Añade elementos orientados a objetos, popular entre los programadores.
    • Oracle y Microsoft SQL Server: Soluciones comerciales potentes para contextos empresariales.

Principios de Diseño de Bases de Datos

Un diseño de base de datos bien planificado es crucial para garantizar un rendimiento rápido y resultados sin errores. Cada hora invertida en la planificación puede ahorrar innumerables horas en el futuro.

  • Tipos de Datos: Es necesario definir el tipo de dato para cada columna (Texto, Numérico, Fecha/Hora). Los tipos de texto son flexibles pero ineficientes para las búsquedas.
  • Restricciones: Son reglas que controlan el tipo de datos que se pueden introducir en una tabla. Por ejemplo, se puede restringir que una columna no acepte valores NULL (ausencia total de datos) o que los valores cumplan un formato específico (ej. «dos letras seguidas de siete números»).
  • Normalización: Es el proceso de estructurar la base de datos para que las modificaciones (adiciones, cambios, eliminaciones) solo deban realizarse una vez, evitando datos anómalos e inconsistentes.

Propiedades de una Base de Datos Normalizada

  1. Claves Primarias: Cada tabla tiene una clave primaria, una columna con un valor único para cada fila.
  2. No Redundancia de Columnas: Ninguna tabla comparte la misma columna, a menos que sea una clave primaria en una y una clave foránea en otra.
  3. Sin Dependencias Múltiples: El valor de cada columna debe depender de una sola columna. Los valores calculados no deben almacenarse, sino calcularse sobre la marcha en cada consulta.
  4. Índices de Columna: Crear un índice en columnas que se usan frecuentemente para búsquedas aumenta drásticamente la velocidad.
  5. Segregación por Tema: Cada tabla debe contener datos sobre un único tipo de tema.

3. Visualización de Datos y Narrativa (Data Storytelling)

La visualización de datos es el arte de comunicar hallazgos numéricos a través de gráficos. Su propósito y diseño deben adaptarse cuidadosamente a la audiencia para ser efectivos.

Adaptación al Público y Estilo de Diseño

  • Público Analítico (Ingenieros, Científicos): Prefieren el data showcasing, donde se presentan los datos de forma exhaustiva para que ellos mismos puedan explorarlos y sacar conclusiones. El diseño debe ser simple, elegante y funcional, utilizando gráficos de barras, de dispersión y de líneas en un estilo «corporate chic».
  • Público No Analítico: Requieren data storytelling, una narrativa visual que guíe al espectador a través de los hallazgos con un contexto claro.
  • Diseño Emocional: Para influir o persuadir, se puede emplear el data art, que utiliza elementos artísticos fluidos y colores dramáticos para invocar una respuesta emocional. Es adecuado para temas sociales, políticos o medioambientales.

Tipos de Gráficos de Datos

La elección del tipo de gráfico puede determinar el éxito de una visualización. Es fundamental seleccionar el que muestre las tendencias de los datos de la manera más dramática y clara posible.

Clase de Gráfico Tipos Populares Audiencia Ideal Descripción
Gráficos Estándar Gráfico de áreas, de barras, de líneas, circular (pie chart). No analítica. Simples y familiares, ideales para comparar valores de parámetros dentro de una misma categoría. Los gráficos circulares pueden ser vistos como demasiado simples por audiencias muy analíticas.
Gráficos Comparativos Gráficos de burbujas, diagramas de círculos empaquetados, diagramas de Gantt, gráficos apilados, mapas de árbol (tree maps), nubes de palabras. Ligeramente analítica. Más complejos, permiten comparar simultáneamente múltiples parámetros y categorías. Son excelentes para data storytelling y data showcasing.

Creación de Contexto en las Visualizaciones

El contexto es vital para que una visualización sea comprensible y útil. Se puede añadir de tres maneras principales:

  1. Datos Contextuales: Añadir datos adicionales que ayuden a entender el «porqué» detrás de las cifras. Esto descentraliza el enfoque y es más adecuado para audiencias analíticas.
  2. Anotaciones: Incluir encabezados y descripciones textuales para explicar el contexto de los datos. Es útil tanto para audiencias analíticas como no analíticas.
  3. Elementos Gráficos: Incorporar elementos como líneas de tendencia de media móvil, líneas de objetivo o benchmarks predictivos para transmitir la significancia relativa de los datos.

4. La Perspicacia Empresarial en la Ciencia de Datos

Para que la ciencia de datos genere un valor real en un negocio, los profesionales no solo necesitan habilidades técnicas, sino también una profunda perspicacia empresarial. Esto implica entender el contexto en el que su trabajo crea valor para la empresa.

Definición y Componentes de la Perspicacia Empresarial

En un contexto de negocio, la «experiencia en la materia» es sinónimo de perspicacia empresarial. Se define como la aguda capacidad de entender las operaciones comerciales en términos de riesgos y oportunidades para proteger y aumentar las ganancias de la empresa.

  • Componentes Clave:
    • Mentalidad Ejecutiva: La capacidad de pensar en el panorama general del negocio, entendiendo cómo todos los procesos se interconectan para generar beneficios.
    • Conocimiento Financiero: Entender los impulsores clave de las ganancias, el crecimiento y el flujo de caja, y cómo formular estrategias para mejorar los resultados financieros.
    • Habilidades de Liderazgo: Incluye la gestión de productos o proyectos, y la capacidad de trabajar con equipos y stakeholders para entregar proyectos rentables a tiempo y dentro del presupuesto.

Generación de Valor para el Negocio

El objetivo principal de cualquier negocio es generar beneficios. La ciencia de datos contribuye a este objetivo de dos maneras principales:

  1. Generación de Ingresos: Construyendo y monetizando nuevos productos y servicios basados en datos.
  2. Ahorro de Costos: Aumentando los márgenes de beneficio mediante la mejora de la eficiencia o la disminución del riesgo.

Roles Clave en Datos y su Función de Soporte al Negocio

Diferentes roles de datos actúan en distintos niveles para apoyar la generación de beneficios:

  • Analista de Negocios (Business Analyst): Se sitúa cerca de los roles de negocio puros. Utiliza datos existentes para definir las necesidades internas de la empresa y apoyar proyectos que buscan ahorrar costos mejorando las operaciones.
  • Gestor de Proyectos de Datos (Data Project Manager): Gestiona la entrega de proyectos de implementación de datos, que pueden resultar en ahorro de costos o en servicios que generan ingresos.
  • Gestor de Productos de Datos (Data Product Manager): Actúa como un «mini-CEO» de productos de datos que la empresa posee y vende, generando ingresos directamente.
  • Implementadores de Datos (Data Analyst, Data Scientist, Data Engineer, Machine Learning Engineer): Realizan el trabajo técnico de codificación, construcción y modelado de machine learning necesario para crear los productos y completar los proyectos gestionados por los managers.

5. Aplicaciones de la Ciencia de Datos en Marketing

El marketing es uno de los campos donde la ciencia de datos puede generar un impacto más directo y medible en el ROI. Las técnicas analíticas permiten optimizar campañas, personalizar experiencias y predecir el comportamiento del cliente.

Estrategias y Técnicas Clave

Técnica Descripción
Segmentación de Clientes Agrupar clientes según características compartidas para dirigir ofertas personalizadas y realizar ventas cruzadas (cross-sell) y ventas adicionales (upsell).
Reducción de Abandono (Churn) Analizar indicadores que señalan cuándo un cliente es propenso a abandonar la empresa, permitiendo tomar medidas preventivas para retenerlo.
Creación de Contenido con IA Uso de Procesamiento del Lenguaje Natural (NLP) y modelos como GPT-3 para generar texto original y sugerencias de redacción.
Previsión del Valor de Vida del Cliente (LTV) Utilizar machine learning para predecir el valor monetario total que un cliente aportará a la empresa a lo largo de su vida.
Publicidad Hiperdirigida Utilizar datos de comportamiento e intereses para predecir qué usuarios son más propensos a convertirse en clientes, optimizando la inversión publicitaria.
Precios Dinámicos Modelos de machine learning que utilizan datos de navegación (clickstream) para fijar en tiempo real el precio óptimo que maximiza la probabilidad de compra.
Análisis de la Cesta de la Compra Analizar datos transaccionales para identificar productos que se compran juntos con frecuencia, optimizando su colocación en la tienda para aumentar las ventas.

Analítica Omnicanal y Puntuación de Canales (Channel Scoring)

La analítica omnicanal busca clarificar los intereses y expectativas de los clientes a través de todos los canales de venta y marketing. Un componente clave es la puntuación de canales, un proceso de 5 pasos para evaluar y optimizar la estrategia multicanal:

  1. Mapear los Canales: Identificar todos los puntos de contacto donde se generan ventas (sitio web, tienda física, email) y leads (anuncios pagados, SEO, redes sociales).
  2. Puntuar los Canales: Evaluar cada canal en función de la «calidad» de los clientes que genera, utilizando métricas como el LTV, la satisfacción del cliente y la rentabilidad.
  3. Crear una Tarjeta de Puntuación: Resumir los hallazgos en una tarjeta de puntuación visual para cada canal.
  4. Definir un Avatar de Cliente por Canal: Crear un perfil detallado del cliente ideal para cada canal basándose en la puntuación y los datos de comportamiento.
  5. Ajustar la Estrategia: Utilizar los avatares y las puntuaciones para decidir qué cambios realizar para mejorar el rendimiento de cada canal.

Modelado de Marketing Mix (MMM)

El MMM es una de las aplicaciones más potentes de la ciencia de datos en marketing. Consiste en utilizar métodos de machine learning (principalmente regresión lineal y no lineal) sobre datos históricos de ventas y marketing para predecir la combinación exacta de las «cuatro P» del marketing que resulta en el mayor número de ventas.

  • Las Cuatro P:
    • Producto (Product): Características, calidad, durabilidad.
    • Plaza (Place): Canales de distribución, volumen por ubicación.
    • Promoción (Promotion): Gastos en publicidad (TV, digital), número de promociones.
    • Precio (Price): Costo unitario, descuentos.

Una vez que se identifican relaciones estadísticas significativas entre la mezcla de marketing y las ventas, una empresa puede predecir de manera fiable qué combinación producirá más ventas y ajustar sus planes futuros para mejorar el ROI.

6. Estrategia y Emprendimiento en Ciencia de Datos

Más allá de la implementación técnica, la ciencia de datos exitosa requiere una estrategia sólida y ofrece oportunidades para el emprendimiento.

Recopilación de Información Estratégica

Antes de iniciar un proyecto de ciencia de datos, es crucial realizar una recopilación de información interna para evitar escollos comunes:

  • Mapeo de Personas (People-Mapping): Entender la estructura organizativa y las habilidades de datos existentes en la empresa mediante organigramas y encuestas de competencias.
  • Evitar Escollos: Centrarse en los problemas de negocio, no solo en la tecnología. Recopilar «historias de guerra» de proyectos pasados para crear un conjunto de mejores prácticas que prevengan problemas futuros.
  • Ethos de Datos de la Empresa: Recopilar políticas de privacidad de datos y evaluar la ética de las soluciones de IA existentes. Una IA ética debe ser responsable, explicable y sin sesgos, lo cual requiere una sólida gobernanza de datos.

Modelos de Negocio para Emprendedores de Datos

Para quienes buscan iniciar su propio negocio de ciencia de datos sin financiación externa, existen cuatro modelos principales:

Modelo de Negocio Descripción Ventajas Desventajas
Basado en Servicios Ofrecer servicios de implementación de ciencia de datos (freelancing con un equipo). Es la forma más rápida de empezar y conseguir contratos de alto valor. Responsabilidad por lo construido, no es escalable a largo plazo.
Productos de Información Vender cursos, libros o productos digitales sobre datos. Modelo de negocio escalable, fácil de vender. Requiere tener una audiencia preexistente, el valor por venta suele ser menor.
Consultoría y Asesoramiento Ofrecer asesoramiento estratégico de alto nivel. Fácil de configurar, tarifas por hora decentes. Aún se vende tiempo, por lo que es difícil de escalar. Ventas más difíciles de cerrar.
Software como Servicio (SaaS) Vender software de datos o IA a través de un entorno en la nube. Muy escalable y rentable. Largo tiempo de desarrollo hasta llegar al mercado, requiere habilidades técnicas y capital.

Una recomendación clave para el éxito es especializarse en apoyar a profesionales o empresas de otras industrias, en lugar de intentar vender experiencia en datos a otros expertos en datos.

7. Herramientas y Recursos para la Práctica

El ecosistema de la ciencia de datos ofrece una gran cantidad de recursos de datos abiertos y herramientas gratuitas o de bajo costo que democratizan el acceso a la disciplina.

Fuentes de Datos Abiertos

Los gobiernos y organizaciones de todo el mundo publican datos abiertos que pueden ser utilizados, reutilizados y compartidos libremente.

  • Data.gov (EE. UU.): Proporciona acceso a más de 100,000 conjuntos de datos del gobierno de EE. UU. sobre economía, medio ambiente, STEM, calidad de vida y temas legales.
  • Canada Open Data: Ofrece más de 200,000 conjuntos de datos de Statistics Canada, reconocida como una de las mejores organizaciones estadísticas del mundo.
  • data.gov.uk (Reino Unido): Aunque más reciente, cuenta con una impresionante colección de mapas topográficos históricos y datos sobre medio ambiente, gasto gubernamental y salud.
  • US Census Bureau: Ofrece datos demográficos detallados a nivel de bloque censal, extremadamente útiles para investigación de mercado y publicidad.

Herramientas Gratuitas o de Bajo Costo

Categoría Herramienta(s) Descripción
Manipulación de Datos DataWrangler Herramienta en línea para limpiar y reestructurar conjuntos de datos de manera interactiva.
Exploración y Análisis Gephi Software de código abierto para crear y manipular topologías de red (grafos), útil para análisis de redes sociales o biológicas.
WEKA Popular suite de herramientas de machine learning para analizar patrones, agrupar o categorizar datos.
Visualización y Mapas Shiny by RStudio Paquete de R que permite a los usuarios crear aplicaciones web interactivas para visualización de datos sin necesidad de conocer JavaScript.
CARTO Potente solución de mapeo en línea para crear mapas de calor, coropléticos y superponer datos espaciales en diversos mapas base.
Tableau Public Plataforma de visualización de datos colaborativa para crear y compartir visualizaciones interactivas.
RAWGraphs Aplicación web para crear visualizaciones de datos artísticas y poco comunes a través de una interfaz de arrastrar y soltar.
Infografías Infogram, Piktochart Herramientas en línea para crear infografías estéticamente atractivas, combinando gráficos automatizados con diseño gráfico personalizable.