Resumen
Obtener predicciones precisas ha sido, en el pasado, uno de los objetivos principales de muchos equipos de ciencia de datos en los últimos años. Sin embargo, para tomar decisiones de negocio verdaderamente estratégicas, predecir qué va a pasar no siempre es suficiente; frecuentemente es necesario entender por qué algo va a pasar, o qué podemos hacer para cambiarlo. En la actualidad, aunque gran parte de la atención se centra en las nuevas capacidades de la Inteligencia Artificial Generativa, el éxito hacia una estrategia analítica madura radica también en dar el salto hacia el modelado causal, permitiendo a las organizaciones evaluar el impacto real de sus intervenciones y optimizar el retorno de inversión con rigor científico.
A continuación, exploramos los conceptos fundamentales del modelado causal, sus diferencias metodológicas con otras ramas como el Machine Learning y la IA, y cómo esta disciplina está transformando la forma en que generamos valor en la industria.
A alto nivel, el modelado causal es el proceso de determinar el efecto independiente y real de un evento o variable particular sobre un resultado específico. Para entender qué es el modelado causal y por qué es distinto a la estadística o el machine learning tradicional, imaginemos un ejemplo muy sencillo.
Supongamos que analizamos los datos de una ciudad costera y descubrimos un patrón muy claro en los datos: los días en que aumentan las ventas de helados, también aumentan los incidentes de quemaduras por el sol en los hospitales, con una correlación casi perfecta.
Si utilizáramos un enfoque puramente asociativo, podríamos llegar a la conclusión de que para reducir las quemaduras de sol en la población, tendríamos que prohibir la venta de helados. En este caso, es muy sencillo darnos cuenta de que hacer eso no tendría el impacto deseado. Entendemos que la venta de helados no causa las quemaduras, si no que existe una tercera variable (llamada variable de confusión o confounder) que está causando que aumenten ambas cosas a la vez: el clima soleado.
Figura 1. Relación causal y correlación estadística espuria entre quemaduras de sol y ventas de helados. El clima soleado en este caso es la “variable confusión”.
Un modelo predictivo sería una herramienta perfecta para alertar. Si un día se están vendiendo muchos helados, el modelo será excelente prediciendo que habrá más quemaduras de sol ese día. Definitivamente nos puede ayudar a responder a la pregunta “qué va a suceder”.
Sin embargo, si nuestro objetivo como tomadores de decisiones es intervenir en el sistema para, por ejemplo, cambiar ese resultado, basarnos solo en las correlaciones que vemos gracias al modelo predictivo puede llevarnos a tomar decisiones equivocadas.
A alto nivel, el modelado causal es precisamente la metodología para “desenredar” o entender a fondo estas relaciones entre variables. Significa buscar ir más allá de las correlaciones, para determinar el efecto independiente y real de una intervención sobre un resultado específico, lo cual significa entender qué causa qué. Al aislar matemáticamente el efecto real de una acción del ruido de otras variables de confusión (como el clima en este ejemplo), el modelado causal nos permite medir el verdadero impacto de nuestras decisiones, lo cual es sumamente importante cuando estas decisiones tienen efectos a gran escala.
Actualmente, existe una diversidad de herramientas metodológicas que los equipos de ciencia de datos podemos utilizar para resolver problemas de distinta naturaleza. Una manera de verlo, de acuerdo con Yee et al. (2025) de McKinsey & Company, es la siguiente:
Figura 2. : Herramientas metodológicas según Yee et al. (2025) de McKinsey & Company
En el panorama actual, la IA Generativa está transformando la forma en que interactuamos con grandes volúmenes de información no estructurada, mientras que la IA Agéntica está avanzando como el futuro de la ejecución autónoma de flujos de trabajo. No obstante, cuando el objetivo primordial es entender a profundidad el comportamiento de un fenómeno, aislar el impacto de las decisiones operativas, evaluar riesgos o apoyar para trazar la estrategia financiera, el motor principal sigue siendo la IA Analítica.
Adicionalmente, es importante recordar que la IA Analítica no es un bloque monolítico, si no que dentro de ella habitan distintos enfoques matemáticos y estadísticos que nos pueden ayudar a resolver problemas fundamentalmente distintos. Algunos de ellos son:
De todas estas herramientas, la que nos puede ayudar a responder preguntas que implican cada vez una mayor complejidad. Para entender por qué, puede ser útil recurrir a la "Escalera de la Causalidad" (Ladder of Causation), introducida por Judea Pearl en su libro The Book of Why. Pearl plantea en esta escalera tres niveles distintos:
Figura 3. Representación de la “escalera de la causalidad”, propuesta por Judea Pearl en el libro “The Book of Why”
Generada con Gemini Nano Bana
Nivel 1. Asociación (Observar)
Este es el nivel fundamental donde brilla el modelado predictivo. Los algoritmos son expertos encontrando correlaciones en los datos históricos. Un modelo en este nivel puede responder a la pregunta: "Dado el comportamiento histórico, ¿cuál es la probabilidad de que este cliente se fugue?".
Nivel 2. Intervención (Hacer)
Aquí es donde damos el salto hacia la toma de decisiones estratégicas y podemos empezar a utilizar el modelado causal. Ya no solo observamos pasivamente, sino que modelamos el efecto de intervenir en el sistema. En este nivel, podemos preguntar algo como: "Si le ofrezco un 20% de descuento a este segmento, ¿cuál será el efecto real en su probabilidad de retención?".
Nivel 3. Contrafactuales (Imaginar):
Este es el nivel más alto del razonamiento analítico. Implica evaluar escenarios alternativos que no ocurrieron: "¿Se habría fugado este cliente si NO lo hubiéramos contactado?". Esto nos permite aislar el impacto real así como la causalidad de eventos, e incluso pensar en habilitar la creación de simulaciones robustas para evaluar distintos escenarios operativos antes de tomar futuras decisiones.
Dependiendo de la industria, el modelado causal nos permite desenredar escenarios complejos para aislar el verdadero impacto de nuestras decisiones.
Algunos ejemplos de preguntas estratégicas que podemos resolver en distintos sectores son:
El comprobado impacto del modelado causal para resolver problemas reales y aportar valor tanto a nivel científico como económico se ha venido manifestando también por medio de un crecimiento constante en la madurez y disponibilidad de librerías de código abierto. En los últimos años, el desarrollo de paquetes especializados ha facilitado la transición de la teoría académica a la implementación empresarial.
Por ejemplo, en el ecosistema del lenguaje R, existen paquetes como dagitty (para el diseño y análisis gráfico de contrafactuales) o CausalImpact (desarrollada originalmente por Google para medir impacto en series de tiempo). Por otro lado, en el ecosistema de Python, librerías robustas como DoWhy y EconML (esta última impulsada fuertemente por Microsfot) han democratizado la implementación de modelos causales apoyados en Machine Learning.
Para que estas soluciones escalen y aporten valor real, el reto actual no es solo utilizar el paquete correcto, sino integrarlos dentro de flujos de trabajo metodológicos reproducibles que permitan validar supuestos y mantener la veracidad de las soluciones. En ixpantia integramos estas y muchas más técnicas para ayudar a nuestros clientes a resolver problemas complejos y de alto impacto.
El modelado causal implica un cambio de paradigma indispensable en la metodología de la ciencia de datos. Abordar los retos de negocio con una mirada causal no solo mejora la capacidad de respuesta de la organización, sino que la prepara para competir con mayor inteligencia. Al dominar estas metodologías y herramientas, dejamos de ser observadores de los datos para convertirnos en arquitectos de estrategias verdaderamente accionables, asegurando que cada intervención genere el máximo impacto posible.
Referencias
Pearl, J., y Mackenzie, D. (2018). The book of why: The new science of cause and effect. Basic Books.
Barrett, M., D'Agostino McGowan, L., y Gerke, T. (2026). Causal inference in R. https://www.r-causal.org/
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4919240
Yee et al. - One year of agentic AI Six lessons from the people doing the work.pdf