Saludos a todos. Mi nombre es Scott Hebert, Gurú de la Simulación en SimWell, y una de mis principales funciones en la empresa es responder preguntas sobre la teoría y la práctica de la simulación. Al responder esas preguntas, descubrí algunos temas recurrentes. Esta serie de blogs tiene como objetivo proporcionar a aquellos interesados en la simulación realizada por SimWell algunas ideas sobre estos temas.
El tema de hoy se refiere a la intersección entre la ciencia de datos y la modelización de simulación en proyectos, y cómo superar la división entre estos campos.
¿Qué división?
Muchos de ustedes pueden estar curiosos acerca de por qué estamos comenzando con este tema. Después de todo, ¿no estamos todos haciendo lo mismo? ¿Realmente existe una división? Mi experiencia dice que sí, existe una. A menudo, es una diferencia en el énfasis en lugar de un contraste marcado, pero personalmente he sido testigo de cómo el discurso entre científicos de datos y modeladores de simulación se rompe por completo. Y a pesar de mi condición de gurú de la simulación, lamento decir que la ruptura ocurre en ambos lados.
Orígenes de la división
¿De dónde proviene la división? El problema principal radica en la confusión acerca del énfasis y las fuentes de la verdad. La ciencia de datos, como su nombre indica, ve los datos como la verdad fundamental. Como resultado, los científicos de datos son muy reacios a alejarse de los datos. "¿Qué dicen los datos?" es una pregunta típica en la ciencia de datos. Por otro lado, la modelización de simulación ve los datos como una herramienta útil, pero la verdad fundamental para un modelo de simulación es el sistema que se está modelando, independientemente de los datos. Esto se complica aún más porque los diferentes métodos de simulación varían en su enfoque hacia los datos. Esto puede llevar a la creencia errónea de que todos los modelos de simulación se basan en datos y, por lo tanto, deben estar bajo el ámbito de la ciencia de datos. Otras similitudes entre las disciplinas (por ejemplo, el uso de estadísticas y algoritmos avanzados) también contribuyen a confundir aún más la división.
Efectos de la División
Los efectos de la división se hacen evidentes cuando los interesados en un proyecto representan a cada uno de estos grupos y la división no es reconocida. Esto conduce a la falta de comunicación y a la frustración, ya que los miembros de cada grupo hablan su propio idioma y se comunican sin entenderse mutuamente.
Ejemplos incluyen modeladores de simulación preguntándose por qué los científicos de datos insisten en referirse a los datos en cada momento, o solicitudes de cosas como mapas de procesos que son recibidas con preguntas sobre por qué son necesarios. Por otro lado, los científicos de datos no comprenden los problemas metodológicos de utilizar datos directamente o por qué subdividir los datos con fines de validación no siempre es necesario para modelos de simulación, como lo es para actividades típicas de aprendizaje automático supervisado (por ejemplo, entrenamiento de algoritmos de aprendizaje automático supervisado).
Cómo Resolver la División
Dado que el núcleo de la división es una comunicación deficiente, mejorar la comunicación es un paso importante hacia la resolución de problemas. El otro componente importante es darse cuenta de que la división existe.
Como ejemplo, aquí hay dos términos que no siempre se utilizan de manera similar entre científicos de datos y modeladores de simulación:
- Modelo: Algo tan simple como "modelo" generalmente no se usa de la misma manera. Los científicos de datos probablemente usarán "modelo" como abreviatura de un modelo estadístico y es menos probable que se refieran a la solución completa proporcionada como un "modelo". Por otro lado, los modeladores de simulación utilizarán "modelo" para hablar del modelo de simulación en su totalidad y es más probable que incluyan elementos que los científicos de datos podrían ver como separados, como la visualización de datos.
- Verificación: He visto que pocos científicos de datos se refieren a la "verificación del modelo" con ese término al discutir el tema con los modeladores de simulación. Se refieren a las pruebas, y debido a su mayor capacidad en ingeniería de software, es probable que tengan un enfoque más sólido para probar el diseño del modelo. Los modeladores de simulación tienden a reducir la verificación a la purga de errores en su modelo.
Lo que los Grupos Pueden Aprender uno del Otro
Además de reconocer que las disciplinas no se superponen tanto como se esperaba, existen muchos conceptos y enfoques que los científicos de datos y los modeladores de simulación pueden aprender mutuamente. En una publicación futura, ampliaremos sobre esto, pero aquí hay un concepto de cada lado que puede resaltar cómo podemos ayudarnos mutuamente.
¿Qué es la Simulación?
Para los científicos de datos: Un modelo de simulación es un motor de generación de datos. Es así de simple. También puedes verlo como un transformador de datos sofisticado. Como tal, no hay una parte prescriptiva en un modelo de simulación. A menudo, se recurre a la ciencia de datos para visualizar y analizar las salidas de simulación (y a veces las entradas), y se debe estar preparado para liderar en esas áreas del proyecto. Sin embargo, recuerda que los modeladores de simulación generalmente tienen un excelente entendimiento estadístico y suelen estar más cerca del sistema que tú.
El Asunto Pendiente de la Simulación
Este es un asunto diferente, pero seamos honestos: en general, los científicos de datos tienen un entendimiento mucho mejor de la informática y la ingeniería de software que los modeladores de simulación. Los modeladores que utilizan software de simulación respaldado por un lenguaje de programación completo (como AnyLogic) se desempeñan mejor en este aspecto, pero la formación educativa de la mayoría de los modeladores de simulación incluye muy poco en términos de buenas prácticas de programación o temas como el control de versiones y el desarrollo dirigido por pruebas. Cuando estén en discusión con científicos de datos, los modeladores de simulación deben abordar estos temas con humildad y estar dispuestos a aprender.
Tomando estos ejemplos en conjunto, idealmente, los científicos de datos liderarían la verificación de un modelo de simulación, mientras que los modeladores de simulación encabezarían la validación de dicho modelo.
Conclusión
Espero que hayas obtenido algo de esta discusión y puedas avanzar en proyectos con una mejor claridad sobre los roles de las diversas disciplinas. Si tienes algún comentario, no dudes en contactarme en shebert@simwell.io para discutirlo más a fondo. Espero que podamos ver cómo diferentes disciplinas pueden trabajar juntas de manera más efectiva. Hasta la próxima, ¡este es tu amigable Gurú de la Simulación!