Skip to content

Comment gérer le discours entre les scientifiques des données et les modélisateurs de simulation?

, , | mars 21, 2023 | By

A small group of data scientists and modelers gathered around a computer

Bonjour à tous. Je m'appelle Scott Hebert, gourou de la simulation chez SimWell, et l'une de mes principales fonctions au sein de l'entreprise consiste à répondre aux questions sur la théorie et la pratique de la simulation. En répondant à ces questions, j'ai découvert certains sujets récurrents. Cette série de blogs a pour but de fournir à ceux qui s'intéressent à la simulation telle qu'elle est pratiquée par SimWell un aperçu de ces sujets.

Le sujet d'aujourd'hui concerne l'intersection de la science des données et de la modélisation de simulation dans les projets et la manière de " franchir " le fossé entre ces domaines.

Quelle division?

Beaucoup d'entre vous sont peut-être curieux de savoir pourquoi nous abordons ce sujet. Après tout, ne faisons-nous pas tous la même chose ? Existe-t-il même un fossé ? D'après mon expérience, oui, il y en a un. Il s'agit souvent d'une différence d'accent plutôt que d'un contraste flagrant, mais j'ai personnellement été témoin d'une rupture totale du discours entre les scientifiques des données et les modélisateurs de simulation. Et malgré mon statut de gourou de la simulation, je suis désolé de dire que la rupture se situe des deux côtés.

Les origines de la facture

D'où vient la division ? Le principal problème est la confusion concernant l'importance et les sources de la vérité. La science des données, comme son nom l'indique, considère les données comme la vérité de base. Par conséquent, les scientifiques des données sont très réticents à s'éloigner des données. La question "Que disent les données ?" est la quintessence de la science des données. La modélisation par simulation considère les données comme un outil utile, mais la vérité de base d'un modèle de simulation est le système modélisé, indépendamment des données. Ce problème est aggravé par le fait que les différentes méthodes de simulation varient dans leur approche des données. Cela peut conduire à la croyance erronée que tous les modèles de simulation sont axés sur les données et qu'ils doivent donc relever de la science des données. D'autres similitudes entre les disciplines (par exemple, l'utilisation de statistiques et d'algorithmes avancés) brouillent encore davantage les pistes.

Les effets de la fracture

Les effets de la fracture deviennent évidents lorsque les parties prenantes d'un projet représentent chacun de ces camps et que la fracture n'est pas reconnue. Cela conduit à des ruptures de communication et à des frustrations, car les membres de chaque camp parlent leur propre langue et se parlent à tort et à travers.

Par exemple, les modélisateurs de simulation se demandent pourquoi les scientifiques des données insistent pour faire référence aux données à tout bout de champ, ou les demandes d'éléments tels que les cartes de processus sont accueillies par des questions sur la raison de leur nécessité. D'autre part, les scientifiques des données ne comprennent pas les problèmes méthodologiques liés à l'utilisation directe des données ou la raison pour laquelle la sous-section des données à des fins de validation n'est pas toujours nécessaire pour les modèles de simulation comme elle l'est pour les activités typiques de ML (par exemple, la formation d'algorithmes ML supervisés).

Comment résoudre les divergences

L'amélioration de la communication est une étape importante dans la résolution des problèmes, car le cœur du fossé est une mauvaise communication. L'autre élément important est de prendre conscience de l'existence du fossé.

À titre d'exemple, voici deux termes qui ne sont pas toujours utilisés de la même manière par les scientifiques des données et les modélisateurs de simulation :

  1. Modèle : Un terme aussi simple que "modèle" n'est généralement pas utilisé de la même manière. Les spécialistes des données utiliseront probablement le terme "modèle" pour désigner un modèle statistique et seront moins enclins à se référer à l'ensemble de la solution fournie en tant que "modèle". À l'inverse, les spécialistes de la modélisation de simulation utiliseront le terme "modèle" pour parler du modèle de simulation dans son intégralité et seront plus enclins à inclure des éléments que les spécialistes des données pourraient considérer comme distincts, tels que la visualisation des données.

  2. Vérification : J'ai vu peu de scientifiques des données se référer à la "vérification du modèle" par ce terme lorsqu'ils discutaient du sujet avec des modélisateurs de simulation. Ils parlent de tests et, en raison de leur plus grande capacité en matière de génie logiciel, ils sont susceptibles d'avoir une approche plus solide pour tester la conception du modèle. Les modélisateurs de simulation ont tendance à réduire la vérification au "débogage" de leur modèle.


Ce que les camps peuvent apprendre les uns des autres

Outre le fait que les disciplines ne se chevauchent pas autant que prévu, il existe de nombreux concepts et approches que les scientifiques des données et les modélisateurs de simulation peuvent apprendre les uns des autres. Dans un prochain article, nous développerons ce point, mais voici un concept de chaque côté qui peut mettre en évidence la façon dont nous pouvons nous aider mutuellement.

Qu'est-ce que la simulation ?

Ok, les scientifiques des données. Un modèle de simulation est un moteur de génération de données. C'est aussi simple que cela. On peut également le considérer comme un transformateur de données sophistiqué. En tant que tel, un modèle de simulation ne comporte aucune partie prescriptive. La science des données est souvent sollicitée pour visualiser et analyser les résultats de la simulation (et parfois les données d'entrée), et vous devez être prêt à diriger ces projets. Cependant, n'oubliez pas que les modélisateurs de simulation ont généralement une excellente compréhension statistique et sont généralement plus proches du système que vous.

L'éléphant de la simulation dans la salle

Il s'agit d'une question différente, mais soyons honnêtes : les scientifiques des données ont généralement une bien meilleure compréhension de l'informatique et du génie logiciel que les modélisateurs de simulation. Les modélisateurs qui utilisent un logiciel de simulation soutenu par un langage de programmation complet (comme AnyLogic) s'en sortent mieux ici, mais la formation de la plupart des modélisateurs de simulation comprend très peu de bonnes pratiques de codage ou de sujets tels que le contrôle de version et le développement piloté par les tests. Lorsqu'ils discutent avec des scientifiques des données, les modélisateurs de simulation doivent aborder ces sujets avec humilité et être prêts à apprendre.

Si l'on considère l'ensemble de ces exemples, les scientifiques des données dirigeraient idéalement la vérification d'un modèle de simulation, tandis que les modélisateurs de simulation seraient le fer de lance de la validation de ce modèle.

Conclusion

J'espère que vous avez tiré quelque chose de cette discussion et que vous pourrez avancer dans vos projets en clarifiant davantage les rôles des différentes disciplines. Si vous avez des commentaires, n'hésitez pas à me contacter à l'adresse shebert@simwell.io pour en discuter plus avant. J'espère que nous pourrons voir où les différentes disciplines peuvent mieux travailler ensemble. Jusqu'à la prochaine fois, voici votre sympathique gourou de la simulation !

New call-to-action