Les capacités de prédiction d’un ensemble de LLM
Ces dernières mois, le domaine de l’intelligence artificielle (IA) a connu des avancées remarquables, en particulier avec le développement de grands modèles de langage (LLM). Ces modèles, construits sur l’architecture Transformer, ont montré une capacité impressionnante à effectuer un large éventail de tâches, du traitement du langage naturel à la prise de décision complexe, rivalisant souvent avec les capacités humaines dans des domaines spécifiques, voire les dépassant. L’avènement de LLM tels que GPT-4, Claude 2 et d’autres a suscité un intérêt croissant pour leurs applications potentielles dans divers domaines, y compris les prévisions.
La prévision, qui consiste à prédire des événements futurs, s’appuie traditionnellement sur l’expertise humaine et sur l’effet dit de « sagesse des foules ». Ce phénomène se produit lorsque le jugement collectif d’un grand groupe d’individus, chacun avec ses propres connaissances et perspectives, produit des prédictions qui sont souvent plus précises que celles faites par des experts individuels. L’efficacité de cette méthode a été bien documentée dans divers domaines, tels que l’économie, la politique et la technologie.
Cependant, la question demeure de savoir si les LLM peuvent reproduire ou même surpasser la précision des prédictions de la foule humaine dans des scénarios de prévision du monde réel. Bien que certaines études aient exploré les capacités des LLM individuels en matière de prévision, les résultats ont été mitigés, les LLM étant souvent moins performants que les agrégats de foules humaines. Cela soulève la possibilité que la sous-performance des LLM individuels puisse être atténuée par l’utilisation d’une approche d’ensemble – l’agrégation des prédictions de plusieurs LLM pour exploiter un effet similaire de « sagesse de la foule de silicium ».
L’article de Schoenegger, Tuminauskaite, Park et Tetlock, « Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy », vise à combler cette lacune en examinant si un ensemble de LLM peut atteindre une précision de prévision comparable à celle des foules humaines.
Dans l’étude 1, les auteurs évaluent la précision prédictive d’un ensemble diversifié de douze LLM sur 31 questions de prévision binaires et la comparent à la précision d’une foule humaine tirée d’un grand tournoi de prévision. Les auteurs examinent également les biais potentiels dans les prédictions des LLM, tels que le biais d’acquiescement, qui pourraient affecter leur précision.
Dans l’étude 2, les auteurs explorent plus avant si la précision des prédictions LLM peut être améliorée en incorporant des apports cognitifs humains. Plus précisément, les auteurs testent l’impact de la soumission aux LLM des prédictions médianes d’une foule humaine et évaluent si cette information améliore la précision de leurs prévisions.
Les résultats de ces études ont des implications significatives pour l’utilisation future des LLM dans les prévisions et d’autres applications du monde réel. En démontrant que les ensembles de LLM peuvent égaler la précision de la foule humaine, cette recherche ouvre la voie à de nouvelles méthodes efficaces pour tirer parti de l’IA dans les processus de prise de décision dans divers secteurs. En outre, elle donne un aperçu des synergies potentielles entre l’intelligence humaine et l’intelligence artificielle, en particulier dans les contextes où des prévisions précises sont essentielles.
Le potentiel d’amélioration des prévisions LLM avec des données humaines laisse entrevoir la collaboration entre l’homme et l’intelligence artificielle. En combinant les forces de l’intelligence humaine et de l’intelligence artificielle, les organisations peuvent développer des systèmes de prévision plus robustes et plus précis qui tirent parti du meilleur des deux mondes. Cette approche hybride pourrait être particulièrement efficace dans les scénarios où les données sont rares ou très incertaines, et où le jugement humain est crucial pour interpréter des signaux complexes.
Etude 1 : Approche « ensemble de LLM »
L’objectif principal de l’étude 1 était d’évaluer les capacités de prévision d’un ensemble de grands modèles de langage (LLM) et de comparer leur précision à celle d’une foule humaine dans un tournoi de prévision du monde réel. Cette étude cherchait à déterminer si l’agrégation des prédictions de plusieurs LLM peut reproduire l’effet de « sagesse de la foule », traditionnellement observé dans les prévisions humaines.
Pour constituer l’ensemble de LLM, les auteurs ont sélectionné douze modèles divers qui représentent un large spectre de grands modèles de langage actuels. L’ensemble comprennait à la fois des modèles propriétaires et des modèles libres, avec des architectures, des tailles et des caractéristiques de données d’entraînement variables. Les modèles utilisés dans cette étude sont les suivants : GPT-4 ; GPT-4 avec Bing ; Claude 2 ; GPT-3.5-Turbo-Instruct ; Solar-0-70B ; Llama-2-70B ; PaLM 2 (Chat-Bison@002) Coral ; Mistral-7B ; Barde (PaLM 2) ; Falcon-180B ; Qwen-7B.
L’accès à ces modèles s’est fait par l’intermédiaire d’interfaces web accessibles au public, ce qui a permis à l’étude de reproduire un scénario d’application réel. Aucune API n’a été utilisée, et les paramètres par défaut (par exemple, la température) ont été appliqués uniformément à tous les modèles. Cette approche a été choisie pour maximiser l’accessibilité et la reproductibilité de la méthode d’ensemble, tout en conservant l’hétérogénéité de la conception et de la fonction des modèles.
Les questions de prévision utilisées dans cette étude proviennent d’un tournoi de prévision public organisé sur la plateforme Metaculus entre octobre 2023 et janvier 2024. Ce tournoi a attiré 925 prévisionnistes humains, qui ont fourni des prédictions sur un large éventail de questions probabilistes binaires. Les questions couvraient divers domaines, notamment la géopolitique, l’économie, la technologie et la science. Parmi les exemples de questions, on peut citer les prédictions sur les taux d’intérêt, les résultats des élections politiques et les progrès de la technologie de consommation.
Pour chaque question, la prédiction médiane de la foule humaine a été utilisée comme référence pour la comparaison avec l’ensemble de LLM. Au total, 31 questions binaires ont été sélectionnées pour l’analyse, assurant un ensemble diversifié de défis de prévision. Pour chaque question de prévision, les auteurs ont interrogé les douze LLM individuellement, en demandant à chaque modèle de fournir une prévision probabiliste pour le résultat binaire. Chaque modèle a été interrogé trois fois pour chaque question afin de tenir compte de la variabilité de leurs réponses. Les prédictions ont été enregistrées et agrégées en calculant la prévision médiane de chaque modèle pour les trois interrogations.
La prévision finale de l’ensemble a été obtenue en calculant la médiane des douze prévisions médianes des LLM individuelles. Cette approche d’ensemble a été conçue pour tirer parti de la diversité des modèles, dans l’espoir que l’agrégation des prévisions réduise les biais et les erreurs des modèles individuels, améliorant ainsi la précision globale. Pour garantir une comparaison équitable, les prévisions de la foule humaine ont été enregistrées en même temps que les prévisions de l’ensemble de LLM. Plus précisément, les prédictions humaines ont été collectées à la fin de la journée au cours de laquelle les prédictions LLM ont été saisies, garantissant que les prédictions humaines et LLM ont été faites dans des conditions temporelles similaires.
Les résultats de l’étude 1 suggèrent que l’approche d’ensemble de LLM a le potentiel de reproduire l’effet de la « sagesse de la foule » dans le contexte de la prévision pilotée par l’IA. En agrégeant les prédictions de plusieurs LLM variés, l’ensemble a pu atteindre des niveaux de précision comparables à ceux des prévisionnistes humains, remettant ainsi en question la notion traditionnelle selon laquelle les foules humaines sont l’étalon-or pour les prévisions.
Les résultats soulignent également l’importance de la diversité au sein de l’ensemble. Les performances variables des modèles individuels soulignent la valeur de l’agrégation de prévisions provenant de sources multiples afin de réduire l’impact des biais et des erreurs inhérents à tout modèle unique. De plus, la capacité de l’ensemble de LLM à correspondre à la précision humaine, malgré la présence de biais d’acquiescement dans les modèles individuels, démontre encore la robustesse de l’approche d’agrégation.
L’étude 1 fournit des preuves solides que les ensembles de LLM peuvent servir d’alternative viable aux foules humaines dans les applications de prévision. Ce résultat a des implications significatives pour l’avenir de la prise de décision basée sur l’IA, suggérant que les organisations pourraient tirer profit des ensembles de LLM pour générer des prévisions précises dans une large gamme de scénarios du monde réel.
Étude 2 : Amélioration des prévisions dirigées par l’homme
S’appuyant sur les résultats de l’étude 1, l’étude 2 explore le potentiel d’amélioration de la précision des prévisions des LLM en intégrant l’apport humain. Alors que l’étude 1 a démontré qu’un ensemble de LLM pouvait égaler la précision d’une foule humaine, l’étude 2 examine si l’exposition des LLM à des prédictions générées par des humains peut améliorer davantage leur performance en matière de prévision.
Pour cette étude, les auteurs se sont concentrés sur deux modèles « frontières » (modèle à la pointe de la recherche) de l’ensemble utilisé dans l’étude 1 : GPT-4 et Claude 2. Ces modèles ont été sélectionnés en raison de leur haute performance et de leur utilisation répandue dans diverses applications, ce qui en fait des candidats idéaux pour examiner l’impact de l’entrée humaine sur la précision des prévisions LLM.
Comme dans l’étude 1, les questions de prévision ont été tirées du même ensemble de 31 questions probabilistes binaires utilisées dans le tournoi de prévision Metaculus. Ces questions couvrent divers sujets, y compris la géopolitique, l’économie et la technologie, garantissant ainsi un test solide des capacités de prévision des LLM.
Pour chaque question, GPT-4 et Claude 2 ont été interrogés pour fournir une prévision initiale en utilisant la même méthodologie que celle décrite dans l’étude 1. Ensuite, les modèles ont été exposés à la prédiction médiane générée par la foule humaine pour la même question. Cette médiane humaine provient de la contribution collective de 925 pronostiqueurs humains qui ont participé au tournoi Metaculus.
L’étude a utilisé un modèle interne, où la précision de prévision de chaque LLM a été évaluée avant et après l’exposition à la prédiction médiane humaine. Cette conception a permis une comparaison directe de la performance des modèles avec et sans l’apport humain.
Le processus a consisté en deux phases pour chaque question de prévision :
1. Phase 1 : Prévision initiale – Les LLM ont fourni leurs prévisions sans aucun apport externe, comme dans la procédure de l’étude 1.
2. Phase 2 : Mise à jour des prévisions – Après avoir reçu la prédiction médiane humaine, les LLM ont reçu l’instruction de mettre à jour leurs prévisions, si cela s’avérait nécessaire. Les modèles ont été invités à reconsidérer leurs prévisions initiales, en incorporant les nouvelles informations tout en équilibrant le risque d’une confiance excessive dans le jugement de la foule et la possibilité d’une sous-utilisation de l’intuition humaine précieuse.
Les résultats de l’étude 2 offrent des preuves convaincantes que l’apport cognitif humain peut améliorer de manière significative la précision des prévisions des LLM. En intégrant les prédictions médianes d’une foule humaine, les LLM ont non seulement amélioré leur précision, mais ont également fait preuve d’une plus grande confiance dans leurs prévisions, comme le montre la réduction des intervalles de prédiction détaillés dans l’article.
Ces résultats soulignent le potentiel de la collaboration entre l’homme et l’intelligence artificielle dans les tâches de prévision. Alors que les LLM apportent des capacités de traitement de données avancées et une capacité à traiter de grands volumes d’informations, l’apport humain fournit des informations cognitives précieuses qui peuvent affiner et améliorer les prédictions de la machine. Cette relation symbiotique entre l’intelligence humaine et l’intelligence artificielle pourrait être particulièrement bénéfique dans les scénarios de prise de décision à fort enjeu où la précision des prévisions est essentielle.
En outre, la forte corrélation entre les écarts de prévision initiaux et l’ampleur des ajustements met en évidence la capacité des LLM à incorporer efficacement des informations externes et à ajuster leurs prévisions en conséquence. Cela suggère que les LLM ne suivent pas simplement un mécanisme de mise à jour simpliste mais s’engagent dans un processus de raisonnement plus complexe qui prend en compte la pertinence et le poids de l’apport humain.
Cependant, l’étude a également révélé que si les LLM bénéficient de l’apport humain, leurs prévisions actualisées sont moins précises qu’une simple moyenne des prévisions de l’homme et de la machine. Cela suggère que si les LLM sont capables d’améliorer leurs prédictions, il reste de la place pour plus de raffinement dans la façon dont ils intègrent et appliquent les idées humaines.
L’étude 2 démontre les avantages substantiels de la combinaison de l’apport cognitif humain avec les capacités de prévision LLM. Cette approche hybride pourrait servir d’outil puissant dans divers domaines, améliorant la précision et la fiabilité des prédictions dans des contextes allant de l’économie à la politique publique. La recherche future pourrait explorer des méthodes plus sophistiquées d’intégration humain-AI, ce qui pourrait conduire à des améliorations encore plus importantes de la précision des prévisions.
Implications de l’IA pour les prévisions et la prise de décision
L’étude 1 a démontré qu’un ensemble de LLM pouvait reproduire l’effet de « sagesse de la foule » traditionnellement associé aux groupes humains. En agrégeant les prédictions de douze LLM divers, l’ensemble a pu atteindre une précision de prévision égale à celle d’une foule humaine. Cette découverte est importante car elle remet en question la croyance conventionnelle selon laquelle les foules humaines, en raison de la diversité de leurs pensées et de leurs capacités cognitives individuelles, sont intrinsèquement supérieures dans les tâches de prédiction.
Le succès de l’ensemble de LLM suggère que la diversité des données d’entraînement, des architectures et des méthodologies des différents LLM peut compenser les biais et les erreurs des modèles individuels, ce qui permet d’obtenir des prédictions plus précises et plus fiables. Cet effet de « sagesse de la foule de silicium » soutient non seulement l’utilisation d’ensembles de LLM dans des applications pratiques de prévision, mais ouvre également de nouvelles voies pour tirer parti de l’IA dans des processus de prise de décision où des prédictions précises sont essentielles.
En outre, l’approche d’ensemble s’est avérée robuste même en présence de certains biais, tels que le biais d’acquiescement observé, où les LLM ont tendance à prédire des résultats positifs plus fréquemment que ce qui est justifié. La méthode d’agrégation médiane utilisée dans l’ensemble s’est avérée efficace pour contrer ce biais, démontrant ainsi le potentiel des ensembles de LLM à fournir des prévisions équilibrées et précises.
L’étude 2 s’est appuyée sur les bases établies dans l’étude 1 en explorant l’interaction entre l’apport cognitif humain et les capacités de prévision LLM. Les résultats ont révélé que l’exposition des LLM aux prédictions générées par l’homme pouvait améliorer de manière significative leur précision. Le GPT-4 et Claude 2 ont tous deux amélioré leurs scores après avoir incorporé les prédictions médianes de la foule humaine, ce qui indique que les idées humaines peuvent servir d’intrants précieux pour affiner les prévisions générées par les machines.
Cette découverte souligne le potentiel de la collaboration entre l’homme et l’intelligence artificielle dans les tâches de prévision. Alors que les LLM excellent dans le traitement de grandes quantités de données et l’identification de modèles, les prévisionnistes humains apportent un type différent de traitement cognitif qui peut améliorer la qualité des prévisions. En intégrant ces deux approches, les organisations peuvent atteindre des niveaux de précision plus élevés dans leurs prévisions, en particulier dans des environnements complexes ou incertains où l’intuition et l’expérience humaines jouent un rôle crucial.
Le rétrécissement des intervalles de prédiction observé dans l’étude 2 appuie davantage la notion selon laquelle les LLM peuvent devenir plus confiants dans leurs prédictions lorsqu’ils sont éclairés par le jugement humain. Cette confiance accrue est indicative de la capacité des modèles à ajuster de manière appropriée leurs prévisions à la lumière de nouvelles informations, en équilibrant les risques d’excès de confiance et de sous-utilisation de l’apport humain.
Cependant, l’étude a également mis en évidence que si les LLM ont bénéficié de l’apport humain, leurs mises à jour n’ont pas été aussi précises qu’une simple moyenne des prédictions de l’homme et de la machine. Cela suggère que les LLM, malgré leurs capacités de raisonnement avancées, peuvent encore avoir du mal à intégrer et à appliquer pleinement les idées humaines d’une manière qui maximise la précision. Les recherches futures pourraient explorer des méthodes plus sophistiquées de combinaison des prédictions humaines et automatiques, ce qui pourrait conduire à des améliorations encore plus importantes de la performance des prévisions.
Les résultats de cette recherche ont des implications significatives pour l’avenir de l’IA dans la prévision et la prise de décision. Le succès démontré de l’approche d’ensemble de LLM suggère que les organisations peuvent de plus en plus compter sur des prédictions basées sur l’IA, réduisant ainsi le besoin de tournois de prévision humains coûteux et chronophages. Cela pourrait s’avérer particulièrement utile dans les secteurs où des prévisions rapides et précises sont essentielles, tels que la finance, la politique et la technologie.
Toutefois, les conclusions de l’étude mettent également en garde contre une dépendance excessive à l’égard de l’IA seule. Bien que les LLM et leurs ensembles aient montré des capacités remarquables, ils ne sont pas infaillibles et peuvent bénéficier grandement de la supervision et de l’apport humains. Les limites observées dans l’intégration des idées humaines dans l’étude 2 suggèrent qu’il y a encore du travail à faire pour affiner la façon dont les LLM intègrent l’apport cognitif externe.
Les recherches présentées dans l’article ouvrent plusieurs voies pour d’autres expérimentations. L’un des domaines d’intérêt est la poursuite du développement de méthodes d’intégration des prédictions de l’homme et de la machine. Si l’étude 2 a montré que l’apport humain pouvait améliorer les prévisions LLM, elle a également révélé qu’il était possible d’améliorer la manière dont ces modèles traitent et appliquent cet apport. Les études futures pourraient explorer différentes techniques d’agrégation, des schémas de pondération ou des boucles de rétroaction itératives qui pourraient mieux capturer les forces des prévisions humaines et de l’IA.
Une autre direction prometteuse est l’expansion de l’approche d’ensemble de LLM. Bien que cette étude ait utilisé douze modèles, la recherche future pourrait étudier les effets d’ensembles plus importants et plus diversifiés. L’augmentation du nombre et de la variété des LLM dans l’ensemble pourrait potentiellement conduire à une précision et une robustesse encore plus grandes, en particulier dans des scénarios de prévision très complexes ou nouveaux.
Enfin, il est nécessaire d’explorer les implications éthiques et pratiques du déploiement d’ensembles de LLM dans des contextes décisionnels réels. À mesure que l’IA s’intègre dans des tâches de prévision critiques, il est essentiel de prendre en compte les risques potentiels, tels qu’une confiance excessive dans les prédictions des machines, la transparence des décisions prises par l’IA et la responsabilité en cas d’erreur. Il sera essentiel de répondre à ces préoccupations pour garantir que les systèmes de prévision pilotés par l’IA soient à la fois efficaces et dignes de confiance