Les modèles de langage peuvent-ils avoir un raisonnement mathématique ? Ces intelligences artificielles améliorent la productivité de tâches et font gagner en efficacité dans de multiples domaines. Mais la communauté scientifique se demande s’ils peuvent aider à faire des mathématiques, à adopter un raisonnement mathématique et dans quelles conditions. Plusieurs initiatives ont été lancées. Sans être exhaustif, examinons certaines déjà bien avancées.
Les modèles de langage peuvent apprendre les mathématiques par l’exemple
François Charton part du constat que les modèles de langage de grande taille (LLM) achoppent sur des problèmes mathématiques, en particulier en arithmétique. Même avec les opérations les plus simples, ils rencontrent des difficultés.
C’est pourquoi, il a mené plusieurs recherches sur des calculs mathématiques réalisés avec des transformeurs, comme le calcul des racines de polynômes. Il poursuit ses expériences sur l’algèbre linéaire, les fonctions de Lyapunov.
Ses travaux de recherche montrent que les réseaux de neurones peuvent apprendre des mathématiques complexes en s’entraînant sur des exemples et sans connaissances mathématiques intégrées.
Les intelligences artificielles ne savent pas faire de mathématiques, mais elles peuvent apprendre à partir d’exemples.
Des modèles de langage conçus pour les mathématiques
Plusieurs entreprises ont créé des modèles de langage dédiés aux mathématiques. Elles essaient de reproduire le raisonnement mathématique. Comment parviennent-elles ? L’analyse de trois exemples nous donne quelques clés.
Qwen 2 Math LLM : simuler les processus de raisonnement mathématique
Alibaba a développé Qwen 2 Math, un LLM conçu pour les mathématiques. Ce modèle de langage traite de grands volumes de données mathématiques. Il aborde l’arithmétique complexe, l’algèbre, le calcul et résout des problèmes complexes.
A la phase de post-entraînement, les ingénieurs ont intégré d’autres outils :
- les chaînes de pensées (chain-of-thoughts), qui améliorent les aptitudes de raisonnement des grands modèles de langage ;
- les Tool-integrated Reasoning (TIR) afin de résoudre des problèmes de mathématiques en anglais et en chinois ;
- un modèle de récompense afin de guider le modèle et améliorer sa performance ;
- l’apprentissage par renforcement.
Ici, les ingénieurs ont entraîné leur IA sur un énorme corpus de données mathématiques. Les chaînes de pensées simulent les processus de raisonnements humains : elles décomposent un problème en petites séquences afin d’aboutir à une réponse.
DeepSeek-R1 : parier sur l’apprentissage par renforcement
DeepSeek-R1 est un modèle de raisonnement conçu pour résoudre des problèmes complexes et des tâches de raisonnement. Ses créateurs ont eu recours à de l’apprentissage par renforcement afin d’améliorer ses capacités. Il utilise aussi les chaînes de pensées et le réglage fin supervisé (SFT).
Cette IA obtient de bons résultats en raisonnement mathématique et en résolution de problèmes, particulièrement quand elle est entraînée sur Qwen.
La particularité de Deep-Seek-R1 est d’avoir mis l’accent sur l’apprentissage par renforcement. Ce dernier améliore les processus de raisonnements et les exécute avec efficacité.
Phi-4 : utiliser les données synthétiques
A la différence des deux exemples précédents, Ph-4, crée par Microsoft, est un petit modèle de langage. Ce qui lui permet de consommer moins de ressources informatiques, comme les tokens, la mémoire, le calcul, etc. Pour autant, ses capacités de raisonnements complexes, notamment mathématiques, dépassent celles des grands modèles de langage comme Open AI o1.
Il présente la particularité d’utiliser des données synthétiques, auxquelles s’ajoutent des méthodes courantes comme le SFT et l’optimisation directe des préférences. De ce fait, son usage vise plutôt des domaines précis comme la recherche scientifique (modélisation), la finance et l’ingénierie.

La formulation symbolique et conceptuelle est fondamentale pour le raisonnement mathématique, photo d’Antoine Dautry/Unsplash
IA et mathématiques : les réserves des mathématiciens
Les mathématiciens s’intéressent à ces IA, car elles les aident dans leurs démonstrations et leurs résolutions de problèmes mathématiques. Terence Tao, le brillant mathématicien, a rédigé un article qui fait le point sur cette question. Ses réflexions valent pour les modèles de langage ainsi que pour les autres IA.
Il rappelle que les mathématiciens utilisent depuis longtemps des outils techniques qui facilitent leur travail. C’est le cas des solvers et des assistants de preuve. Et l’apprentissage automatique (machine learning) donne des résultats probants dans le domaine de la théorie des nœuds.
Toutefois, il expose plusieurs réserves, que d‘autres mathématiciens partagent. En voici une rapide synthèse.
L’approximation des IA contrevient à l’exactitude mathématique
La première réserve est la qualité des réponses des IA. Les IA sont connues pour donner des résultats erronés, approximatifs. Elles commettent des erreurs de calcul et sont sujettes aux hallucinations.
En outre, elles n’ont ni la rigueur ni la précision inhérentes à la démarche mathématique, laquelle ne tolère aucune imprécision. Or, les intelligences artificielles, qui se fondent sur des méthodes statistiques, sont souvent imprécises.
Elles ne comprennent pas non plus un problème mathématique. Dans un énoncé, elles ne distinguent pas une information essentielle d’une information superflue. Le résultat en est faussé.
De ce fait, les IA ne sont pas toujours fiables. Les mathématiciens recherchent rigueur, précision, exactitude. Il leur est par conséquent difficile de se fier à ces outils.
Un manque de données de qualité pour les mathématiques
Les données manquent elles aussi de précision et d’exactitude. En particulier quand les données sont différentes des données d’entraînement ou si ces données sont imprécises.
Par ailleurs, des résultats diffèrent selon les jeux de données. Ces IA obtiennent un excellent résultat avec un jeu de données mais mauvais avec un autre. Les résultats sont donc variables.
Selon certains chercheurs il manque des données en mathématiques, et des domaines mathématiques n’ont pas été encore formalisés et donc utilisables par des intelligences artificielles. Constat surprenant, quand on connaît la masse de données disponibles.
Les modèles de langage parviennent-ils à raisonner ?
Le raisonnement abstrait, conceptuel, la manipulation des notions symboliques sont difficiles à réaliser pour les intelligences artificielles, voire leur sont étrangères. Ce sont pourtant des fondamentaux de l’étude mathématique.
En effet, les mathématiciens s’intéressent particulièrement au raisonnement, à la démonstration, à la façon dont on arrive à un résultat. Or, les IA donnent souvent leurs résultats sans donner d’explications suffisantes. Leur comportement est proche d’une boîte noire.
En outre, les démonstrations mathématiques demandent beaucoup de temps et des équipes de scientifiques chevronnés. La rédaction des démonstrations est longue, fastidieuse et elle ne souffre d’aucune erreur. Les IA peuvent-elles maintenir l’exactitude et de la cohérence sur de longs raisonnements ; sont-elles l’outil adéquat pour ce travail ?
Comment une IA peut-elle penser l’inconnu ?
Les IA reproduisent des schémas de raisonnement et leurs étapes, qui souvent, proviennent des données d’entraînement. Leurs résultats comme leur processus d’analyse dépendent de ces données.
Mais s’il se présente un problème non rencontré, en dehors de ces schémas, comment vont-elles réagir ? Bien souvent, la réflexion mathématique implique de trouver de nouvelles voies, de nouvelles façons de calculer. Comment modéliser les étapes d’un raisonnement encore balbutiant ?
Certes, certaines IA sont conçues pour l’analyse prédictive. Mais la prédiction se nourrit de données passées, parfois actualisées, et elle repose sur des calculs statistiques, deux aspects qui ne satisfont pas entièrement les mathématiciens.
Les IA ne savent pas imaginer, savent-elles inventer, faire preuve d’originalité quand il s’agit d’aborder de nouveaux domaines mathématiques ? Ces dernières réserves leur sont régulièrement faites dans d’autres champs d’application.
Et vous, quel est votre usage des modèles de langage pour les mathématiques ?