| Issue |
ESAIM: ProcS
Volume 81, 2025
CEMRACS 2023 - Scientific Machine Learning
|
|
|---|---|---|
| Page(s) | 123 - 144 | |
| DOI | https://doi.org/10.1051/proc/202581123 | |
| Published online | 10 October 2025 | |
Volume-preserving transformers for learning time series data with structure
1
Max-Planck-Institut für Plasmaphysik, Boltzmannstraße 2, 85748 Garching
2
Zentrum Mathematik, Technische Universität München, Boltzmannstraße 3, 85748 Garching, Germany
3
DAAA, ONERA, Université Paris Saclay, F-92322, Chatillon, France
4
Arts et Métiers Institute of Technology, Paris, France
Two of the many trends in neural network research of the past few years have been (i) the learning of dynamical systems, especially with recurrent neural networks such as long short-term memory networks (LSTMs) and (ii) the introduction of transformer neural networks for natural language processing (NLP) tasks.
While some work has been performed on the intersection of these two trends, those efforts were largely limited to using the vanilla transformer directly without adjusting its architecture for the setting of a physical system.
In this work we develop a transformer-inspired neural network and use it to learn a dynamical system. We (for the first time) change the activation function of the attention layer to imbue the transformer with structure-preserving properties to improve long-term stability. This is shown to be of great advantage when applying the neural network to learning the trajectory of a rigid body.
Résumé
Deux des nombreuses tendances de la recherche sur les réseaux de neurones de ces dernières années ont été (i) l’apprentissage des systèmes dynamiques, en particulier avec les réseaux de neurones récurrents tels que les ’Long Short Term Memory’ (LSTM) et (ii) l’introduction de réseaux de neurones de type ’transformers’ pour le traitement du langage naturel (NLP).
Bien que certains travaux aient été réalisés à l’intersection de ces deux tendances, ils se sont largement limités à l’utilisation directe du transformer vanilla sans adapter son architecture à la configuration d’un système physique.
Dans ce travail, nous utilisons un réseau de neurones inspiré d’un transformer pour apprendre un système dynamique et, de plus (pour la première fois), nous changeons la fonction d’activation du niveau d’attention afin de lui conférer des propriétés de préservation de la structure dans le but d’améliorer sa stabilité à long terme. Ces propriétés s’avèrent extrêmement importantes lors de l’application du réseau de neurone à la trajectoire d’un corps rigide.
© EDP Sciences, SMAI 2025
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (https://creativecommons.org/licenses/by/4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.
Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.
Initial download of the metrics may take a while.
