Issue |
ESAIM: Proc.
Volume 43, December 2013
CEMRACS 2012
|
|
---|---|---|
Page(s) | 108 - 116 | |
DOI | https://doi.org/10.1051/proc/201343007 | |
Published online | 13 December 2013 |
An asynchronous writing method for restart files in the gysela code in prevision of exascale systems*
1 CEA Cadarache, FR-13108
Saint-Paul-les-Durance
2 Maison de la simulation, CEA Saclay,
FR-91191
Gif sur Yvette
The present work deals with an optimization procedure developed in the full-f global GYrokinetic SEmi-LAgrangian code (GYSELA). Optimizing the writing of the restart files is necessary to reduce the computing impact of crashes. These files require a very large memory space, and particularly so for very large mesh sizes. The limited bandwidth of the data pipe between the comput- ing nodes and the storage system induces a non-scalable part in the GYSELA code, which increases with the mesh size. Indeed the transfer time of RAM to data depends linearly on the files size. The necessity of non synchronized writing-in-file procedure is therefore crucial.
A new GYSELA module has been developed. This asynchronous procedure allows the frequent writ- ing of the restart files, whilst preventing a severe slowing down due to the limited writing bandwidth. This method has been improved to generate a checksum control of the restart files, and automatically rerun the code in case of a crash for any cause.
Résumé
Ce travail concerne une procédure d'optimisation développée dans le code de calcul GYSELA (GYrokinetic SEmi-LAgrangian). L'optimisation de l'écriture de fichiers de reprise est nécessaire afin de palier aux crashs lors du calcul. Ces fichiers de redémarrage nécessitent un très grand espace mémoire, et ce d'autant plus que le maillage utilisé est gros. La bande passante entre les noeuds de calcul et le système de stockage étant limité, cela induit une non-scalabilité des écritures, ce qui limite actuellement la fréquence d'écriture de ces fichiers. Cette non-scalabilité se révèle être d'autant plus importante que les fichiers sont gros. En effet, ce temps d'écriture (une fois le réseau de com- munication saturé) dépend linéairement de la taille des fichiers à écrire. La nécessité d'introduire une méthode d'écriture désynchronisée se révèle donc d'une grande importance.
Un nouveau module a été développé dans GYSELA. Cette procédure asynchrone permet une écriture très fréquente de ces fichiers de redémarrage, en limitant un ralentissement important dû à la limitation de la bande passante. Cette méthode a été améliorée en introduisant une somme de contrôle de ces fichiers de redémarrage, afin de contrôler leur intégrité si leur utilisation s'avère nécessaire, et permettant un redémarrage automatique de la simulation après un crash.
© EDP Sciences, SMAI 2013
Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.
Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.
Initial download of the metrics may take a while.