Le traçage logiciel d'applications parallèles : conception et ajustement de qualité. (On the quality of software generated traces of parallel applications)

Cette these se concentre sur la notion de qualite representative des traces obtenues par voie logicielle sur des executions de programmes paralleles communiquant par messages. Nous proposons une serie de modeles permettant de reajuster la qualite d'une telle trace afin d'approcher la qualite des mesures obtenues sur un systeme de trace materiel. Nous etudions en detail le probleme de datation physique dans un environnement d'execution parallele depourvu d'une horloge physique globale. Apres avoir rappele le principe des methodes statistiques de calcul de temps global, nous proposons une technique qui permet de reduire considerablement le temps d'echantillonnage des horloges. Cette methode offre un acces suffisamment precis et confortable au temps global pour pouvoir rivaliser avec une solution materielle. Nous abordons ensuite le probleme de l'effet de sonde qui resulte du partage des ressources du systeme entre l'outil d'instrumentation logiciel et l'application instrumentee. Nous presentons differents modeles de correction des perturbations, permettant de compenser l'effet de sonde par un traitement post-mortem des traces dans le but de retrouver la dynamique originale d'une execution non-instrumentee. Nous presentons finalement l'outil de trace Tape/PVM, developpe dans le cadre de cette these. Les methodes de qualite de traces proposes ont ete implementees et validees dans Tape/PVM.

[1]  Jerry C. Yan Performance Tuning with AIMS - An Automated Instrumentation and Monitoring System for Multicomputers , 1994, HICSS.

[2]  Vaidy S. Sunderam,et al.  Performance of the NAS Parallel Benchmarks on PVM-Based Networks , 1995, J. Parallel Distributed Comput..

[3]  Eric. Maillet Tape/pvm an Eecient Performance Monitor for Pvm Applications { User Guide , 2007 .

[4]  Barton P. Miller,et al.  Critical path analysis for the execution of parallel and distributed programs , 1988, [1988] Proceedings. The 8th International Conference on Distributed.

[5]  L. Lewis An introduction to frequency standards , 1991, Proc. IEEE.

[6]  Theodore F. Hehr Compensating for perturbation by software performance monitors in asynchronous computations , 1990 .

[7]  P. M. Melliar-Smith,et al.  Synchronizing clocks in the presence of faults , 1985, JACM.

[8]  Allen D. Malony,et al.  Models for performance perturbation analysis , 1991, PADD '91.

[9]  Daniel A. Reed,et al.  Performance Instrumentation Techniques for Parallel Systems , 1993, Performance/SIGMETRICS Tutorials.

[10]  Daniel A. Reed,et al.  Scalable Performance Environments for Parallel Systems , 1991, The Sixth Distributed Memory Computing Conference, 1991. Proceedings.

[11]  Pankaj Mehra,et al.  Performance measurement, visualization and modeling of parallel and distributed programs using the AIMS toolkit , 1995, Softw. Pract. Exp..

[12]  Sekhar R. Sarukkai,et al.  Monitoring the performance of multidisciplinary applications on the iPSC/860 , 1994, Proceedings of IEEE Scalable High Performance Computing Conference.

[13]  Parameswaran Ramanathan,et al.  Hardware-Assisted Software Clock Synchronization for Homogeneous Distributed Systems , 1990, IEEE Trans. Computers.

[14]  Eric Maillet,et al.  On Efficiently Implementing Global Time for Performance Evaluation on Multiprocessor Systems , 1995, J. Parallel Distributed Comput..

[15]  Thierry Jéron,et al.  A general approach to trace-checking in distributed computing systems , 1994, 14th International Conference on Distributed Computing Systems.

[16]  Jean-Marc Jézéquel,et al.  Building a Global Time on Parallel Machines , 1989, WDAG.

[17]  Allen D. Malony,et al.  Perturbation analysis of high level instrumentation for SPMD programs , 1993, PPOPP '93.

[18]  Eric Leu La réexécution, pierre angulaire de la mise au point des programmes parallèles , 1992 .

[19]  Jean-Marc Jézéquel,et al.  Building a global clock for observing computations in distributed memory parallel computers , 1996 .

[20]  Barton P. Miller,et al.  Optimal tracing and replay for debugging message-passing parallel programs , 1992, Proceedings Supercomputing '92.

[21]  Daniel A. Reed,et al.  Performance observability , 1990 .