Fehlertoleranz in universellen Hochleistungs-Parallelrechnern

Moderne Hochleistungs-Parallelrechner stellen neue Anforderungen an Verlaslichkeit und Fehlertoleranz, von denen einige in dieser Arbeit aufgezeigt werden. Anschliesend werden Moglichkeiten diskutiert, Fehlertoleranz fur Hochleistungs-Parallelrechner zu realisieren. Auf zwei, die im MEMSY-Projekt des Sonderforschungsbereichs 182 genutzt werden sollen, wird dann naher eingegangen: die Fehlertoleranz des Verbindungssystems, aufgebaut auf speziellen Kopplungselementen, und die Diagnose der Rechnerknoten mittels Watchdog-Coprozessoren.

[1]  Brian Randell System structure for software fault tolerance , 1975 .

[2]  Parag K. Lala,et al.  Fault tolerant and fault testable hardware design , 1985 .

[3]  Brian Randell,et al.  System structure for software fault tolerance , 1975, IEEE Transactions on Software Engineering.

[4]  Helmut Grubmüller,et al.  Eine CRAY für "jedermann". , 1988 .

[5]  Edward S. Harrison,et al.  Structure of System/88, a fault-tolerant computer , 1988, Comput. Syst. Sci. Eng..

[6]  Hermann Kopetz,et al.  Distributed fault-tolerant real-time systems: the Mars approach , 1989, IEEE Micro.

[7]  Randall Rettberg,et al.  Contention is no obstacle to shared-memory multiprocessing , 1986, CACM.

[8]  Howard Jay Siegel,et al.  The Extra Stage Cube: A Fault-Tolerant Interconnection Network for Supersystems , 1982, IEEE Transactions on Computers.

[9]  R. Klar,et al.  Distributed shared memory multiprocessor architecture MEMSY for high performance paralel computations , 1989, CARN.

[10]  Philip Morrison,et al.  Charles Babbage and His Calculating Engines , 1961 .

[11]  Kenneth E. Batcher,et al.  Design of a Massively Parallel Processor , 1980, IEEE Transactions on Computers.

[12]  James P. Black,et al.  Redundancy in Data Structures: Improving Software Fault Tolerance , 1980, IEEE Transactions on Software Engineering.

[13]  K. H. Kim,et al.  Approaches to Mechanization of the Conversation Scheme Based on Monitors , 1982, IEEE Transactions on Software Engineering.

[14]  Edward J. McCluskey,et al.  Concurrent Error Detection Using Watchdog Processors - A Survey , 1988, IEEE Trans. Computers.

[15]  Robert S. Swarz,et al.  The theory and practice of reliable system design , 1982 .