Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Design and Implementation of a System for Data Traffic Management in a Real-Time Processing Farm Operated at 1 MHz

Atanasov, Deyan

German Title: Entwicklung und Implementierung eines Systems zum Datenverkehrsmanagement in einer bei 1 MHz betriebenen Echtzeit-Rechnerfarm

[thumbnail of dissertation_atanasov.pdf]
Preview
PDF, English
Download (4MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

The majority of contemporary high-energy physics experiments study rare phenomena, which necessitates real-time high-throughput data processing to reduce the raw detector data rate of several Tbyte/s to a rate which is feasible for storage and detailed analysis. Unique trigger systems select the physical events relevant to the experiment. Typically, data fragments corresponding to the same event and originating from multiple detector data sources need to be assembled in a specific location before being processed further. The resulting communication model can lead to congestions and to inefficient system utilization if data are transferred without supervision since numerous sources are attempting to use common interconnect and computing recourses concurrently. This thesis deals with the measures taken to ensure a congestion-free, load-balanced operation of a real-time trigger farm processing data packets as small as several kbytes at a megahertz rate. The input data are initially split among multiple data feeds and need to be assembled and processed within a few milliseconds. The processing farm is built around commodity PCs which are interconnected with a commercial high-speed low-latency network implementing a torus topology. The thesis presents a system for data traffic management based on a global traffic supervisor and a dedicated control network. The former allocates distributed computing resources dynamically in order to avoid network congestions as well as to balance the load of the system. The latter communicates supervising information to all data feeds in order to initiate a controlled data transfer. A congestion-free system operation is demonstrated in a farm prototype with an integrated hardware-based implementation of the traffic shaping system. Based on parameters measured in the prototype, simulation results of a large-scale processing farm are presented. Both the prototype and the simulation results demonstrate that the system is capable of transferring input data initially split among multiple PCI-based feeding nodes, each one transmitting sub-fragments of 128 bytes, to a specific remote shared memory location at a rate beyond 2 MHz. The obtained results demonstrate the applicability of multicomputer systems based on commodity components for high-rate, low-latency trigger processing if certain care is taken in organizing the actual data transfers. This organization has to ensure efficient event building and appropriate allocation of the available processing resources.

Translation of abstract (German)

Viele der heutigen Hochenergiephysik-Experimente erforschen seltene Phänomene und benötigen daher eine Echtzeitdatenverarbeitung mit hohen Durchsatzraten, um das Rohdatenaufkommen der Detektoren von einigen Terabytes pro Sekunde auf eine Rate zu senken, die für die Speicherung und detaillierte Auswertung geeignet ist. Anwendungsspezifische Trigger-Systeme wählen die für das physikalische Experiment relevanten Ereignisse aus. Häufig werden Datenfragmente, die zu einem Ereignis gehören, aber von mehreren verschiedenen Detektoren produziert werden, an einer Stelle gesammelt, bevor sie verarbeitet werden. Das sich ergebende Kommunikationsmodel kann bei ungesteuerter Datenübertragung zu Verzögerungen und ineffizienter Nutzung von Rechenzeiten führen, da eine Vielzahl von Quellen versuchen, um Netzwerkverbindungen und Rechenkapazitäten zu konkurrieren. Diese Arbeit behandelt die notwendigen Maßnahmen, um einen störungsfreien und lastverteilten Betrieb einer Echtzeittrigger-Farm sicherzustellen, die Paketgrößen von einigen Kilobytes bei einer Taktrate im Megahertz Bereich verarbeitet. Die über mehrere Quellen aufgeteilten Daten müssen dabei innerhalb einiger Millisekunden zusammengefasst und verarbeitet werden. Die Rechnerfarm besteht aus gewöhnlichen PCs, die ringförmig durch ein handelsübliches Hochgeschwindigkeitsnetzwerk mit niedriger Latenz verbunden sind. Es wird ein System zum Datenverkehrsmanagement vorgestellt, basierend auf einer globalen Steuerungseinheit und einem dedizierten Steuerungsnetzwerk. Erstere reserviert verteilte Rechenkapazitäten dynamisch, um Netzwerkstaus zu vermeiden und die Belastung der Systeme aufzuteilen. Letztere versorgt die Datenquellen mit den Steuerungsinformationen, um die überwachte Datenübertragung anzustoßen. Anhand eines Prototypen-Rechnerverbundes mit einer hardwarebasierten Steuerung des Netzwerkverkehrs wird der störungsfreie Betrieb gezeigt. Basierend auf den gemessenen Parametern werden Simulationsergebnisse für große Computerfarmen präsentiert. Prototyp und Simulation zeigen die Fähigkeit des Systems, 128 Byte Blöcke, die über mehreren PCI-Eingangsquellen mit einer Rate von mehr als 2 MHz zur Verfügung gestellt werden, auf einen fernzugreifbaren Speicher (Remote Shared Memory) zu transportieren. Sowohl die Mess- als auch die Simulationsergebnisse demonstrieren, dass es möglich ist, ein hochverfügbares Mehrcomputer-Trigger-System mit geringer Latenz auf handelsüblichen Komponenten aufzubauen. Dafür muss nur der tatsächliche Datentransfer sorgfältig gesteuert werden, um, bei sinnvollem Einsatz der Rechenkapazitäten, effizient Daten zusammen zu führen.

Document type: Dissertation
Supervisor: Lindenstruth, Prof. Dr. Volker
Date of thesis defense: 21 December 2009
Date Deposited: 02 Feb 2010 13:58
Date: 2009
Faculties / Institutes: The Faculty of Physics and Astronomy > Kirchhoff Institute for Physics
DDC-classification: 004 Data processing Computer science
Controlled Keywords: Echtzeitverarbeitung, Online-Datenerfassung, Mehrrechnersystem, Hardware, Verkehrsformung, Dynamische Lastteilung, Überlastkontrolle
Uncontrolled Keywords: Echtzeitdatenverarbeitung , Trigger-System , Rechnerfarm , DatenverkehrsmanagementPC farm , event building , data traffic shaping , congestion avoidance , load balancing
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative