Administrasjons- program for Cluster i HLT CERN - ALICE Torstein Thingnæs
CERN I Genève Fra 1954 Forsker på partikler Bruker akseleratorer 3000 ansatte 6500 forskere
LHC - Large Hadron Collider 27 km omkrets m dybde -271ºC Bruker LEP tunnelen
ALICE Bly kollisjoner Ca kollisjoner pr sekund Ca 50 relevante kollisjoner pr sekund produserte partikler Flere 100 spor hver Enorme datamengder
TPC – Time Projection Chamber Detekterer partikler Måler punkter
Bearbeiding av data 50 GB/s inn 1-2GB/s ut Finne og fjerne feildata Unødvendig data Komprimere Flere nivåer
HLT – HIGH LEVEL TRIGGER Bearbeiding på høyt nivå Finne punkter fra spor Komprimere data Litt fysikk analyse Velge ut interessante data Trenger stor datakraft
Cluster 700 – 800 datamaskiner Stor arbeidsmengde Må foregå i sanntid Jevn fordeling
Min Problemstilling Lage automatisk program Sjekke status/belastning Finne type feil Mulige feil –Ujevn belastning –Låser seg –Andre software feil –Hardware
Tiltak Omfordele arbeidsbelasting Utbedre feil Omstart av node/programvare Tilkalle hjelp
Problemer Finne feil på pc som er nede Finne hva som er feil Fjern omstart av låst pc
Verktøy Bruke Linux C++/C Bruke ferdige pakker, bl.a. AliRoot Administrasjonsprogram på en maskin Klientprogram på de andre
Fremdrift Sette seg inn i clusteret Jobbe med Hansa-clusteret ved Institutt for fysikk og teknologi på UiB Klargjøre mulige feil Finne tiltak Administrere