In113 feiladministrasjon. ... vi gjentar •mål med drift: sikre at forventede funksjoner og kvaliteter opprettholdes •forventningen definert i tjenesteavtalen.

Slides:



Advertisements
Liknende presentasjoner
Vesentlige kapasitetsendringer i basisperioden 15. august 2011 George Nicholas Nelson.
Advertisements

Support, nye funksjoner og tjenester fra Uni Pluss
Teknologi i klasserommet
Er datasikkerhet viktig for deres firma ? Hva ville dere gjøre hvis alle data plutselig ble borte ved: •Tyveri ? •Brann ? •Datahavari ? •Menneskelig svikt.
Brukertesting •Lærefil fra •© 2004 Nina Furu.
Veiledning i gevinstrealisering ved innføring av elektronisk handel
Flervalgsoppgaver – bedre kvalitet og mer effektiv undervisning?
Stock Optimiser Beslutningsstøtteverktøy for optimalt reservedelslager
Skriveprosessen Fra tanke til tekst.
Kapittel 8: Nettverk i praksis
KOSTRA KOmmune STat RApportering
Standardisert arbeid.
1 18. januar 2005 TDT4285 Planl&drift av IT-syst Forelesning 5 Tjenermaskiner TDT4285 Planlegging og drift av IT-systemer Våren 2005 Anders Christensen,
Reliability, Availability and Maintainability
Ikt-enheten 6,8 årsverk 7 personer + 1 lærling. Ikt-enheten – Samkommunestyret 28/ Litt om IKT-enheten  Enheten har.
Enhalet og tohalet hypotesetest
MS kap 61 Nye trender  Vi skal se på  Virtualisering  ”Cloud computing”
Hovedprosjekt våren 2007 Sentralisert sikkerhetskopiering hos Safetec Prosjektet utføres av Eivind Olden.
Observasjon ?.
Kapittel 14 Simulering.
1 8. februar 2005 TDT4285 Planl&drift av IT-syst Forelesning nr 14 Redundans TDT4285 Planlegging og drift av IT-systemer Våren 2005 Anders Christensen,
13. februar 2004TDT4285 Planl&drift IT-syst (M15)1 Automatisering TDT4285 Planlegging og drift av IT-systemer Anders Christensen, IDI.
1 4 March 2010 TDT4285 Planl&drift IT-syst Forelesning nr 22: Ytelsesforvaltning TDT4285 Planlegging og drift av IT-systemer Våren 2010 Anders Christensen,
23. januar 2004TDT4285 Planl&drift IT-syst1 Tjeneroppgraderinger TDT4285 Planlegging og drift av IT-systemer Anders Christensen, IDI.
1 26. april 2005 TDT4285 Planl&drift IT-syst Forelesning nr 31 Ytelsesforvaltning TDT4285 Planlegging og drift av IT-systemer Våren 2005 Anders Christensen,
1 Oppgave gjennomgang Kap Oppgaver -Kap 12: 1, 2, 3, 5, 7, 8, 11, 18, 19.
Grunnleggende testteori
Sesjon 8: Motstand mot forandring Knut Haanæs Steinar Bjartveit
Skape kundeverdi, tilfredshet og lojalitet
Prognose av framtidig etterspørsel
© UNIVERSITETETS SENTER FOR INFORMASJONSTEKNOLOGI UNIVERSITETET I OSLO USIT Side 1 HOUSTON Planene fremover.
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
UNINETT-konferansen 1. – 3. oktober 2013
Human Factors (HF) i kontrollrom - En revisjonsmetode 2003
Empiriske metoder Oppgaveanalyse, observasjon
Rune Log Senior Konsulent, Ergogroup
Presentasjon  SW faults og failure/testing issues –Gruppe 1 Petter Therese Kjell Gunnar Christian Eva.
Testing av system Gruppe 6 Henrik Bækhus Morten A. Iversen Mathias Bondeson Gunnar K. Kulleseid Svein Ivar Kristiansen Ronny Hulthin.
Improving Products Gruppe Presenteres av : Hege-Kristin Johansen Herman Kolås Marianne Ates Marit Finden Jonas Lillevold André Johansen Tom.
INF 295 Forelesning 20 - Kapittel 7 Boble-, innstikk-, Shell-, Heap-, Quick-, Mergesortering Hans Fr. Nordhaug (Ola Bø)
Stortingsvalget 2013 Forsøk med elektronisk avkryssing.
M. Haanæs Slik kan det gjøres Eksempler og resultater fra ulike prosjekt i PRO tjenesten i Holtålen kommune.
Hvordan kan foreldre bruke de vangligste funksjonene i Itslearning.com
Acronis produktoppdateringer Mai Nye produkter/lisenstyper : SD3.0 Acronis Snap Deploy 3.0 Lansert mai 2008 Nytt 2 versjoner: Workstation and Server.
Konfigurasjonsstyring Configuration Management
Problemstyring Problem Management
Hvordan tar vi imot nye medlemmer?. Mine temaer ● Hvem er de nye medlemmene – og hvem er vi? ● Hva må vi mestre for å gjøre nye medlemmer aktive? ● Hvordan.
The Peer-to-Peer Architecture Av Ingunn Lund og Anja Lønningen.
Kontinuerlig kvalitetskontroll. Hvordan komme helt i mål.
Kommunikasjon JOHARI Tilbakemeldinger Aktiv lytting og åpne spørsmål
N O R P R O F F Quality Management SAMARBEIDSPARTNER FOR
Bachelorprosjekt - Oppgave 17E
BUCS Utfordringer og valg av fokus Tor Stålhane. Rammebetingelser Første spørreundersøkelse viser at det vi gjør må kunne: Brukes sammen med UML Passe.
4. Prioritizing Your Usability Problems Prioriteringer.
Hva skjer med klienten i brukerens tidsalder? Ingerid Aamodt
1 26. januar 2006 TDT4285 Planl&drift IT-syst TDT4285 Planlegging og drift av IT-systemer Våren 2006 Anders Christensen, IDI Forelesning nr 9: Tjenester.
Opplæring: Pålogging Prosedyre for logge på og av, låse og åpne PC’er DatoVersjonForfatterGodkjent avEndringer utført André S. MathiesenTore.
Freenet A Distributed Anonymous Information Storage and Retrieval System.
Prosjekt 52E Installasjon, konfigurasjon og bruk av System Management Server 2003.
The Impact of DHT Routing Geometry on Resilience and Proximity TDT 2, Olav Engelsåstrø
Hypotesetesting, og kontinuerlige stokastiske variable
System Center Configuration Manager 2007 Bachelorprosjekt gruppe 18A
1 Kap. 57 – Cloud Computing How Information Technology Is Conquering the World: Workplace, Private Life, and Society Professor Kai A. Olsen, Universitetet.
Eksamen med begrenset Internett-tilgang Råd og tips til sentralgitt eksamen våren 2015.
1 Utvikling av kritiske systemer Kort sammendrag Kap. 1 og 2.
Introduksjon.  ITIL står for Information Technology Infrastructure Library.  Det er mye snakk om ITIL i næringslivet for tiden, og veldig mange bedrifter.
Produksjonssetting i Cerebrum
Utskrift av presentasjonen:

in113 feiladministrasjon

... vi gjentar •mål med drift: sikre at forventede funksjoner og kvaliteter opprettholdes •forventningen definert i tjenesteavtalen mellom bruker og driftsgruppe

feiladministrasjon •fault management (ISO management terminologi) – de fire ”R”-er –report: motta feilrapport –restore: gjenskape tjeneste med alternative ressurser (kanskje til dårligere kvalitet) –root cause: finne feil –repair: reparere feil (til produksjonskvalitet)

feiltyper •flyktige (intermittent) –dårlig ytelse grunnet midlertidig overlast •fikses egentlig ikke, gir for dårlig arbeidstakt –maskinvare som tidvis svikter •fikses med reparasjon, utbytting •varige (permanent) –programvare som har ”låst seg” •fikses med omstart –maskinvare som har sviktet •fikses med reparasjon, utbytting

statistisk tilgjengelighet •komponent e.l. er oppe, nede, oppe, nede... – gir oss en måleserie med –TTF: Time To Failure (varigheten av ”oppe”) –TTR: Time To Repair (varigheten av ”nede”) •Mean Time To Failure (MTTF): gj.snitt av alle målte oppetider –”mean” betyr gjennomsnitt •Mean Time To Repair (MTTR): gj.snitt av alle målte nedetider

•Availability, målt tilgjengelighet: p = MTTF / (MTTF+MTTR) p et tall mellom 0 og 1 •utilgjengelighet: 1-p

forbedre tilgjengelighet •redusere MTTR – reaktivt (skaden har skjedd) –redusere tiden det tar å utføre en/flere av de fire R’er •øke MTTF – proaktivt (skadeforebygging) –bruke mer pålitelige komponenter (maskinvare og programvare) –legge inn redundans og dynamisk binding –legge inn sikring mot feil bruk – en politikk som bestemmer hvem som får gjøre hva, og under hvilke omstendigheter dette kan tillates

redusere R-tid: bedre beredskap •report: oppdage feil tidligere –gode sensorer (overvåkning), effektive alarmer –godt beskrevne feil (symptomer) •recovery: –automatisk ”failover” til reserveressurser –manuell omdirigering (tregere, ofte nødvendig) •root cause: finne rotfeil –automatisk feilfinning: kostbar programvare som korrelerer mellom flere symptom •reparasjon: eget reservedelslager

•MTTR kan reduseres ved –økning av kompetanse hos personalet –forbedring av logistikk (beredskap) •definerte ansvarsområder •definerte prosedyrer •sikkerhet for at prosedyrer og ansvar fungerer (gjennom testing, ala ”brannøvelser”) –innføring av automatikk

øke MTTF? •planlegging krever at vi kan modellere systemet vi skal lage •vi må ha tall å ”plugge i modellen” –våre egne eller andres erfaringer –tester/erfaringer fra uavhengige kilder –uttalelser/garantier fra produsent •skal komme ut med et forslag til et tilstrekkelig godt system

modeller •må kjenne –belastning (last) fra omverden (brukere, programvare) –intern struktur i systemet •detaljrikdom kompliserer for mye, må arbeide på et høyt abstraksjonsnivå –anse en del for å være ”Windows 2000 Server”, operativsystem, ikke modeller interne deler •måter å teste resultatet på –simuleringsmodell –analytisk modell –eksperimentell modell (med virkelige deler)

eksperimentell 1.etablere en ”testlab” og et initielt systemoppsett (maskiner og programvare) 2.gjennomfør eksperiment 1.sett opp (koble sammen) systemet 2.start lastgeneratorer som simulerer typiske brukere og deres arbeidsmønster – varier lasten 3.vurder resultat (ytelse, pålitelighet) 3.endre systemoppsett og gå til pkt. 2 evt. avslutt hvis resultatet er akseptabelt

analytisk/simulering •samme prosedyre, bortsett fra at systemmodellen er ulik –analytisk formulert i et matematisk språk –programmatisk formulert i et simuleringsspråk

en enkel analytisk modell •hver komponent har pålitelighet p i (mellom 0 og 1) •flere slike i serie (etter hverandre) har samlet pålitelighet lik produktet av hver enkelt: p = p(1)*p(2)*... *p(n-1)*p(n) •flere i parallell har samlet upålitelighet lik produktet av hver enkelts upålitelighet: p=1 – [ 1-p(1))*(1-p(2))*...*(1-p(n-1))*(1-p(n) ] •kombinasjoner av seriell og parallell: gjøres om til rene serielle eller parallelle system

•nettverskort har MTTF=5 år= min •ved feil må –nytt bestilles med to dagers leveringstid (2880 min): p= /( ) =.9989 –nytt hentes i reservedelslager (10 min): p= /( ) = •Høgskolen har to navnetjenere (primær og sekundær) p(1)=.995, p(2)=.95 p= 1 - [(1-.995)*(1-.95)] = =.99975

planlegging •både MTTF og MTTR påvirkes i form av valg en gjør under planleggingen –en planlegger utfra forventningen til de enkelte komponenter •når planene er iverksatt og produksjonen er i gang er en prisgitt de valg en foretok under planleggingen –forventningen kan endres under produksjon (en ser at noe feiler mindre/mere enn før) –en bør periodisk revurdere produksjonsplanen i henhold til nye tjenestekrav og endringer i forventningen

design •tjenesteavtale definerer minste aksepterbare pålitelighet: P •problem for designer: sett sammen komponenter slik at samlet pålitelighet blir P eller høyere •ofte har en et system og skal forbedre det, da er det en/noen få komponenter som skal byttes ut eller forbedres på annen måte

seriedesign •eks.: anta at en nettverksrute har 10 hopp –finn p(k) slik at P >p(1)*p(2)*...*p(10) 0.99<=p(k) 10 p(k)>=.99 (1/10) p(k) >= –antar at alle nettverkskort er like (ikke alltid like realistisk) –virkelig pålitelighet er lavere, da det er mange andre ikke-modellerte deler i en rute

•HsM ønsker å gå fra en til to speilede filtjenere i parallell P=.999, og p(1)=0.9 P <= 1 - [(1-0.9)*(1-p(2))].999 >= *(1-p(2)) p(2) >= (.999-1)/0.1+1 =.99

hva ligger i ”nedetid” •målt over et år vil p=.99 bety 3.65 dager nedetid –3.65 dg kontinuerlig i mellomjula (betyr lite) –3.65 dg kontinuerlig i høysesong (alvorlig) –1.825 dg 2 ganger (mindre alvorlig) –0.365 dg (8.76 timer) 10 ganger i løpet av året er også alvorlig hvis det skjer i arbeidstiden –.0365 dg (52.5 min) 100 ganger i året merkes – dg (5.25 min) 1000 ganger i året tilsvarer kaffepause (akseptabelt) – dg (31 sekund) ganger i året vil antakeligvis ikke merkes

•seriesystem: pålitelighet alltid lavere enn ”dårligste” komponent –p <= min i p(i) –hvis jeg hekter på en ekstra med ultra-bra pålitelighet vil jeg bare redusere p •parallelle system: pålitelighet alltid bedre enn den ”beste” komponent –p >= max i p(i) –hvis jeg hekter på en ekstra i parallell med ultra-dårlig pålitelighet vil jeg øke p

redundanseksempel •reservelager maskinutstyr •flere Internett-koblinger, DNS, IP-ruter •backup av data og programvare •speiling/RAID-1 •roaming, tynne klienter, Intel PC ”overalt” •terminalplass/arbeidsplass bytteavtale •ansvarshavende i feiladm •mobile prosesser •mye plass (RAM, lager...)