Redegørelse for driftsproblemer: Udfald på DanDomain d. 4-5. januar 2018

Opsummering: 

Torsdag eftermiddag d. 4. januar 2018 ca. kl. 15.15 melder vores overvågning, at en stor del af DanDomains løsninger – herunder alle webshops – er utilgængelige. En hurtig undersøgelse af problemet iværksættes og viser, at problemet er opstået i centralt netværksudstyr i DanDomains datacenter. Det er bl.a. en helt central database, som holder styr på DanDomains webshops, kunder, systemer mv., samt en række af DanDomains produkter og services, som er utilgængelige. 

Helt konkret er der tale om følgende systemer:

  • DanDomain Webshop
  • Webmail & E-mail løsninger
  • URL-Forward services
  • DanDomain.dks hjemmeside og kontrolpaneler
  • 40% af alle kundeservere, både webhosting & dedikerede kundeservere 

Efter godt 3 timer står det klart, at en løsning af det underliggende netværksproblem har meget lange udsigter. Vi prioriterer derfor i første omgang at genetablere de ramte dele af DanDomain Webshop-systemerne på nye servere i andre netværk, der ikke er ramt af problemet.  

Denne proces er gennemført ca. kl. 21.10, hvorefter alle webshops kommer tilbage i normal drift i løbet af perioden fra kl. 21.10 til 21.30. Kl. 21.30 er alle DanDomain webshops tilbage i normal drift.  

Vi fortsætter med de resterende systemer (webservices, mailservices, url forwards, kundeservere osv.). Arbejdet består bl.a. i at omkonfigurere det meste af DanDomains eksisterende storage-netværk. Arbejdet med at få netværket og systemet online igen er derfor nødt til at ske meget kontrolleret, så der ikke opstår nye fejl, der kan påvirke kundemiljøer, som ellers ikke har været berørt af nedetiden. 

Det sidste halve år har vi brugt på at udskifte og opdatere mange af DanDomains eksisterende systemer og infrastruktur, bl.a. webshoppen, mailsystemer, kundeservere mv. Dette er gjort for at forbedre performance, stabilitet og skalerbarhed og har fungeret efter hensigten og leveret rigtig gode resultater. Desværre er netværket, der er skyld i problemerne, en del af det “gamle” netværk, som endnu ikke er udfaset.  

Ord kan ikke beskrive, hvor berørte og kede vi er af dette nedbrud og den nedetid, som vores kunder har haft som følge heraf. Vi har arbejdet non-stop igennem hele forløbet for at løse problemet hurtigst muligt og samtidig ikke forvolde skade på kunders data og systemer, og systemer der ikke var berørt. Løsningen på problemet har været ekstremt kompleks: Arbejde, der tilsvarer at opsætte et helt nyt datacenter- & storage netværk over en nat, imens dele af datacenteret fortsat kører, er ingen lille sag. Alt vores energi og fokus ligger fremadrettet fortsat i at forbedre driften i DanDomain, så situationer som denne ikke opstår igen. 

/ Stefan Rosenlund

 

Oversigt over driftsproblem:

Hændelses-forløb (ca. tidspunkter):

4. januar.

15.15: Vi modtager alarmer fra vores overvågningssystem, og fejlsøgning påbegyndes.

15.20: Det står klart, at ikke kun er enkelte systemer, der er ramt, men flere systemer melder om fejl, helt konkret:

  • DanDomain Webshop
  • Webmail & E-mail løsninger
  • URL-Forward services
  • DanDomain.dks hjemmeside og kontrolpaneler
  • Lige under 40% af Kundeservere, både webhosting & dedikerede kundeservere

Det viser sig, at en række centrale systemer og databaser i vores datacenter, som bl.a. DanDomain Webshop er afhængig af for at kunne fungere, ikke er tilgængelige. Dette skyldes, at netværksudstyr i det “gamle” DanDomain netværk, som leverer hhv. Netværks Core og iSCSI trafik, er gået ned.

16.15: Det underliggende problem er identificeret til at ligge i de gamle Core- & iSCSI switche, som binder flere centrale systemer sammen. Teknikerne fortsætter derfor med at arbejde med disse netværksproblemer. Arbejdet fortsætter med fejlsøgning og logning, mens alternative genetableringsmuligheder iværksættes. Arbejdet er ekstremt komplekst, da mange services fungerer, og vi ikke ønsker at afbryde disse også i processen.

18.00: Selvom DanDomain webshop ligger for sig selv i et separat netværk, afhænger alle webshops, ligesom mange andre af DanDomains produkter og services, af en række centrale systemer og databaser, der ligger i det fejlramte netværk. Vores underleverandør, der har produceret det fejlramte udstyr, er på nuv. tidspunkt blevet inddraget i sagen og assisterer med at identificere årsagen til problemerne og løse disse.

19.00: Det er nu tydeligt, at det vil have lange udsigter at løse netværksproblemerne, idet det ikke blot drejer sig om et enkelt sæt switche, men derimod det hele “gamle” DanDomain netværk. Vi går derfor i gang med at reetablere de systemer, som er berørt i et andet netværk i et nyt miljø. Fokus er på nuv. tidspunkt at bringe DanDomain webshop online, mens et andet team arbejder på de øvrige berørte produkter/services.

Da det er utrolig langsomt at hente data ud af de berørte systemer, tager operationen med at flytte data ud lang tid. Og det estimeres, at det tager ca. 1½-2½ time at få de centrale systemer til webshop online. Samtidig med ovenstående arbejder et andet team videre med at flytte kundeservere væk fra miljøet, så hurtigt det kan lade sig gøre.

19.15: Der indsættes en midlertidig fejlmeddelelse på alle webshops.

21.10: Re-etablering af de centrale systemer, som alle DanDomain webshops afhænger af for at kunne fungere, er nu gennemført. Disse er nu således online og tilgængelige fra et separat netværk, der ikke er ramt af problemerne. DanDomain webshops begynder derfor nu at komme online igen, i takt med at de får forbindelse.

21.30: Alle DanDomain webshops er nu online. Vores teknikere arbejder videre med problemløsning af det oprindelige problem i samarbejde med vores underleverandørs teknikere for at få de resterende berørte produkter & services online.

På nuværende tidspunkt er følgende systemer berørt:

  • Webmail & E-mail løsninger
  • URL-Forward services
  • DanDomain.dks kontrolpaneler
  • Lige under 30% af kundeservere, både webhosting & dedikerede kundeservere (serverne er online, men svarer langsomt i forhold til normalen)

5. januar.

01.00: Da problemet endnu ikke er løst, og leverandøren ikke kan garantere en løsning indenfor en acceptabel tidsramme, beslutter vi at gå fra “debugging” og problemløsning til reetablering, både af enkelte systemer og services, men også af det “gamle” DanDomain netværk. Vi har på nuværende tidspunkt hentet nyt midlertidigt netværksudstyr og de nødvendige kabler.

Før vi kan skifte det nye udstyr ind, kræver det en manuel ændring af 18 switche samt flytning af nogle centrale storage-enheder til de berørte enheder. Et arbejde, der involverer en enormt nøje koordineret indsats for ikke at påvirke alle de fungerende systemer, der kører på netværket. Vi arbejder stadig sideløbende på at reetablere de ramte systemer i andre netværk, som andre dele af DanDomain afhænger af, så de kan komme online.

07.00: Teknikere har natten igennem arbejdet på at reetablere netværket og de påvirkede systemer. Arbejdet pågår på dette tidspunkt endnu.

10.00: Webpool / webhosting services reetableres fra backup, så disse services nu er online. Data fra den mellemliggende periode er tilgængelig, og vi begynder synkronisering, så al data efterfølgende vil være opdateret.

14.30: URL forward systemet bringes tilbage til normal drift.

På nuværende tidspunkt er følgende berørt:

  • Webmail & E-mail løsninger
  • 25% af Kundeservere, både webhosting & dedikerede kundeservere (serverne er online, men svarer langsomt i forhold til normalen)

16.00: Mailsystemer er nu på vej online – i første omgang med mails af ældre dato. Nyere mails er i gang med at blive synkroniseret ind, så de vil komme i løbet af det kommende døgn. Mails sendt til indbakker i perioden, hvor systemet har været utilgængeligt, ligger i kø og vil ligeledes blive leveret over de kommende timer.

18.50: Synkronisering af data fra webpools / webhosting er nu gennemført. Synkronisering af e-mails er stadig i gang. Dette forventes at tage noget tid, da der er tale om store mængder data, men det vil blive synkroniseret ind løbende. Der er på nuværende tidspunkt leveret 350.000 nye mails til systemet, og ca. 40% af alle konti er synkroniseret og up to date.

På nuværende tidspunkt er følgende berørt:

  • 20% af Kundeservere, både webhosting & dedikerede kundeservere (serverne er online, men svarer langsomt i forhold til normalen)

20.00: Flytningen af de sidste kundeservere er særdeles kompleks og kræver, at vi lukker kritiske netværksenheder, som potentielt kan påvirke mange andre systemer end de berørte. Vi fortsætter derfor med at flytte servere til det nye miljø, og henter samtidig ekstra udstyr til at tage over, hvis noget skulle gå galt i denne operation. Samtidigt tester vi løsningen, så vi sikrer, at der ikke sker fejl.

23.15: Vi har nu opsat nyt udstyr, testet løsningen og er klar til at lave skiftet, som forventes at tage ca. 2-3 timer. Under skiftet vil enkelte ældre kundeservere skulle genstartes. Da serverne ikke er nede på nuværende tidspunkt, påbegynder vi arbejdet kl. 01.00.

 

6. januar.

01.00: Vi påbegynder flytningen og overvåger løsningerne.

03.30: Ca. 10 servere er berørt og kræver manuel fejlsøgning for at komme online.

03.30: Det underliggende netværksproblem er væk efter skifte til ny platform, og performance er tilbage på normalt niveau. Få servere kan stadig have fejl. Hvis kunden ikke har tilkøbt overvågning, kan vi ikke se om services kører korrekt.

Alle systemer er dermed tilbage online i normal drift.

Den netværksudskiftning, der er lavet nu, skal laves færdig, og det arbejde påbegyndes lørdag eftermiddag, når vi modtager det sidste nye udstyr. Dette har ingen indvirkning på driften.

 

Årsag til problemet:

En alvorlig fejl i centralt netværksudstyr i DanDomains netværk afskærer en række af DanDomains produkter og services, herunder DanDomain webshop, fra at kunne kommunikere med centrale systemer og databaser, som de afhænger af for at kunne fungere. Derfor stopper de med at svare og bliver utilgængelige.

 

Sikring mod yderligere nedbrud:

For at sikre mod, at lignende kan ske igen, vil vi gøre to ting:

Vi er allerede i gang med at udfase det netværksudstyr og det “gamle” DanDomain netværk, som skabte problemerne.

Dernæst vil vi ændre arkitekturen af vores interne systemer, således de ikke på samme måde er hårdt afhængige af centrale systemer for at kunne fungere. På den måde fjerner vi således både den underliggende fejlkilde (netværksudstyret) og gør vores produkter og services mere robuste og mindre sårbare for fejl fremadrettet (arkitektur). En del af dette arbejde har vi lavet under nedbruddet. Bl.a. er e-mail systemet og Windows webhosting allerede skiftet til en langt mindre afhængig model.

Vi forventer, at alle DanDomains systemer er flyttet til ny og forbedret infrastruktur inden sommeren 2018.

Stefan Rosenlund

Stefan Rosenlund

Adm. direktør at DanDomain A/S
sr@dandomain.dk
Stefan Rosenlund

Stefan Rosenlund

sr@dandomain.dk

8 tanker om “Redegørelse for driftsproblemer: Udfald på DanDomain d. 4-5. januar 2018

  • 6. januar 2018 at 14:54
    Permalink

    Godt at vide og blive orienteret. Også godt at vide at I fremrettet arbejder jer frem til en løsning der ikke er så sårbar. 5 Stars ud af 5! Mvh. Skoleleder Jan Howy Rasmussen Byens Aftenskole

    Svar
    • 8. januar 2018 at 11:23
      Permalink

      Hej Jan.

      Tak for din besked.

      Du kan tro, at vi fremadrettet fortsat arbejder på at forbedre driften, så nedbrud som dette minimeres.

      Svar
  • 6. januar 2018 at 15:09
    Permalink

    Sjældent oplever man at servicevirksomheder er så hudløst ærgerligt og det skal i virkelig have ros for!

    En forfærdelig og uheldig måde at starte det nye år på, men I har taklet det professionelt hele vejen igennem – Tusind tak!

    Hilsen Tine

    Svar
    • 8. januar 2018 at 11:22
      Permalink

      Hej Tine.

      Tak for din besked og dine rosende ord.

      Vi ser ingen grund til ikke at være ærlige. Vores kunder, som desværre i høj grad var påvirket af nedbruddet, har lige så meget ret til at vide, hvad der forårsagede det hele.

      Det var bestemt en uheldig måde at starte året på, ja, og vi er meget kede af situationen. Som vi skriver, ligger vores fokus derfor fremadrettet stadig på at forbedre driften, så vi kan undgå nedbrud som dette i fremtiden.

      Svar
  • 6. januar 2018 at 17:18
    Permalink

    Tak for en fyldestgørende redegørelse. Jeg er klar over, at der har været alvorlige problemer, som I har kæmpet med, men jeg håber også, at I har fået udfaset de dele af jeres systemer, som ikke er driftsikre. I mit firma er email hovednerven i alt samarbejde med andre firma. Derfor lægger jeg stor vægt på driftsikkerhed og har derfor været nødt til at etablere et alternativt net, – outlook.com for at sikre, at vi kan holde kontakt til kunderne.

    Mvh
    Rådgivende ingeniør Ernst Højberg Jeppesen

    Svar
    • 8. januar 2018 at 11:16
      Permalink

      Hej Ernst.

      Tak for din besked.

      Vi lægger bestemt også stor vægt på driftsikkerhed, og derfor er vi også utrolig kede af nedbruddet og de problemer, det har skabt for vores kunder.
      Vi beklager de gener, du har haft. Vi arbejder naturligvis fortsat på at forbedre driften i DanDomain, så nedbrud som dette ikke sker igen.

      Med ønsket om en god dag.

      Svar
  • 8. januar 2018 at 10:29
    Permalink

    Hej DanDomain.

    Jeg oplever fortsat at der er mails jeg skulle have fået som ikke er fremkommet. Har I fortsat problemer med indgående mails? Udgående fungerer ser det ud til.

    Svar
    • 8. januar 2018 at 11:12
      Permalink

      Hej Leo.

      Tak for din besked.

      Jeg bliver nødt til at bede dig om at kontakte vores support. Du kan se deres kontaktoplysninger eller skrive direkte til dem her: https://www.dandomain.dk/om/kontakt

      Fortsat god dag til dig.

      Svar

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *