Ausfallzeiten limitieren

Lieber vorher planen, statt hinterher leiden

06.11.2006 | Autor / Redakteur: Rick Cook / Peter Schmitz

„Je mehr Sie in Frieden schwitzen, desto weniger bluten Sie in Krieg“ ist genauso wahr für IT-Backups wie es für militärische Operationen gilt. Ausfallzeiten sind der Feind, und Planung, Vorbereitung und Übung sind die Schlüssel dazu, sie zu reduzieren.

Ausfallzeiten sind ein komplexes Thema, ebenso wie die Prozesse, sie einzugrenzen. Die Prüfliste, die folgt, betrifft so zu sagen die oberste Schicht. Jedes dieser Themen hat viele Unterthemen, und jedes jener Unterthemen könnte problemlos seine eigene Prüfliste oder seine Gruppen von Prüflisten generieren.

Verwalten Sie Änderungen und Patches wirksam

Änderungen, Updates und Patches sind eine der fruchtbarsten Quellen für Ausfallzeiten. Dies schließt sowohl die geplante Ausfallzeiten, die es braucht, um die Änderungen zu installieren, als auch die ungeplante Ausfallzeit ein, wenn Dinge schief laufen.

Eine Änderungs- und Patch-Installation ist kein Ereignis – sondern es ist ein Prozess; und wie jeder Prozess funktioniert er am Besten, wenn er so gut wie möglich standardisiert, dokumentiert und kontrolliert ist. Ein guter Änderungsprozess (Change Management Process) beinhaltet, wenn Änderungen und Patches angewandt werden, wie sie installiert und wie sie getestet werden sollen. Er schließt auch Prozesse für den Umgang mit auftretenden Problemen ein. Sie müssen zum Beispiel wissen, was zu tun ist, wenn der Patch Probleme bereitet - setzen Sie das System einfach in den Zustand vor dem Patch zurück oder versuchen Sie den Patch zu behalten und das Problem in Ordnung zu bringen?

Nutzen Sie alle möglichen Techniken

Verwenden Sie Instant-Wiederherstellungstechniken wie Schnappschüsse (Snapshots) und Volumenabbilder (Volume Shadow Copies). Die Fähigkeit, Dateien sofort wiederherzustellen oder ein System in einen letzten bekannten funktionierenden Zustand zurückzusetzen, ist ein mächtiges Werkzeug, um Ausfallzeit zu minimieren. Während sie keine echten Backups ersetzen, können solche Techniken viele Probleme lösen.

Setzen Sie Prioritäten

Obwohl ‚Ausfallzeit‘ mehrere Bedeutungen hat, ist die einfachste Bedeutung, das Maß der Zeit, in dem Sie auf Grund von technischen und IT-relevanten Gründen aus dem Geschäft sind. Diese Art von Ausfallzeiten zu reduzieren, ist kritisch. Nicht alles muss zu derselben Zeit oder mit derselben Dringlichkeit wiederhergestellt werden. Setzen Sie Prioritäten bei Ihren geschäftskritischen Anwendungen und stellen Sie das wichtigste an die erste Stelle.

Wenn Sie bei der Ausfallzeit an die Zeit denken, in der eine Teil Ihres Rechnersystems nicht verfügbar ist, verbessern Prioritäten nicht die allgemeine Ausfallzeit, aber das ist in der Regel weniger wichtig als die Geschäftskontinuität.

Setzen Sie Ziele für Ihre Ausfallzeit

Ihre Organisation sollte klare, messbare ausfallzeitgebundene Ziele haben, etwa wie lange es dauern darf, um unterschiedliche Geschäftskritische Anwendungen unter diversen Konditionen wieder herzustellen.

Diese Ziele sind nicht nur die Angelegenheit der IT-Abteilung. Diese Ziele sollten von und durch die ganze Organisation eingebracht und erarbeitet werden. Damit ist nicht nur das ganze Unternehmen über die Aktivitäten informiert, sondern es ist auch wesentlich einfacher die notwendigen Mittel und die entsprechenden Trainings für dies Ziele zu bekommen.

Dauerhafte Überwachung

Die beste Art, Ihre Ausfallzeit einzugrenzen, ist es, Probleme zu erkennen, bevor Sie eintreten. Protokolldateien sind Ihre Freunde. Überwachen Sie die Leistung Ihres Systems konstant und vergleichen Sie die gegenwärtige Leistung in kritischen Bereichen mit den Aufzeichnungen des Ausgangsniveaus. Passen Sie besonders auf Trends auf. Oft können Sie bereits im Vorfeld Hardware- oder Software-Probleme entdecken und sie in Ordnung bringen, bevor sie ausfallen.

Sie sollten eine Form automatischer Warnung haben, wenn kritische Parameter Schwellenwerte übersteigen oder wenn eine Anwendung eine große Anzahl von Wiederversuche benötigt. Unnötig zu sagen, dass diese Schwellen hoch genug sein sollten um bedeutsam zu sein und niedrig genug, um einen Alarm auszulösen. Unter den Dingen die Sie beachten sollten, sind leistungskritische Maße wie Storage-Systemdurchsatz.

Wo man die Alarm-Schwelle ansetzt, hängt sehr von der Anwendung und der Natur Ihrer Installation ab. Hersteller können Ihnen normalerweise Empfehlungen für Ihrer Hardware und Software geben.

Testen Sie und prüfen regelmäßig

Planung ist wunderbar, aber es ist nicht die Ausführung. Die unumstößliche Tatsache ist, dass eine deprimierend große Anzahl von Notfallwiederherstellungen (Emergency Restores) – von etwa zwei Drittel gehen Schätzungen aus – signifikante Probleme bereiten oder ganz fehlschlagen. Sogar etwas so banales wie ein verlegtes (oder schlimmer noch, falsch beschriftetes) Band kann Stunden zu Ihr Ausfallzeit hinzufügen.

Die einzige Art, sich zu vergewissern, dass Sie Ihren Plan ausführen können, ist ihn konstant zu testen. Vergewissern Sie sich wenigsten, dass Ihre Wiederherstellungsverfahren funktionieren, in dem Sie Testwiederherstellungen machen und die Ergebnisse mit den Originaldateien und -daten vergleichen. Es ist besser, das ganze Wiederherstellungsverfahren von Anfang bis zum Ende zu testen, und regelmäßige Wiederherstellungsübungen durchzuführen, um sicher zu stellen, dass alles funktioniert und jeder der Beteiligten vorbereitet ist.

Dokumentieren Sie alles

Wenn das System ausgefallen ist sollten Sie nie raten und nie auch experimentieren müssen. Idealerweise sollten Sie die ganze Information bei der Hand haben, einschließlich aller erforderlichen Verfahren, um die Sicherungskopie zurückzuholen. Dies sollte alles gespeichert und querindexiert sein, und Sie sollten mindestens eine Kopie an einem separaten Standort ablegen, außerhalb des Originalcomputers. Sie sollten auch eine Kopie Ihrer gegenwärtigen Dokumentation außer Haus aufbewahren.

Unter die Dingen, die Sie brauchen, sind die Versionen aller gegenwärtigen installierten Programme und Firmwares, einschließlich Patches, die vollständigen Systemkonfigurationsinformation und eine Kopie Ihres Bandinventars, die ausführlich dokumentier, was auf welchen Bändern gespeichert ist. Es ist auch eine gute Idee, Listen zu führen, die angeben wo recovery-relevante Verfahren in der Dokumentation abgelegt sind und eine aktuelle Liste von Telefonnummern der Hersteller.

Investieren Sie optimiert

Während die Minimierung von Ausfallzeiten eigentlich nur Sache von korrekten Verfahren ist, ist auch die Investition in die richtige Hardware und Software zu berücksichtigen. Denken Sie an Ihre Wiederherstellungsziele und prüfen Sie Engpässe die eventuell durch Ihre gegenwärtige Hardware und Software ausgelöst werden. Dann geben Sie das Geld aus, um jene Engpässe zu beseitigen.

Sie werden oft Geld gegen Schutz oder Geschwindigkeit tauschen. RAID-Arrays mit Hot-Swap-Fuktionalität und redundanten Stromversorgungen sind teurer, aber sie können viel Ausfallzeit verhindern. Manchmal können auch architektonische Änderungen Ausfallzeiten reduzieren. Plattenbasiertes Backup ist zum Beispiel teurer als Band-Backup, aber ein plattenbasiertes Backupsystem oder ein Platte-auf-Platte-System kann die Ausfallzeit enorm reduzieren. Die einzige Möglichkeit zu ermitteln, ob die Kosten den Gegenwert für Ihr Unternehmen liefern ist eine eigene Analyse.

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)



Spamschutz 

Bitte geben Sie das Resultat dieser Rechenaufgabe (Addition) ein:
Kommentar abschicken

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 2000698)