[Bitte das Update am Ende dieses Artikels beachten!]
„Hilfe, unser Blog ist weg!“ Der Kunde, für den ich vor etwa einem Jahr ein individuelles WordPress-Theme gestaltet hatte, hoffte darauf, dass ich „das Design“ ja wohl noch haben müsse und so das bei einem Serverwechsel verschütt gegangene Blog restaurieren könne.
Na klar, das Theme hatte ich noch – aber was war mit den Inhalten? Auch die Datenbank war futsch und mein Kunde hatte sich schon damit abgefunden, mit einem frisch installierten Blog ganz neu starten zu müssen.
In einem solchen Fall ist nicht unbedingt alles verloren: für jede Seite, die Google indiziert, wird die letzte Version im Google-Cache gespeichert – es sei denn, der Eigner der Website hat das Speichern explizit unterbunden.
Den Cache durchsuchen:
Weiß man die genaue Adresse (URL) der gesuchten Website, kann man den Cache direkt danach durchsuchen:
http://google.com/search?q=cache:www.adresse.de
Was aber, wenn wie in diesem Fall, alle Seiten weg sind und niemand auswendig weiß, wie die jeweiligen Adressen lauteten? Auch das ist kein Problem, man muss dann eben ALLE Seiten auflisten lassen, die es auf der jeweiligen Domain gab – also ins Suchfeld eingeben:
site:dein-domainname.de
und schon bringt Google eine je nach Domain unterschiedlich lange Ergebnisliste, die man nun bequem abklappern kann (also jeweils die Cache-Seite des Eintrags aufrufen und das Gesuchte abspeichern).
Auf diese Art kann man gut Inhalte retten, doch das Design (CSS-Styling) wird im allgemeinen nicht mitgespeichert, bzw. die Cache-Version enthält eben den ganz normalen Link zur Style-Datei auf dem Original-Server. Und wenn die weg ist, schaut man auf strukturelles HTML und sonst gar nichts – aber immerhin hat man seine Inhalte wieder.
Alte Versionen finden
Findet sich nichts Verwendbares im Google-Cache, hat man Chancen, im Internet-Archiv archive.org Versionen der Seite zu finden, die über ein halbes Jahr alt sind.
Man bekommt dann eine Übersicht aller gespeicherten Versionen genau DIESER Seite. Eine Suche bei Archive.org ist allerdings nur möglich, wenn man die exakte URL der Seite kennt – eine Suche nach Stichworten gibt es hier nicht.
Andere Gründe für die Suche in der Vergangenheit
Dass ganze Webseiten verschwinden, kann viele Gründe haben – und manchmal will man wissen, was da mal war. Als zum Beispiel letzte Woche die Indizierung des Blogs einer Magersüchtigen bekannt wurde, war das Blog im Web schon nicht mehr aufrufbar – die Bloggerin hatte es bereits gelöscht. Um mir nun eine Meinung zu bilden, um was es sich gehandelt hat, suchte ich mir die Seiten aus dem Cache zusammen, wo sie natürlich noch immer lesbar waren.
Grund zur Suche in der Vergangenheit haben auch Domain-Käufer, die wissen wollen, ob die zu übernehmende Domain nicht vielleicht irgendwann Inhalte enthielt, mit denen man ein neues Projekt nicht belasten will – archive.org gibt Auskunft, WENN es der Herausgeber der Site nicht verhindert hat.
Speicherung blockieren?
Ja, das kann man machen. Viele verhindern das Speichern alter Versionen bei Archive.org (und verbieten dem Google-Robot das cachen). Da es allerdings noch mehr Dienste gibt (z.B. auch Yahoo), die Webseiten speichern, wird man nie ganz sicher sein, dass nicht noch irgendwo eine Version herum fliegt.
Ich persönlich schätze es, in der Vergangenheit des Webs stöbern zu können, und habe deshalb nie versucht, hier eine „Geschichtsbereinigung“ durchzuführen. Seit 1996 folge ich lieber dem Rat: Stelle niemals etwas ins Netz, zu dem du nicht stehen kannst, wenn es in anderen Kontexten wieder auftaucht.
Update 10/2011: Der Link zur im Cache gespeicherten Version findet sich jetzt nicht mehr DIREKT bei den einzelnen Suchergebnissen. Sondern in der VORSCHAU-Ansicht, die rechts aufklappt, wenn man mit der Maus über die einzelnen Links geht.
***
Mehr dazu:
Seiten aus dem Google-Cache löschen lassen;
Internet Archive.org – die Zeitkapsel
Diskussion
Kommentare abonnieren (RSS)
11 Kommentare zu „Der Google-Cache: verlorene Inhalte wieder finden“.