Das versteckte Netz: Was Suchmaschinen niemals sehen
Warum Internetseiten unsichtbar bleiben
In der Anfangszeit des Internets war das Invisible Web oder auch Deep Web bedeutend größer als jetzt, denn auch die Crawler lernen dazu. So war es lange Zeit nicht möglich, Websites in den Index aufzunehmen, die nicht im klassischen HTML-Format angezeigt wurden. Mittlerweile stellen PDFs oder Office-Dokumente keine Hürde mehr dar. Doch Seiten, die etwa nur aus einem Bild, Video oder einer Animation bestehen, können die Suchmaschinen auch heutzutage nicht indizieren.
Ebenfalls problematisch sind Datenbanken und Seiten mit dynamsichen Inhalten. Da Webcrawler lediglich Links folgen und keine Formulardaten ausfüllen, erreichen sie die dahinter liegenden Inhalte nicht. Aber auch ab einer bestimmten Linktiefe geben die Crawler auf und indizieren keine Websites, die in der Seitenhierarchie sehr weit unten auftauchen. Bergman etablierte 2001 für diese Fälle den Begriff Opaque Web.
Bewusste Such-Blockade
Doch auch die Betreiber von Websites haben es in der Hand, ob ihre Inhalte von den Suchmaschinen entdeckt werden oder in den Tiefen des versteckten Netzes verschwinden. Zum einen können sie den Crawlern eine Datei namens robots.txt hinterlassen, in der steht, welche Inhalte von der Indizierung ausgenommen sein sollen.
Doch auch intere Netzstrukturen von Firmen oder Websites, die mit einem Passwort geschützt sind, kann ein Crawler in der Regel nicht überwinden. Diese Untergruppe des versteckten Netzes bezeichnete Bergman als Private Web. Letztlich können aber auch die Suchmaschinenbetreiber selbst Websites nach eigenem Gusto wieder aus dem Index entfernen - etwa um die eigenen Datenbanken nicht mit Inhalten zu verstopfen, die nur bei einem einmaligen Aufruf interessant sind.
Versteckt und trotzdem informativ
Was den klassischen Suchmaschinen beim Invisible Webs hauptsächlich verloren geht, sind wissenschaftliche und akademische Inhalte - zumeist in Datenbanken gesammelt und damit nicht indiziert. Es existieren allerdings spezialisierte Suchmaschinen, die genau solche Inhalte des Invisible Webs entdecken können. Unten in den Links zum Artikel finden Sie eine Sammlung von Archiven, von denen Google und Co. notgedrungen die Finger lassen.
Auch die beiden Untersuchungen zum unsichtbaren Netz von Michael Bergman sowie Dirk Lewandowski und Philipp Mayr finden Sie in den Links zum Artikel.
