Der umfassende Suchmaschinen Ratgeber

Bevor wir tiefer in die Materie eintauchen, beginnen wir mit einem kurzen Rückblick. Anfang der 90er-Jahre begann die Geschichte der Suchmaschinen. Um FTP-Archive durchsuchbar zu machen, wurde 1990 die erste bekannte Suchmaschine Archie entwickelt.
Weitere erste Suchmaschinen wie Gopher folgten. Ein wichtiger Durchbruch gelang 1994, als der WebCrawler auf den Markt kam, der erstmals den gesamten Text einer Webseite zu indexieren vermochte. Im Jahr 1998 wurde von Larry Page und Sergey Brin Google ins Leben gerufen, das sich dank seines revolutionären PageRank-Algorithmus schnell zur führenden Suchmaschine entwickelte.
Den ursprünglichen Algorithmus entwickelten sie bereits 1996, der als BackRub bekannt ist. Durch die Bereitstellung von besseren und relevanteren Suchergebnissen setzte Google neue Masstäbe für
Suchmaschinen und läutete damit das moderne Suchmaschinenzeitalter ein. Suchmaschinen sind hochkomplexe Programme. Sie wurden entwickelt, um die riesigen Informationsmengen im Internet zu durchsuchen und den Nutzern die relevantesten Ergebnisse zu liefern. Um eine schnelle und effiziente Suche zu ermöglichen, umfasst die Funktionsweise einer Suchmaschine mehrere Schritte, die nahtlos ineinandergreifen.

Eine Suchmaschine ist ein Programm, das aus mehreren Hauptkomponenten besteht, von denen jede eine bestimmte Aufgabe erfüllt.
Crawling und Datenerfassung: Der erste Schritt ist das Durchsuchen des Internets nach neuen und aktualisierten Inhalten jeder Webseite. Dies geschieht mithilfe spezieller Programme, die als Crawler oder Bots bezeichnet werden und eine Seite besuchen, um deren Inhalte zu analysieren.
Indizierung der Daten: Die erfassten Daten jeder Seite werden dann in einem grossen Index gespeichert. Dieser Index ist eine Art Datenbank, die die Informationen einer Seite so organisiert, dass sie bei einer Suchanfrage schnell durchsuchbar und abrufbar sind.
Suchanfrage und Algorithmen: Bei der Eingabe einer Suchanfrage durch einen Benutzer wird diese Anfrage analysiert und mit dem Index verglichen. Um die relevantesten Ergebnisse zu ermitteln, verwendet die Suchmaschine spezielle Algorithmen. Diese berücksichtigen eine Vielzahl von Faktoren, wie die Relevanz des Inhalts, die Popularität der Seiten und die Verwendung der Suchbegriffe.
Präsentation der Suchergebnisse: Zuletzt werden die Suchergebnisse geordnet aufgelistet und präsentiert. Auf der Suchergebnisseite (Search Result Page oder SERP) werden die Websites angezeigt, die der Suchanfrage am ehesten entsprechen. Die Rangfolge wird von den Algorithmen bestimmt. Eine Kurzbeschreibung und die URL der Webseite sind Bestandteil dieser Ergebnisse.

Suchmaschinen können in verschiedene Kategorien eingeteilt werden. Dies hängt davon ab, wie sie funktionieren und wie sie Daten sammeln und präsentieren.

Indexbasiert: Diese durchsuchen das Internet und speichern die Inhalte und Dateien der Seiten mithilfe von Crawlern in einem Index. (z. B. Google Search Engine)

Metabasiert: Sie führen keine direkte Suche im Internet durch, sondern greifen auf die Ergebnisse von anderen Suchmaschinen zurück. (z. B. WebCrawler)

Katalogbasiert: Diese Suchmaschinen organisieren Webseiten in thematischen Kategorien und Unterkategorien. Die Seiten werden von menschlichen Redakteuren manuell bewertet und kategorisiert. (z. B. DMOZ)

Robots.txt
Bei der Datei robots.txt handelt es sich um ein Textdokument, das im Root-Verzeichnis einer Website abgelegt wird. Diese Datei enthält Anweisungen an die Crawler von Suchmaschinen, welche Teile der Website durchsucht werden dürfen und welche nicht. Durch die Definition von „Disallow“-Regeln haben Website-Betreiber die Möglichkeit, bestimmte Seiten oder Verzeichnisse ausschliessen. Hier ein Beispiel für eine einfache robots.txt-Datei:

`User-agent: *`

Disallow: /geheim/
Dieses Beispiel verbietet allen Crawlern, das Verzeichnis /geheim/ zu durchsuchen.
Search Console
Die Search Console, genauer gesagt die Google Search Console , ist ein kostenloses Tool, das Website-Betreibern ermöglicht, zu überwachen und zu verwalten, wie ihre Website in den Suchergebnissen erscheint.

Identifizieren von Fehlern beim Crawlen: Probleme identifizieren, die dazu führen, dass die Crawler die Website ineffektiv durchsuchen können.
Crawl-Statistiken einsehen: Abrufen von Informationen darüber, wie oft und zu welchem Zeitpunkt die Website gecrawlt wurde.
Indexierungsstatus überwachen: Es ist möglich, in der Search Console anzuzeigen, welche Seiten Teil der Indexierung sind und welche nicht.
Crawling und Indexierung steuern: Übermitteln von Sitemaps und Überprüfen einzelner URLs.

Noindex
Der noindex-Tag ist ein Meta-Tag, der in den HTML-Code einer Webseite eingefügt wird, um Suchmaschinen anzuweisen, eine bestimmte Seite nicht zu indexieren. Dies ist ratsam für Seiten, bei denen es sich um sensible Informationen handelt. Ein Beispiel für einen noindex-Tag sieht wie folgt aus:
<meta name="robots" content="noindex">
Mithilfe dieses Tags wird die Seite zwar durchsucht, aber durch diesen Schritt nicht in den Index aufgenommen und hat somit keine Sichtbarkeit.

Canonical
Ein weiteres wichtiges Werkzeug zur Steuerung der Indexierung ist das Canonical-Tag. Es wird zur Verwaltung von Duplicate Content verwendet, indem den Suchmaschinen mitgeteilt wird, welche Version einer Seite die „ursprüngliche“ oder bevorzugte Version sein soll. Dies trägt zur Vermeidung von doppelten Inhalten und zur Verbesserung der SEO bei. Ein Beispiel für einen Canonical-Tag sieht folgendermassen aus:
<link rel="canonical" href="https://www.testseite.ch/original/">
Die Verwendung dieses Tags ist ein Hinweis darauf, dass die aktuelle Seite eine Kopie der Originalseite unter der angegebenen URL ist.

Suchmaschinen-Technologie

Die Suchmaschinen-Technologie umfasst eine Vielzahl von Komponenten, die im Zusammenspiel die effiziente Suche und Indizierung der riesigen Informationsmengen im Internet und die Bereitstellung relevanter Informationen für die Suchanfragen der Nutzer ermöglichen. Im Folgenden sind einige der wichtigsten Technologien aufgeführt, die bei Suchmaschinen wie Google im Einsatz sind:

URL Server

Der URL-Server ist eine zentrale Komponente zur Verwaltung einer Liste von URLs, die von den Crawlern durchsucht werden sollen. Er speichert neu entdeckte URLs und ist dafür verantwortlich, dass diese nach einem festgelegten Zeitplan zur Erfassung von Aktualisierungen besucht werden.

Index

Beim Index handelt es sich um eine riesige Datenbank, in der alle Informationen gespeichert werden, die von den Crawlern gesammelt wurden. Diese Informationen werden in einer Weise organisiert, dass sie schnell durchsucht und auf sie zugegriffen werden kann. Der Index ermöglicht es der Suchmaschine, auf effiziente Weise relevante Webseiten zu finden, wenn eine Suchanfrage gestellt wird.

Crawler

Crawler sind automatisierte Programme, die das Internet systematisch nach neuen Inhalten durchsuchen. Sie folgen Links von Seite zu Seite und sammeln Daten. Diese werden dann an den Index weitergeleitet. Crawler sind von entscheidender Bedeutung für die Gewährleistung, dass die Suchmaschine stets über aktuelle Informationen verfügt.

Parser

Der Parser ist für die Analyse der von den Crawlern gesammelten Webseiten und für die Extraktion relevanter Informationen zuständig. Er zerlegt den HTML-Code einer Webseite und identifiziert wichtige Elemente wie den Titel, die Überschriften, die Links und den Inhalt. Der Parser spielt eine Schlüsselrolle, wenn es darum geht, die Informationen für die Indexierung vorzubereiten, indem er sie in ein strukturiertes Format bringt, das von der Suchmaschine verstanden werden kann.

Store Server

Die Komponente zur Speicherung und Verwaltung der gesammelten Informationen ist der Store Server. Er ist für die Speicherung der von den Crawlern und Parsern gesammelten Rohdaten und deren Bereitstellung für den Index und andere Komponenten der Suchmaschine zuständig. Der Server gewährleistet die Sicherheit und den Zugriff zum Zeitpunkt der Verarbeitung.

Hit List

Bei der Hit List handelt es sich um Webseiten, die den Suchkriterien einer Suchanfrage entsprechen. Sie enthält eine Liste von URLs, die als relevant für die Suchanfrage identifiziert wurden, nachdem die Suchmaschine den Index durchsucht hat. Sie bildet die Grundlage für die Erstellung der dem Nutzer angezeigten Suchergebnisseiten (SERPs).

Repository

Beim Repository handelt es sich um einen zentralen Ort, an dem alle Dokumente gespeichert werden. Es ist das Herzstück der Suchmaschine und erlaubt einen schnellen und effizienten Zugriff auf die gespeicherten Informationen. Das Repository unterstützt die Suchfunktion dabei, genaue und aussagekräftige Suchresultate zu liefern.

< Älterer Beitrag

Neuerer Beitrag >

Funktionsweise Suchmaschine: der umfangreiche Ratgeber!

Wie funktioniert eine Suchmaschine?

Arten von Suchmaschinen

Vorteile von Suchmaschinen

Schnell und effizient

Benutzerfreundlichkeit

Vielfältige Informationen

Personalisierte Ergebnisse

Aktualität der Informationen

Suchmaschinen-Algorithmus

Crawling und Indexierung

Steuerung von Crawling und Indexierung

`User-agent: *`

Suchmaschinen-Technologie

URL Server

Index

Crawler

Parser

Store Server

Hit List

Repository

Ranking-Faktoren für die Suchmaschinenoptimierung

Über die Autorin

Lisa-Marie Unger

Funktionsweise Suchmaschine: der umfangreiche Ratgeber!

Wie funktioniert eine Suchmaschine?

Arten von Suchmaschinen

Vorteile von Suchmaschinen

Schnell und effizient

Benutzerfreundlichkeit

Vielfältige Informationen

Personalisierte Ergebnisse

Aktualität der Informationen

Suchmaschinen-Algorithmus

Crawling und Indexierung

Steuerung von Crawling und Indexierung

﻿

User-agent: *

Suchmaschinen-Technologie

URL Server

Index

Crawler

Parser

Store Server

Hit List

Repository

Ranking-Faktoren für die Suchmaschinenoptimierung

Über die Autorin

Lisa-Marie Unger

`User-agent: *`