Lisa-Marie Unger • 19. Juli 2024

Funktionsweise Suchmaschine: der umfangreiche Ratgeber!

Bevor wir tiefer in die Materie eintauchen, beginnen wir mit einem kurzen Rückblick. Anfang der 90er-Jahre begann die Geschichte der Suchmaschinen. Um FTP-Archive durchsuchbar zu machen, wurde 1990 die erste bekannte Suchmaschine Archie entwickelt.
Weitere erste Suchmaschinen wie Gopher folgten. Ein wichtiger Durchbruch gelang 1994, als der WebCrawler auf den Markt kam, der erstmals den gesamten Text einer Webseite zu indexieren vermochte. Im Jahr 1998 wurde von Larry Page und Sergey Brin Google ins Leben gerufen, das sich dank seines revolutionären PageRank-Algorithmus schnell zur führenden Suchmaschine entwickelte.
Den ursprünglichen Algorithmus entwickelten sie bereits 1996, der als BackRub bekannt ist. Durch die Bereitstellung von besseren und relevanteren Suchergebnissen setzte Google neue Masstäbe für
 Suchmaschinen und läutete damit das moderne Suchmaschinenzeitalter ein. Suchmaschinen sind hochkomplexe Programme. Sie wurden entwickelt, um die riesigen Informationsmengen im Internet zu durchsuchen und den Nutzern die relevantesten Ergebnisse zu liefern. Um eine schnelle und effiziente Suche zu ermöglichen, umfasst die Funktionsweise einer Suchmaschine mehrere Schritte, die nahtlos ineinandergreifen.

Wie funktioniert eine Suchmaschine?

Eine Suchmaschine ist ein Programm, das aus mehreren Hauptkomponenten besteht, von denen jede eine bestimmte Aufgabe erfüllt.
Crawling und Datenerfassung: Der erste Schritt ist das Durchsuchen des Internets nach neuen und aktualisierten Inhalten jeder Webseite. Dies geschieht mithilfe spezieller Programme, die als Crawler oder Bots bezeichnet werden und eine Seite besuchen, um deren Inhalte zu analysieren.
Indizierung der Daten: Die erfassten Daten jeder Seite werden dann in einem grossen Index gespeichert. Dieser Index ist eine Art Datenbank, die die Informationen einer Seite so organisiert, dass sie bei einer Suchanfrage schnell durchsuchbar und abrufbar sind.
Suchanfrage und Algorithmen: Bei der Eingabe einer Suchanfrage durch einen Benutzer wird diese Anfrage analysiert und mit dem Index verglichen. Um die relevantesten Ergebnisse zu ermitteln, verwendet die Suchmaschine spezielle Algorithmen. Diese berücksichtigen eine Vielzahl von Faktoren, wie die Relevanz des Inhalts, die Popularität der Seiten und die Verwendung der Suchbegriffe.
Präsentation der Suchergebnisse: Zuletzt werden die Suchergebnisse geordnet aufgelistet und präsentiert. Auf der Suchergebnisseite (Search Result Page oder SERP) werden die Websites angezeigt, die der Suchanfrage am ehesten entsprechen. Die Rangfolge wird von den Algorithmen bestimmt. Eine Kurzbeschreibung und die URL der Webseite sind Bestandteil dieser Ergebnisse.

Arten von Suchmaschinen

Suchmaschinen können in verschiedene Kategorien eingeteilt werden. Dies hängt davon ab, wie sie funktionieren und wie sie Daten sammeln und präsentieren.
  • Indexbasiert: Diese durchsuchen das Internet und speichern die Inhalte und Dateien der Seiten mithilfe von Crawlern in einem Index. (z. B. Google Search Engine)

  • Metabasiert: Sie führen keine direkte Suche im Internet durch, sondern greifen auf die Ergebnisse von anderen Suchmaschinen zurück. (z. B. WebCrawler)

  • Katalogbasiert: Diese Suchmaschinen organisieren Webseiten in thematischen Kategorien und Unterkategorien. Die Seiten werden von menschlichen Redakteuren manuell bewertet und kategorisiert. (z. B. DMOZ)

Search Engine Marketing SEM sowie SEO und SEA

Vorteile von Suchmaschinen


Suchmaschinen haben die Art und Weise der Suche nach Informationen und Dokumenten im Internet revolutioniert. Sowohl im Alltag als auch in der Arbeitswelt ist die Google Search zu einem unverzichtbaren Werkzeug geworden.

Schnell und effizient

Mithilfe von Suchmaschinen haben Nutzer in Zugang zu einer riesigen Menge an Informationen. Durch die Verwendung von Algorithmen und die Indizierung von Webseiten sind Suchmaschinen in der Lage, in kürzester Zeit relevante Ergebnisse zu liefern, was die Suche und die Beschaffung von Informationen erheblich vereinfacht.

Benutzerfreundlichkeit

Durch die einfache Eingabe von Suchbegriffen in ein Suchfeld und die übersichtliche Darstellung der Ergebnisse sind Suchmaschinen sehr einfach in der Handhabung. Intuitive Benutzeroberflächen und Funktionen wie Autovervollständigung und Suchwortvorschläge im Suchfeld erleichtern auch unerfahrenen Nutzern die Bedienung.

Vielfältige Informationen

Suchmaschinen durchsuchen alle Seiten des World Wide Web und bieten Zugang zu einer Vielzahl von Informationen. Diese reichen von Nachrichten und wissenschaftlichen Artikeln bis zu Blogs und Foren. Durch diese Vielfalt wird es Nutzern ermöglicht, verschiedene Perspektiven und Quellen zu einem Thema zu finden.

Personalisierte Ergebnisse

Suchmaschinen wie Google verwenden Algorithmen, um Suchergebnisse zu personalisieren. Diese basieren auf dem Standort des Nutzers, seinen früheren Suchanfragen und seinem Nutzungsverhalten. Dies führt zu relevanteren Ergebnissen, die den individuellen Bedürfnissen besser entsprechen.

Aktualität der Informationen

Um sicherzustellen, dass die neuesten Informationen und Nachrichten verfügbar sind, aktualisieren Suchmaschinen ihren Index und die Rankingfaktoren ständig. In schnelllebigen Bereichen wie Technologie, Wirtschaft und Gesundheit, in denen aktuelle Informationen von entscheidender Bedeutung sind, ist dies besonders wichtig.

Suchmaschinen-Algorithmus


Suchalgorithmen sind entscheidend für das Funktionieren einer Suchmaschine. Ein Suchmaschinen Algorithmus ist ein komplexes System von Regeln und Berechnungen zur Bestimmung der Websites, die in den Suchergebnissen angezeigt werden, sowie der Reihenfolge dieser Seiten. Sie spielen eine wichtige Rolle dabei, den Nutzern relevante und qualitativ hochwertige Informationen zur Verfügung zu stellen.

Crawling und Indexierung


Zwei grundlegende Prozesse, die die Basis jeder Suchmaschine bilden, sind das Crawling und die Indexierung einer Seite. Durch sie werden die Informationen erfasst, organisiert und für die Suchanfragen der Nutzer zugänglich gemacht.

Steuerung von Crawling und Indexierung



Um sicherzustellen, dass Suchmaschinen nur die gewünschten Informationen durchsuchen und indizieren, ist die Kontrolle von Crawling und Indexierung von entscheidender Bedeutung. Website-Betreibern stehen verschiedene Werkzeuge und Techniken zur Verfügung, um diesen Prozess zu steuern.

Robots.txt
Bei der Datei robots.txt handelt es sich um ein Textdokument, das im Root-Verzeichnis einer Website abgelegt wird. Diese Datei enthält Anweisungen an die Crawler von Suchmaschinen, welche Teile der Website durchsucht werden dürfen und welche nicht. Durch die Definition von „Disallow“-Regeln haben Website-Betreiber die Möglichkeit, bestimmte Seiten oder Verzeichnisse ausschliessen. Hier ein Beispiel für eine einfache robots.txt-Datei:

User-agent: *

Disallow: /geheim/
Dieses Beispiel verbietet allen Crawlern, das Verzeichnis /geheim/ zu durchsuchen.
Search Console
Die Search Console, genauer gesagt die Google Search Console , ist ein kostenloses Tool, das Website-Betreibern ermöglicht, zu überwachen und zu verwalten, wie ihre Website in den Suchergebnissen erscheint.
  • Identifizieren von Fehlern beim Crawlen: Probleme identifizieren, die dazu führen, dass die Crawler die Website ineffektiv durchsuchen können.
  • Crawl-Statistiken einsehen: Abrufen von Informationen darüber, wie oft und zu welchem Zeitpunkt die Website gecrawlt wurde.
  • Indexierungsstatus überwachen: Es ist möglich, in der Search Console anzuzeigen, welche Seiten Teil der Indexierung sind und welche nicht.
  • Crawling und Indexierung steuern: Übermitteln von Sitemaps und Überprüfen einzelner URLs.

Noindex
Der noindex-Tag ist ein Meta-Tag, der in den HTML-Code einer Webseite eingefügt wird, um Suchmaschinen anzuweisen, eine bestimmte Seite nicht zu indexieren. Dies ist ratsam für Seiten, bei denen es sich um sensible Informationen handelt. Ein Beispiel für einen noindex-Tag sieht wie folgt aus:
<meta name="robots" content="noindex">
Mithilfe dieses Tags wird die Seite zwar durchsucht, aber durch diesen Schritt nicht in den Index aufgenommen und hat somit keine Sichtbarkeit.

Canonical
Ein weiteres wichtiges Werkzeug zur Steuerung der Indexierung ist das Canonical-Tag. Es wird zur Verwaltung von Duplicate Content verwendet, indem den Suchmaschinen mitgeteilt wird, welche Version einer Seite die „ursprüngliche“ oder bevorzugte Version sein soll. Dies trägt zur Vermeidung von doppelten Inhalten und zur Verbesserung der SEO bei. Ein Beispiel für einen Canonical-Tag sieht folgendermassen aus:
<link rel="canonical" href="https://www.testseite.ch/original/">
Die Verwendung dieses Tags ist ein Hinweis darauf, dass die aktuelle Seite eine Kopie der Originalseite unter der angegebenen URL ist.

Suchmaschinen-Technologie


Die Suchmaschinen-Technologie umfasst eine Vielzahl von Komponenten, die im Zusammenspiel die effiziente Suche und Indizierung der riesigen Informationsmengen im Internet und die Bereitstellung relevanter Informationen für die Suchanfragen der Nutzer ermöglichen. Im Folgenden sind einige der wichtigsten Technologien aufgeführt, die bei Suchmaschinen wie Google im Einsatz sind:

URL Server

Der URL-Server ist eine zentrale Komponente zur Verwaltung einer Liste von URLs, die von den Crawlern durchsucht werden sollen. Er speichert neu entdeckte URLs und ist dafür verantwortlich, dass diese nach einem festgelegten Zeitplan zur Erfassung von Aktualisierungen besucht werden.

Index

Beim Index handelt es sich um eine riesige Datenbank, in der alle Informationen gespeichert werden, die von den Crawlern gesammelt wurden. Diese Informationen werden in einer Weise organisiert, dass sie schnell durchsucht und auf sie zugegriffen werden kann. Der Index ermöglicht es der Suchmaschine, auf effiziente Weise relevante Webseiten zu finden, wenn eine Suchanfrage gestellt wird.

Crawler

Crawler sind automatisierte Programme, die das Internet systematisch nach neuen Inhalten durchsuchen. Sie folgen Links von Seite zu Seite und sammeln Daten. Diese werden dann an den Index weitergeleitet. Crawler sind von entscheidender Bedeutung für die Gewährleistung, dass die Suchmaschine stets über aktuelle Informationen verfügt.

Parser

Der Parser ist für die Analyse der von den Crawlern gesammelten Webseiten und für die Extraktion relevanter Informationen zuständig. Er zerlegt den HTML-Code einer Webseite und identifiziert wichtige Elemente wie den Titel, die Überschriften, die Links und den Inhalt. Der Parser spielt eine Schlüsselrolle, wenn es darum geht, die Informationen für die Indexierung vorzubereiten, indem er sie in ein strukturiertes Format bringt, das von der Suchmaschine verstanden werden kann.

Store Server

Die Komponente zur Speicherung und Verwaltung der gesammelten Informationen ist der Store Server. Er ist für die Speicherung der von den Crawlern und Parsern gesammelten Rohdaten und deren Bereitstellung für den Index und andere Komponenten der Suchmaschine zuständig. Der Server gewährleistet die Sicherheit und den Zugriff zum Zeitpunkt der Verarbeitung.

Hit List

Bei der Hit List handelt es sich um Webseiten, die den Suchkriterien einer Suchanfrage entsprechen. Sie enthält eine Liste von URLs, die als relevant für die Suchanfrage identifiziert wurden, nachdem die Suchmaschine den Index durchsucht hat. Sie bildet die Grundlage für die Erstellung der dem Nutzer angezeigten Suchergebnisseiten (SERPs).

Repository

Beim Repository handelt es sich um einen zentralen Ort, an dem alle Dokumente gespeichert werden. Es ist das Herzstück der Suchmaschine und erlaubt einen schnellen und effizienten Zugriff auf die gespeicherten Informationen. Das Repository unterstützt die Suchfunktion dabei, genaue und aussagekräftige Suchresultate zu liefern.

Ranking-Faktoren für die Suchmaschinenoptimierung


Um die Reihenfolge der Suchergebnisse zu bestimmen, verwenden Suchmaschinen eine Vielzahl von Rankingfaktoren. Diese sind entscheidend für die Search Engine Optimization (Suchmaschinenoptimierung) und gute Rankings in den Suchergebnisseiten (SERPs).
Hier sind einige der wichtigsten Ranking-Faktoren für die Suchmaschinenoptimierung:

Über die Autorin

Eine Frau mit lockigem Haar trägt ein weißes Hemd und lächelt.

Lisa-Marie Unger

Lisa-Marie hat 2018 Publizistik und Kommunikationswissenschaften abgeschlossen und arbeitet bei netpulse AG als Projektleiterin für Google Ads. Sie informiert über SEO und führt Schulungen durch.


Mehr über Lisa