Hier die Beschreibung eines Aufbaus der Robots.txt Datei.
Quelle:
http://www.seo-ranking-tools.de
Hier finden Sie auch weiter hilfreiche Tools und Informationen..
Jede Zeile muss mit dem Wort "User-agent" und einem Doppelpunkt beginnen. Im Anschluss daran folgt dann der Robot-Name.
Beispiel:
User-agent: Googlebot
Wollen Sie eine globale Regel für alle Robots anlegen, schreiben Sie einfach einen Stern ("*"

nach dem Wort "User-agent:".
Beispiel:
User-agent: *
Hinter der Angabe des Robots-Namen folgt nun die eigentliche Regel, nämlich die Auflistung der Ordner und Dateien, die nicht aufgenommen oder aufgenommen werden sollen. Dabei muss jeder Ordner, jede Datei in einer eigenen Zeile angegeben werden, angefangen mit Disallow oder Allow, dann folgt wieder ein Doppelpunkt und die Angabe der Datei oder des Ordners.
Beispiel:
Disallow: /ordner1/
Disallow: /ordner2/unterordner/
Disallow: /webseite.html
Allow: /ordner3/
# Alle gif-Bilder sperren
Disallow: /*.gif$
Achten Sie darauf, dass Sie den Pfad ohne Domain angeben und immer mit einem Slash ("/"

beginnen. Ein kompletter Eintrag, der dem Googlebot erlaubt alles zu indizieren, würde dann z.B. so aussehen:
Beispiel:
User-agent: Googlebot
Allow: /
Wollen Sie einen Robot für Ihre komplette Domain aussperren, müssen Sie folgendes angeben:
Beispiel:
User-agent: Slurp
Disallow: /
Dieses Beispiel zeigt, wie Sie den Robot von Inktomi/Hotbot aussperren. Das ist zum Beispiel dann sinnvoll, wenn ein Robot ständig wiederkommt und Ihren Traffic unverhältnismäßig hoch belastet. Im Gegenzug kann man auch alle Verzeichnisse freigeben, dazu muss man einfach nichts angeben:
Beispiel:
User-Agent: Slurp
Disallow:
Zusätzlich zu den Suchmaschinen-Spidern gibt es noch spezielle Spider, die nach Email-Adressen suchen, um Beispielsweise SPAM zu verschicken. Wenn Sie verhindern wollen, dass solche Adressen-Sammler (E-Mail-Spider/Crawler) Ihre Adressen ausspionieren, müssen Sie als Robot-Namen z.B. den EmailCollector angeben. Allerdings halten sich viele Robots, Spider oder Crawler nicht daran. Deswegen erscheint es aus meiner Sicht als nicht wirklich nützlich.
Beispiel:
User-agent: EmailCollector
Disallow: /
User-Agent: Googlebot
Allow: /
Zum Schluss noch ein Beispiel, wie Sie allen Spidern erlauben Ihre Seiten unter dem Protokoll http zu spidern aber unter dem Protokoll https die Finger davon zu lassen.
Für Ihr http-Protokoll (http://IhrServer.de/robots.txt):
User-agent: *
Allow: /
Für Ihr https-Protokoll (https://IhrServer.de/robots.txt):
User-agent: *
Disallow: /