PDF-Dokumente auf Websites schaden SEO und Usability

Google-Suchresultate mit PDF-Dokumenten

Existieren Inhalte bereits als Office-Dokument oder in gedruckter Form, dann liegt es nahe, diese Inhalte als PDF-Dokument auf der Website zu veröffentlichen. Diese Methode ist wesentlich effizienter, als wenn man die Inhalte als normale Webseite aufbereiten muss, insbesondere bei längeren Texten mit vielen Bildern. Aus Sicht der Suchmaschinen-Optimierung sowie der Usability sind PDF-Dokumente allerdings nur die zweitbeste Lösung. Dieser Artikel zeigt auf, wo die Probleme liegen und warum PDF-Dokumente nur in Ausnahmefällen auf Websites veröffentlicht werden sollten.

PDF-Dokumente kommen aus der Welt der gedruckten Medien. Sie erlauben es, ein Drucklayout 1:1 auf einem Bildschirm anzuzeigen oder auch auszudrucken, inklusive Original-Umbruch, Bilder, Schriften und was sonst noch dazugehört. PDF-Dokumente können heute sehr einfach aus diversen Programmen heraus oder über einen PDF-Druckertreiber erstellt werden, und falls ein Dokument in Papierform vorliegt, kann man es mit einem Scanner oder Smartphone leicht in ein PDF-Dokument verwandeln.

PDF-Dokumente aus SEO-Perspektive

So praktisch PDF-Dokumente sein mögen: Im Hinblick auf die Suchmaschinen-Optimierung haben sie verschiedene Nachteile. Wenn man also die Wahl zwischen einem HTML-Dokument (d.h. einer Webseite) und einem PDF-Dokument hat, dann ist das HTML-Dokument im Zweifelsfall die besser Alternative.

Vereinzelt hört man noch immer, dass Google PDF-Dokumente entweder gar nicht indexieren kann oder aber sie gegenüber HTML-Dokumenten durch ein schlechteres Ranking benachteiligt. Beides trifft eigentlich nicht zu, weist uns aber auf die beiden entscheidenden Punkte hin, die wir uns anschauen müssen.

Werden PDF-Dokumente von Google indexiert?

Befassen wir uns zunächst mit der Frage, ob der Google Bot PDF-Dokumente überhaupt lesen kann. Hier muss man unterscheiden zwischen PDF-Dokumenten, welche echten Text enthalten, und solchen, welche Text nur in Form eines Bilds enthalten. Letzteres ist typisch für gescannte Dokumente, zumindest wenn der Scan nicht mit einer OCR-Funktion nachbearbeitet wurde.

Ob ein PDF-Dokument echten Text oder nur das Abbild eines Texts enthält, kann man leicht herausfinden: Versuchen Sie, einzelne Wörter im PDF zu markieren. Gelingt dies, so hat man echten Text vor sich – andernfalls handelt es sich technisch gesehen um ein Bild.

Mit PDF-Dokumenten, die echten Text enthalten, hat der Google Bot wenig Probleme. Der Suchindex ist voll von PDF-Dokumenten, wie man mit einer gezielten Abfrage leicht herausfinden kann: Indem Sie Ihrer Suche den Parameter filetype:pdf mitgeben, können Sie zu jedem beliebigen Thema ausschliesslich Treffer im PDF-Format anzeigen lassen.

Beispiel: PDF-Dokumente zur Suchanfrage «Vorteile des PDF-Formats»

Auch PDF-Dokumente, die Text in Form eines Bilds enthalten, kann Google inzwischen mit OCR nachbearbeiten und dann auswerten. Wie gut das funktioniert, hängt natürlich von der Qualität des Scans ab. Google ist wahrscheinlich auch nicht unbedingt daran interessiert, den Website-Betreibern die rechenintensive Texterkennung abzunehmen.

Aus diesen beiden Gründen sind die offiziellen Aussagen zu diesem Thema nicht ganz eindeutig. In einem FAQ für Webmasters schreibt Google:

«If the text is embedded as images, we may process the images with OCR algorithms to extract the text.»

Ähnlich relativierend ist ein Satz von Matt Cutts in einem Video, das im YouTube-Kanal von Google Webmasters veröffentlicht wurde:

«We might be able to OCR over time, but really if you have text in that document it’s a lot easier for us to index.»

Beide Aussagen sind zwar schon älter (sie stammen aus dem Jahr 2011), aber seither hat Google im Webmaster Central Blog nichts mehr zum Thema PDF veröffentlicht, sodass wir uns an diese Aussagen halten müssen. Wohlverstanden: Das bedeutet nicht, dass PDFs mit eingebetteten Scans grundsätzlich nicht gefunden werden – mit einer Stichprobe kann man sich leicht vom Gegenteil überzeugen. Aber Suchmaschinen-Optimierung basiert auf dem Prinzip, Inhalte bestmöglich für den Google Bot aufzubereiten, und dazu gehört, dass man seine Scans mit einer Texterkennung nachbearbeitet.

Wie gut ranken PDF-Dokumente in der Google-Suche?

PDF-Dokumente werden also grundsätzlich indexiert. Aber tauchen sie auch an prominenter Steller in den Google-Suchresultaten auf? Matt Cutts bleibt in dem oben zitierten Video vage: Es sei eine schwierige Frage, ob ein HTML-Dokument oder ein PDF-Dokument für den Benutzer relevanter sei – beantworten tut er diese Frage jedoch nicht.

Wie man aus eigener Erfahrung weiss, enthalten Suchresultate auch PDF-Dokumente, selbst auf den vordersten Plätzen. Insofern haben auch PDF-Dokumente grundsätzlich Chancen auf ein gutes Ranking. Allerdings – und das ist nun unsere eigene Sicht der Dinge – haben PDF-Dokumente einige Eigenheiten, die es für sie zumindest schwieriger macht, bei einer Google-Suche aufs Podest zu kommen:

  • Dokumentengrösse: Google ist ja sehr verschwiegen, was den Ranking-Algorithmus ihrer Suchmaschine betrifft. In einem Punkt lässt Google aber keinen Zweifel: Wie schnell eine Webseite lädt, ist sehr wichtig für das Ranking. Und je kleiner die Dateien, desto kürzer sind die Ladezeiten. Nun ist es zwar nicht so, dass eine PDF-Datei zwangsläufig grösser sein muss als eine HTML-Datei. Aber in der Praxis werden eben doch häufig PDFs mit viel zu hoch aufgelösten Bildern oder mit Scans ins Web gestellt, die schnell einige MByte gross sind.
  • Mobile-Tauglichkeit: Dass Google das Benutzererlebnis auf Mobilgeräten stark gewichtet, ist ein weiteres offenes Geheimnis. Weil PDF-Dokumente meist auf  Formate wie DIN A4 oder US Letter gelayoutet werden, sind sie auf Smartphones nur schlecht benutzbar. Wir haben keine konkreten Hinweise gefunden, dass Google PDF-Dokumente aus diesem Grund systematisch abstraft, aber auszuschliessen ist es auch nicht.
  • Links: Die Anzahl und die Herkunft von Links auf ein Dokument sind seit jeher ein zentrales Ranking-Kriterium bei Google und die Grundlage des PageRank-Algorithmus. PDF-Dokumente werden nach unserer Erfahrung oft nicht direkt verlinkt, sondern die Links zeigen auf die Webseite, von der aus das PDF-Dokument heruntergeladen werden kann. Auch ausgehende Links sind ein Ranking-Kriterium, und hier zeigt die Praxis ebenfalls, dass viele PDF-Dokumente wenig oder gar keine Links enthalten (weil sie eben oft für den Druck erstellt wurden, wo Links inexistent sind).
  • SEO-Qualität: Webseiten für Suchmaschinen zu optimieren, ist heute selbstverständlich. Dass man auch PDF-Dokumente für Suchmaschinen optimieren kann und muss, scheint hingegen weit weniger bekannt. Und so werden etwa Dateinamen, Alternativtexte für Bilder oder Meta-Daten bei PDFs oft stiefmütterlich behandelt.

PDF-Dokumente aus Usability-Perspektive

Auch unter dem Aspekt der Benutzerfreundlichkeit haben PDF-Dokumente ihre Eigenheiten. Und wenn man Wert darauf legt, dass Inhalte nicht nur gefunden, sondern auch gelesen werden, dann sollte man sich gut überlegen, ob man diese Inhalte als PDF- oder als HTML-Dokument ins Netz stellt.

Eine dieser Besonderheiten besteht darin, dass man die Website verlässt, sobald man ein PDF-Dokument öffnet. Früher war es sogar so, dass man vom Web-Browser in einen PDF-Reader wechseln musste, um ein PDF-Dokument zu nutzen. Heute können Web-Browser zwar auch PDF-Dokumente darstellen, aber man befindet sich dann trotzdem nicht mehr auf der Website. Das bedeutet, dass etwa die Navigation, allfällige Teaser oder der Footer nicht mehr angezeigt werden. Und das reduziert die Chance, dass ein Besucher auf der Website bleibt und weitere Inhalte konsumiert.

Eine weitere Besonderheit von PDF-Dokumenten ist, dass sie meist so gelayoutet sind, wie man es bei einem gedruckten Dokument machen würde. Das ist logisch, denn dafür wurde der PDF-Standard ursprünglich entwickelt. Aber was gedruckt perfekt aussieht, ist am Bildschirm oft schlecht nutzbar.

Mehrspaltige Layouts in einem PDF sind viel mühsamer zu navigieren als eine einspaltige Webseite: Man muss in mehrere Richtungen scrollen und jeweils die Anschlussstelle in der nächsten Spalte finden. Auf dem kleinen Display eines Smartphones ist zudem die Schrift in einem PDF fast immer zu klein, man muss also ständig zoomen und noch viel mehr scrollen. Webseiten passen sich (zumindest seit es Responsive Webdesign gibt) automatisch an den jeweiligen Bildschirm an – PDFs hingegen haben ein starres Layout und überlassen die ganze Arbeit dem Benutzer. Benutzerfreundlich ist das nicht.

Dass PDF-Dokumente oft deutlich grösser sind als entsprechende HTML-Dokumente, haben wir bereits im Zusammenhang mit der Suchmaschinen-Optimierung angesprochen. Und dass lange Ladezeiten der Usability schaden, ist leicht nachvollziehbar. Wer also nicht in der Lage ist, seine PDF-Dokumente auf einige hundert KByte zu komprimieren, sollte im Hinblick auf die Benutzerfreundlichkeit lieber ganz darauf verzichten.

Wann sind PDF-Dokumente sinnvoll?

Es gibt zahlreiche Gründe, im Web auf PDF-Dokumente zu verzichten. Allerdings gibt es auch Situationen, wo PDF-Dokumente sinnvoll sind. Etwa wenn Inhalte primär dazu gedacht sind, ausgedruckt zu werden, dann sollte man sie unbedingt als PDF anbieten – so ist garantiert, dass der Ausdruck so aussieht wie beabsichtigt. Auch wer ein Fachbuch elektronisch verbreiten möchte, nutzt mit Vorteil ein PDF-Dokument, denn nur so können Leser eine bestimmte Stelle über Seitenzahlen finden. Und wenn es darum geht, einen gedruckten Artikel möglichst authentisch ins Web zu transferieren, dann ist das PDF-Dokument ebenfalls die beste Option.