Tom Alby schätze ich, seitdem ich ihn kenne. Er ist ein ausgewiesener Suchmaschinenxperte und Autor mehrerer Bücher.

Was lag näher als ihn rund um die in letzter Zeit häufiger gestellte Frage „wird Facebook/Twitter/social search Google ersetzen“ um seine Sicht der Dinge zu bitten. Here we go:

1. Hi Tom, stell Dich kurz unseren Lesern vor
Ich arbeite seit 1999 im Suchmaschinenbereich, zunächst auf Seite der Suchmaschinen (Lycos, Hotbot, Fireball, Ask.com), nun auf Agenturseite bei uniquedigital. Hier kümmer ich mich um Suchmaschinenoptimierung, Suchmaschinen-Advertising und Conversion Optimierung. Nebenbei bin ich als freier Autor und als Lehrbeauftragter an zwei Hochschulen tätig.

2. Kannst Du erklären, warum trotz Kenntnis der zentralen Google-Suchmechaniken, der Aufbau einer alternativen Suchmaschine Unmengen an Kapital verschlingt und warum Google womöglich einen uneinholbaren Vorsprung hat?
Im klassischen Information Retrieval (das ist sozusagen die Mutter der Suchmaschinen) spricht man von zwei Faktoren, Recall und Precision.

Stellt man eine Suchanfrage, so erwartet man, dass dafür alle existierenden relevanten Suchergebnisse angezeigt werden, das ist der Recall. Die Voraussetzung dafür ist, dass auch wirklich alle existierenden Seiten zu dem Thema erfasst (gecrawled) wurden, und das ist zum Beispiel das Problem von Bing. Bing hat nicht so viele Seiten im Index wie Google, und dementsprechend kann auch nicht gewährleistet werden, dass wirklich alle relevanten Ergebnisse angezeigt werden.

Das merkt man als Benutzer relativ schnell, wenn man nach seinem eigenen Namen sucht, was die meisten Benutzer tun, wenn sie eine neue Suchmaschine ausprobieren: Man weiß, welche Ergebnisse es geben sollte, und wenn da nicht alles vorhanden ist, was man kennt, dann verliert man das Vertrauen, dass die Suchmaschine es für andere Bereiche besser tun könnte.

Warum crawlt man nicht einfach das ganze Netz? Es gibt sehr viel Schrott im Netz, mehr als wirklich nützliche Seiten, gleichzeitig möchte eine Suchmaschine nicht nur einen möglichst umfassenden und auch „frischen“ Index haben.

Die Ressourcen zum Crawlen sind allerdings begrenzt, sei es Zeit, sei es Bandbreite, seien es Festplatten. Bei meinem eigenen Crawler ist das Problem zum Beispiel, dass ich die Seiten schneller aus dem Netz holen als auf Festplatte schreiben kann, trotz Festplatten-RAID.

Hinzu kommt, dass man zum Teil erst merkt, dass man Mist gecrawled hat, wenn die Ressourcen schon verschenkt wurden, zum Beispiel, wenn der Crawler in die 89237. Wikipedia-Kopie gerannt ist, die mit AdSense-Werbung gepflastert wurde. Um dies zu verhindern, werden bereits vor dem Crawl Verfahren angewandt, die bestimmen, welche Links mit hoher Priorität verfolgt werden und welche nicht. Für diese Verfahren werden allerdings viele Informationen benötigt, zum Beispiel eine Historie von Domains, aber auch Wissen über die Backlinks sowie ein Qualitätsmaß für die Inhalte, die ansonsten auf der Domain liegen. Es kostet viel Zeit, dieses Wissen aufzubauen und eine intelligente Crawler-Steuerung aufzubauen.

Hier hat Google einen immensen Vorsprung: Es werden viele wichtige Seiten sehr oft und tief gecrawlt, neue Seiten werden schnell gecrawlt, wenn Google ihnen aufgrund der Verfahrenen einen Vertrauensvorschuss gibt. Natürlich crawlt Google auch noch viel Mist, aber in viele Sachen rennt Google nicht mehr planlos rein, sondern nutzt die dadurch gesparte Crawling-Ressourcen für wichtigere Seiten. Es wird aber eine Unmenge an Maschinen benötigt, um eine ausreichende Menge zu crawlen und diese Menge auch noch „frisch“ zu halten.

Der zweite Faktor, Precision, dreht sich um die Genauigkeit der Treffer in den Suchergebnissen, wieviele davon sind relevant? Auch hier hat Google einen immensen Vorsprung, denn durch die Benutzung der Suchmaschine wird diese besser. Natürlich misst Google, wie häufig ein Suchergebnis angeklickt wird, und auch andere Faktoren wie die Absprungrate von einer Seite könnte Google einbeziehen. Aufgrund der vielen Nutzer, die Google jeden Tag ansteuern, kann Google außerdem jederzeit viele Tests mit kleinen Nutzergruppen durchführen, die zum Teil nicht mal etwas davon mitbekommen, und so das Produkt ständig verbessern.

3. Was hälst Du von den Annahmen und Berichten aus der jüngsten Zeit, dass sowohl Twitter wie auch Facebook an der Googleschen Suchdominanz kratzen? Kann es sein, dass menschliche realtime-Gespräche das Suchverständnis zu einer social search machen und damit Google auf Dauer das Nachsehen hat?
Nein, Facebook & Co werden zumindest in dieser Hinsicht überschätzt. Es gibt genug Bereiche, bei denen wir zuerst bei Google suchen und nicht jemanden bei Facebook befragen würden, zum einen, weil es niemanden etwas angeht (z.B. bei Krankheitssymptomen), zum andern weil man nicht warten möchte, bis der Spezialist im Freundeskreis online ist, wenn man überhaupt einen im Freundeskreis hat. Ich werde auch nicht auf Facebook nach Geschenken für meine Freundin suchen, schließlich soll sie es nicht mitbekommen :-)

Sicherlich ist es dennoch so, dass wir der Empfehlung eines Freundes vertrauen, der gute Erfahrungen gemacht hat mit einem Produkt oder einer Dienstleistung, und es ist einfacher, einer solchen Empfehlung zu folgen als sich selber der überfordernden Vielfalt an Suchergebnissen auszusetzen. Google wird deswegen aber nicht signifikant Traffic an Facebook abgeben, denn es ist IMHO kein entweder/oder, sondern ein sowohl als auch. Viele Suchen sind recherche-orientiert, d.h. wir versuchen über ein Thema möglichst viel herauszufinden, und da wird Facebook ein Teil von sein.

Ich glaube außerdem, dass Facebook vielen Foren Traffic nehmen könnte, denn bei vielen Themen schaut man sich die Diskussionen in Foren an, um die Meinungen anderer einzuholen, was nun vermehrt auf Facebook stattfindet. Allerdings ist es nicht so, dass man in seinem Freundeskreis einen Experten für alles hat, so dass auch Foren weiterhin ihre Daseinsberechtigung haben werden.

Ich glaube aber auch, dass Facebook hier auch auf einer anderen Ebene überschätzt wird: Nicht alle Benutzer geben wirklich spannende und wertvolle Informationen preis, wie auch in den Foren und bei Wikipedia gibt es eine kleine Gruppe, die viele neue Informationen bereitstellt, einige, die das dann weiter verbreiten und dann eine Vielzahl, die nicht über das Foto ihres Mittagessens oder das Beobachten anderer hinauskommen. Um es in der Sprache des Information Retrievals zu halten: Es gibt nicht ausreichend Recall für jedes Informationsbedürfnis.

4. Was denkst Du, in welche Richtung „Suche“ technologisch marschiert? Wird alles so bleiben, wie es ist?
Suche wird immer mehr „ambient“ werden, sie wird Teil vieler Geräte und Anwendungen werden, und sie wird nicht immer so aussehen wie Google. Das ist keine Überraschung. Spannend wird eher die Frage, wie diese Interfaces aussehen werden.

Apple hat 1987 die Vision eines Knowledge Navigators in einem Kurzfilm formuliert (siehe

http://www.youtube.com/watch?v=3WdS4TscWH8, aber Vannevar Bushs Memex von 1945 war hier sicherlich Vorbild), und wir sind immer noch meilenweit entfernt davon.

Momentan müssen die Benutzer die Kompetenz besitzen, gute von schlechten Informationen zu unterscheiden, und da sehe ich bei meinen Studenten, dass diese Kompetenz (noch) nicht vermittelt wird, wenn sie in die Uni kommen. Eine Schnittstelle, die Suchanfragen nicht nur per Spracherkennung versteht (das gibt es schon), sondern auch wie in diesem Beispiel sprachlich geäußerte Zusammenhänge erfassen und die Antworten darauf abstellen kann, ist noch reine Vision, da werden auch das semantische Web und Wolfram Alpha in den nächsten 5 Jahren keine Abhilfe schaffen. Allerdings wird es auch mit einem solchen Interface das Problem geben, dass nicht jede Suchanfrage eindeutig beantwortet werden kann, denn welche ist denn zum Beispiel die beste Digitalkamera bis 500 Euro?

Eine spannende Frage würde bei so einem Interface natürlich auch sein, wie damit Geld verdient werden kann, wenn es keine Sponsored Links mehr gibt :-) Man stelle sich vor, der Professor in dem Video würde jedes Mal erst eine Werbung sehen müssen, bevor er die gewünschten Informationen erhält.

Ich wünsche mir außerdem mehr Vernetzung von Informationen, mein Navi soll mir nicht nur sagen, wo die günstigste Tankstelle in der Nähe ist, sondern ob es sich auch lohnt, einen kleinen Umweg für eine günstigere Tankstelle zu machen, und ob ich es bei meinem Fahrstil überhaupt dahin schaffe. Die Informationen sind alle irgendwo vorhanden, vernetzt sind sie nicht.

Tom, herzlichen Dank für Beantwortung meiner Fragen!!

An dieser Stelle ein passender Zusatzhinweis zum obigen Interview: Auf Stern.de findet Ihr einen Artikel über Amit Singhal, einen der wichtigsten Google-Mitarbeiter im Bereich Google Suche. Der Artikel bietet einen Einblick in die technologischen Herausforderungen von Suchanbietern. Ein weiterer, passender Link: Internet-Nutzer suchen Alternativen zu Google (via GBuzz).