Suchmaschinenträume

Wenn ich nach Sprachblogbarem google — dazu verwende ich vordefinierte Kombinationen von Suchbegriffen, mit denen ich Google News durchsuche — finden sich unter den Ergebnissen immer jede Menge Pressemeldungen zu universitären Forschungsprojekten. Ich ignoriere diese Pressemeldungen normalerweise und greife sie, wenn überhaupt, erst dann auf, wenn sie es tatsächlich in ein Presseorgan geschafft haben.

Aber selbst dann sind sie meistens nicht geeignet: die Forschungsprojekte sind aus wissenschaftlicher Sicht oft ziemlich unbedeutend und wenig originell. Ich nehme an, die Kolleg/innen wissen das meistens — als Hochschullehrer steht man häufig durch die Pressestelle seiner Universität oder durch die Hochschulleitung unter Druck, sich öffentlichkeitswirksam zu verkaufen, und dazu eignen sich relativ triviale aber eingängige Themen oft besser als die anspruchsvolleren, aber auch obskureren Forschungsfragen, die einem eigentlich am Herzen liegen.

Ich kann also nur verlieren, wenn ich eine solche Pressemeldung aufgreife: Entweder, ich bespreche sie positiv, und helfe dabei mit, Trivialitäten als echte Wissenschaft zu verkaufen, oder ich bespreche sie negativ und lege mich ohne Not mit Fachkolleg/innen an (anders sieht es natürlich aus, wenn ein/e Kolleg/in sich aktiv in den öffentlichen Diskurs um Sprache einschaltet und dort Falschheiten von sich gibt — dann muss er/sie kritisiert werden, fachliche Loyalitäten hin oder her).

Ich wollte deshalb auch die folgende Pressemeldung eigentlich nicht aufgreifen — sie enthält keine Falschheiten und, so meine Vorhersage, sie wird von keinem Presseorgan aufgegriffen werden: Indogermanisten der Friedrich-Schiller-Universität Jena wollen die Websuche revolutionieren. Das will alle paar Monate irgendein sprachwissenschaftlicher Lehrstuhl tun, und jedesmal juckt es mir in den Fingern, dazu etwas zu sagen. Und heute kann ich mich nicht beherrschen.

Los gehts:

Das Problem kennt wohl jeder, der schon einmal eine Internetsuchmaschine benutzt hat: Wählt man den Suchbegriff zu allgemein, so wird man von einer riesigen Anzahl an Treffern überflutet. Ist der Suchbegriff dagegen zu speziell, entgehen einem viele wichtige Informationen: Sinnverwandte Wörter, Ober- oder Unterbegriffe des Gesuchten werden von den heute gängigen Suchmaschinen nicht erfasst. „Das macht eine Recherche im Internet oftmals unübersichtlich und zeitraubend“, sagt Dr. Bettina Bock von der Friedrich-Schiller-Universität Jena.

Das verspricht schon einmal nichts Gutes: die Forscher halten eine „riesige Anzahl von Treffern“ für ein Problem, wollen aber, so lässt diese Passage vermuten, „sinnverwandte Wörter, Ober- oder Unterbegriffe“ in die Suche mit einschließen.

Und das, was die „heute gängige Suchmaschinen“, und ich nehme an, damit ist Google gemeint, nach zehn Jahren intensiver Forschung, an der Dutzende, wenn nicht Hunderte von Computerlinguist/innen beteiligt sind und waren, nicht geschafft haben, werden die Jenaer nur sechs Monaten liefern:

Doch das könnte sich bald ändern: Denn Dr. Bock und einige Kolleginnen vom Lehrstuhl für Indogermanistik haben gemeinsam mit Wirtschaftsinformatikern der Jenaer Universität ein Projekt ins Leben gerufen, das Suchmaschinen künftig wesentlich „intelligenter“ machen könnte. Das Bundesministerium für Bildung und Forschung (BMBF) unterstützt das Vorhaben im Rahmen des Förderprogramms ForMaT (Forschung für den Markt im Team) in den kommenden sechs Monaten mit 100.000 Euro.

Und so soll es funktionieren:

„Die Idee ist, unsere Erkenntnisse auf dem Gebiet der mehrdimensionalen Wortschatzvernetzung für praktische Anwendungen nutzbar zu machen“, begründet Dr. Bock die ungewöhnliche Kooperation von Sprachwissenschaftlern und Wirtschaftsinformatikern. So könnte die Benutzerfreundlichkeit von Suchmaschinen z. B. dadurch erhöht werden, dass auch sinnverwandte oder Teilbegriffe als Treffer angezeigt und vorsortiert werden. „Wenn Sie beispielsweise nach der ‚Universität Jena‘ suchen, würden Sie dann automatisch auch Einträge zur ‚Hohen Schule‘ oder ‚Salana‘ erhalten, aber auch zur Jenaer Fachhochschule, weil das für Sie vielleicht auch interessant sein könnte“, verdeutlicht Prof. Dr. Rosemarie Lühr, Inhaberin des Jenaer Lehrstuhls für Indogermanistik.

Dazu muss man wissen, dass die Universität Jena bei ihrer Gründung 1558 „Hohe Schule“ hieß und dass „Salana Jenensis“ ein alternativer Name für die Universität Jena war (heute heißt die Katholische Studentenverbindung der Universität so).

Ich sehe drei Probleme mit dem Plan der Sprachwissenschaftler.

Erstens halte ich es für ausgeschlossen, ihn umzusetzen. Wenn es nur um die Erweiterung der Suche durch Synonyme und Ober- und Unterbegriffe ginge, wäre das kein Problem. Alles, was man dazu bräuchte, wäre ein Thesaurus (der Open Thesaurus wäre geeignet) und ein Perl-Skript von ein paar Zeilen. Das Skript müsste die Suchbegriffe nehmen, im Thesaurus nachschlagen, Synonyme, Ober- und Unterbegriffe hinzufügen, und das ganze an Google weiterleiten. Wenn ich beispielsweise nach “Universität Jena” suche, würde das Skript die Wörter im Thesaurus nachschlagen. Für Jena gibt es dort keine Synonyme, für Universität stehen dort Akademie, Alma Mater, Hochschule und Uni. Das Perl-Skript würde nun aus meiner Suche “Universität Jena” das Muster (Universität|Akademie|Alma Mater|Hochschule|Uni) Jena” machen, und die Adresse http://www.google.de/search?q=”(Universität|Akademie|Alma+Mater|Hochschule|Uni)+Jena” aufrufen. Ich denke, ich würde einen Tag brauchen, um so etwas inklusive einer bequemen Benutzeroberfläche zu schreiben und ein echter Programmierer müsste es in einer halben Stunde schaffen.

Aber die Jenaer Wissenschaftler wollen etwa anderes: Die Suchmaschine soll nicht nur semantische Felder und Hierachien kennen, sie soll Weltwissen besitzen. Sie soll also nicht nur wissen, dass Akademie, Alma Mater, Hochschule und Uni Synonyme von Universität sind, sondern sie soll speziell für die Universität Jena — und natürlich auch für alle anderen Begriffe, nach denen Menschen möglicherweise suchen könnten — Informationen über alternative Namen, verwandte Institutionen, etc. haben. Die Welt ist aber schlicht zu groß, um diese Art von Informationen per Hand zusammenzutragen (automatisch kann man es zusammentragen, dazu später mehr).

Zweitens halte ich es nicht für wünschenswert, diesen Plan umzusetzen: wie soll mir damit gedient sein, dass die Suchmaschine mir Ergebnisse für Begriffe liefert, nach denen ich gar nicht gesucht habe? Wenn ich nach der Universität Jena suche, dann will ich eben nicht Treffer für die Fachhochschule Jena geliefert bekommen — sonst hätte ich ja danach gesucht. Die Jenaer Forscher erkennen ja das Problem, dass mir normalerweise schon jetzt viel zu viele Ergebmisse geliefert werden — die Aufgabe einer Suchmaschine ist es, die Ergebnisse auf das wirklich relevante einzugrenzen, nicht, sie auszuweiten.

Drittens unterschätzen die Jenaer Forscher die derzeit verfügbaren Suchmaschinen. Google hält sich relativ eng an die Suchbegriffe — einer der Gründe, warum ich diese Suchmaschine bevorzuge –, aber selbst hier werden z.B. gebeugte Formen der Suchwörter (und manche abgeleiteten Formen) mitgesucht. Es wäre für Google ein Leichtes, dies auf Synonyme auszudehnen.

Dass man das bei Google nicht tut, hat vermutlich die Gründe, die ich oben angerissen habe. Das heißt aber nicht, dass es nicht Suchmaschinen gibt, die etwas Ähnliches tun:

  • Yahoo! bietet einem schon beim Eintippen des Suchwortes verwandte Begriffe an, mit denen man seine Suche „verfeinern“ kann. Für Universität Jena bietet Yahoo! einem zunächst Studenten, Universitätsklinikum, Thüringen, Jenaer, Kliniken, Wissenschaftler, Fakultäten, Poliklinik an.
  • Cuil bietet einem verwandte Suchbegriffe an, die sogar in Kategorien unterteilt sind. Für Universität Jena funktioniert das nicht sehr gut, aber das dürfte daran liegen, dass Cuil bislang noch eine Tendenz zu amerikanischen Suchergebnissen hat. Für Massachusetts Institute of Technology bekommt man neben einer Landkarte und einer Zeitleiste der Suchergebnisse die Kategorien „Technische Universität“, „Physiker“, „Hochschullehrer (MIT)“, „US-amerikanische Organisation“, „Stiftung in den Vereinigten Staaten“, „Harvard University“ und „Kognitionswissenschaftler“, jeweils mit einem Dutzend Links. Das scheint mir ziemlich genau das zu sein, was die Jenaer sich vorstellen, wobei Cuil meinem Eindruck nach diese Ergebnisse automatisch, und nicht auf der Grundlage manuell erstellter „Wortfelder“ erzeugt.
  • Wenn es einem eher um das Vorsortieren der Ergebnisse geht, sollte man sich Clusty und Kartoo näher ansehen. Clusty bietet einem Yahoo!-ähnliche Zusatzvorschläge an, allerdings nicht bei der Suche, sondern in einem Sidebar zusammen mit den Ergebnissen. Kartoo erstellt Vernetzungen auf der Grundlage von Begriffen, die in den Treffern häufig auftauchen und stellt das Ganze als Netzwerkdiagramm dar.

Auch bei anderen Anwendungen ihrer Wortfelder sind die Jenaer Forscher nicht auf der Höhe:

„Denkbar ist hier neben dem Bereich der Suchmaschinen vor allem Übersetzungssoftware“, sagt Dr. Sabine Ziegler, die das Projekt gemeinsam mit ihrer Kollegin Dr. Bock initiiert hat. „Diese Programme arbeiten bislang automatisiert und vor allem nach statistischen Kriterien ohne Kontextbezug; sie sind somit äußert fehleranfällig: Bei einer Suche nach dem Stichwort ,Freiheit’ wird zum Beispiel unter den Oberbegriffen auch ,Helium’ aufgeführt, was jedoch an spezielle chemische Kontexte gebunden ist“, weiß die Jenaer Indogermanistin. Sprachwissenschaftliche Erkenntnisse, die unter anderem nach Konnotationen, Stilebenen und Fachsprachen differenzieren, könnten die Übersetzungsgenauigkeit dieser Software wesentlich verbessern.

In den achtziger Jahren war das so: Übersetzungsprogramme konnten keine kontextuellen Informationen nutzen. Inzwischen ist das anders, und zwar nicht trotz, sondern wegen der Tatsache, dass die Übersetzungsprogramme nach statistischen Kriterien vorgehen. Google Translate unterscheidet relativ problemlos zwischen unterschiedlichen Bedeutungen eines Wortes: They walked along the bank of the river wird mit „Sie gingen entlang der Ufer des Flusses“ übersetzt und They took their money to the bank mit „Sie nahm ihr Geld an die Bank“. Die Übersetzungssoftware hat klar Probleme, aber die liegen nicht im Bereich des Differenzierens von Wortbedeutungen.

Ich wünsche den Jenaer Indogermanisten natürlich viel Glück bei ihrer Suchmaschine und bei ihren Übersetzungsprogrammen. Aber ich kann mich des Gefühls nicht erwehren, dass sie jemanden hätten fragen sollen, der sich mit so etwas auskennt (kleiner Tipp: Es gibt in Jena eine hervorragend besetzte Computerlinguistik, die sich mit genau den Dingen beschäftigt, die man braucht, um intelligentere Suchmaschinen zu bauen).

9 Kommentare zu „Suchmaschinenträume“

  1. Derartige Funktionen sind bereits jetzt bei den üblichen verdächtigen Anbietern von Suchmaschinentechnologie verfügbar. Drill down ist ein Standardverfahren, dass z. B. häufig verwendet wird. Nur eben nicht von Google. Und Synonyme sind ohnehin nicht der Rede wert. Das kann man z. B. bei Lucene (http://lucene.apache.org/java/docs/index.html) schön zeigen: http://lucene.apache.org/java/2_4_1/api/org/apache/lucene/index/memory/SynonymTokenFilter.html - Einfacher geht’s nicht. Wenn man Java kann :-)

  2. Netter Kommentar zum Funktionsumfang der aktuellen Suchmaschinen. Aber auch google hat einen integrierten Thesaurus, wenn man ihn denn benutzen möchte.

    Einfaches Beispiel: Einfach mal auf google.com nach “automobile” suchen und die Ergebnisse mit der Suche nach “~automobile” vergleichen. Nettes Feature, das jedoch für die google-Macher so irrelevant zu sein scheint (naja, oder einfach als so dermaßen teuer eingestuft wird), dass es kaum einer kennt.

    Über den Sinn und Unsinn einer solchen Möglichkeit kann man definitiv streiten, ich halte die Lösung, die bei cuil verfolgt wird noch für die vielversprechendste: Dem Benutzer die Möglichkeit geben, anhand von thematisch strukturierten Vorschlägen(!) seine ursprünglichen Suchkriterien zu verändern. Wenn das mal tatsächlich gut und sinnvoll funktioniert (auch google arbeitet meines Wissens hart an sowas), dann hat das tatsächlich einen Mehrwert. Automatische Expansion dagegen ist, wie im Artikel treffend dargelegt, Unsinn und verwirrend für den Benutzer (der sich vielleicht _absichtlich_ sehr präzise ausgedrückt hat).

  3. Suchmaschinen sprießen hier und dort - auch bei mir, allerdings ist der Blog Post dazu noch in Arbeit. Ich bin gespannt, wie man in Jena das Problem der Word Sense Disambiguation bei der Query Expansion lösen will. Der Klassiker im Deutschen wäre eine Suche nach “bank berlin-friedrichshain”… es ist klar, dass die verwandten Begriffe je nach Bedeutung von “Bank” (Sitzmöbel, Geldinstitut) ganz anders ausfallen müssen. Klassische Ansätze dafür wären, den Kontext zu analysieren. Suchmaschinen-Queries geben aber nur sehr wenig Kontext her - vielleicht sucht der Benutzer ja wirklich eine Bank zum Sitzen in Friedrichshain.

    Was eigentlich wünschenswert wäre, das wäre eine Suchmaschine, die nicht Zeichenketten mit Zeichenketten zusammenbringt, sondern Wortbedeutungen mit Wortbedeutungen. Dafür müssen aber sowohl im Query als in den Dokumenten alle Wörter mit ihrer Bedeutung auf einer abstrakteren Ebene (z.B. Eintrag in Wortnetz) versehen sein.

    Zum genannten Vorhaben der Verknüpfung einer Suchmaschine mit einem semantischen Netz wurden im Umfeld des GermaNet-Projekts an der Uni Tübingen schon einige Arbeiten publiziert. Das Problem bei all diesen Ansätzen ist die beschränkte Abdeckung manuell erstellter Ressourcen wie Thesauri oder Wortnetze: Da steht einfach zu wenig drin. Zum Auffinden verwandter Begriffe eignen sich auch statistische Verfahren. Die Beschränktheit der Wortnetze wird hier mit der Analyse großen Korpora umgangen. Die größte Datenbasis hat - wer hätte es gedacht - natürlich Google. Und das ist, was sie fürs Englische daraus machen: http://labs.google.com/sets

    Was nicht zu vernachlässigen sein dürfte ist, dass Benutzer die spezifische Dummheit von Google etc. gewohnt sind. Auch will vermutlich niemand ein natürlichsprachliches Benutzerinterface. Wer will schon etwas wie “Wie heißt das Maisbier mit Tequila?” eintippen, wenn er jahrelang geübt hat, den Computer einfach mir “mais tequila bier” zu bewerfen. Unter Umständen sind also die Benutzer schon so weit (v)erzogen worden, dass sie eine solche Funktionalität nicht annehmen können.

    Fragen über Fragen, auf jeden Fall ein spannendes Vorhaben in Jena. Vielen Dank für die Mitteilung.

  4. Ohne unverschämt wirken zu wollen, zum besseren Verständnis:
    Der Absatz ab “Doch das könnte sich bald ändern:” (vor dem ersten längeren Zitat) ist fälschlicherweise nicht als Zitat markiert, stammt aber aus dem verlinkten Artikel.

    [A.S.: Danke für den Hinweis, habe die Tags repariert.]

  5. Ein großes Problem heutiger Suchmaschinen ist meines Erachtens, dass die Leute bei ihrer Suche eine eindimensionale Liste erhalten, die einfach Suchergebnisse nach gewissen Rankingkriterien untereinander auflistet. Auch Suchmaschinenentwickler denken noch zu häufig in solch einer Listenform. Denkbar wären aber mehrdimensionale Ergebnisgrafiken, -bäume oder ähnliches. So könnte auch die “Bank Berlin-Friedrichshain” verschiedene assoziationsgebundene Ergebnisse liefern und der Sucher könnte sich entscheiden, welchem “Strang” er denn nun folgt, dem Sitzbank- oder dem Geldinstituts-Strang.
    In die Richtung geht ja schon www.eyeplorer.com, wobei diese Suchmaschine nicht unbedingt als Websuche gedacht ist und zudem auch noch deutlich unausgereift (so bekommt man fast nur Wikipedia-Artikel ausgegeben und nicht vorgesehene Eingaben sind nicht möglich).

  6. A coupla months in the laboratory can save a coupla hours in the library can save a coupla minutes in the office next door.

  7. Ich glaube viele Leute denken zu Komplex und zu sehr in ihrem Fachgebiet vergraben. Wichtig allein ist, was der Benutzer will. Und da sind die Anforderungen eher schlicht gestrickt: Die meisten Nutzer von Suchmaschinen wollen einen oder mehrere Schlagwörter eingeben und das Gesuchte unter den Top 5 wiederfinden. Alles andere ist Schnickschnack welche die Nutzer eher verwirrt und anwidert.
    Wenn ich “Uni Jena” eintippe, dann interessiert mich nur die Homepage als Top 1. Da brauch ich keinen Baum und keine Zeitleiste. Alles was über diese einfache Anforderung geht, ist zu kompliziert.
    Google war einfach immer die Meisterin darin sowas profanes zu liefern. Leider schaffen die es aufgrund der zahlreichen “Optimierungen” der Webseiten nicht immer. Daher sehe ich das Problem eher bei der Analyse der Webseiten. Die Eingabe ist eigentlich jetzt schon optimal gelöst.

  8. Als ich von dem Forschungsvorhaben las dachte ich nur “och ne”. Also nichts gegen Forschung auf dem Gebiet, ich wünsche den Beteiligten auch viel Spaß, Erfolg und interessante Erkenntnisse - und irgendwo zwischen Google und alpha ist sicher auch noch mehr als genug Platz für ein bisschen IR - den Artikel kann ich aber genau so unterschreiben.
    Und das kann ich dann auch noch zugeben: Ein bisschen verwundert, vielleicht schon geärgert hat mich die Förderung:
    “Zum anderen fördert das Programm die interdisziplinäre Zusammenarbeit: Lehrstühle aus der technisch-naturwissenschaftlichen Forschung, aber auch sozial- und geisteswissenschaftliche Fachbereiche bilden mit wirtschaftswissenschaftlichen Fakultäten ein Team.”
    Hab ich auch nichts gegen, aber man fragt sich schon, ob das Vorhaben nicht eh in den Bereich der CL fällt und vielleicht auch die Fördergelder dort landen sollten. Jaja, der Neid! ;)
    (Rechtfertigungsversuch: Ne, ich geb zu, ich hatte schon zu viel mit Linguisten zu tun, die z.B. von quant. Linguistik nichts halten und mit Informatikern, die sich zwar mit IR beschäftigen, aber von Linguistik keine Ahnung haben)

  9. @Klaus: Nun, so einfach ist es nicht. Es gibt verschiedenen Query-Typen und das “Uni Jena”-Beispiel ist ein Navigational Query, bei dem man genau zu einer bestimmten Web-Site finden möchte. Es gibt aber noch einige andere Query-Typen, zum Beispiel wenn man Informationen über X möchte, egal wo her, oder man möchte Z kaufen, z.B. vom günstigsten Anbieter. Google ist hier zum Beispiel nicht optimal gelöst, wenn man Informationen über ein Produkt möchte. Meistens findet man nur Shopping-Angeboten, zumindest wenn man nur den Produktnamen eingibt.

    Was die Top 5 angeht, so deutet eine Eye-Tracking-Studie von Granka et al 2004 daraf hin, dass sogar nur die ersten zwei Treffer vom Benutzer genauer betrachtet werden.

Dies ist eine archivierte Seite des Bremer Sprachblogs, das von 2007 bis 2010 betrieben wurde. Anatol Stefanowitsch bloggt jetzt hier zu Themen rund um Sprache und Sprachen.