Häufig gesprochene Sprachen – schwerer erlernbar für Maschinen?

bard

Auf die Funktion kann von einem Mobiltelefon oder Computer aus zugegriffen werden, indem man sich mit einem Google-Konto auf der offiziellen Website des Chatbots anmeldet (Foto: Unplash)
Datum: 08. November 2023
Uhrzeit: 08:18 Uhr
Leserecho: 1 Kommentar
Autor: Redaktion
Sprachkurs Spanisch (Südamerika)

Die Google-Muttergesellschaft Alphabet führt ihren Chatbot mit künstlicher Intelligenz Bard in Europa und Brasilien ein. Dies ist die größte Expansion des Produkts seit seiner Einführung im März in den USA und im Vereinigten Königreich und heizt die Rivalität mit Microsofts ChatGPT an. Beide sind Beispiele für generative KI, die auf Fragen in menschenähnlicher Weise antworten kann. Noch vor einigen Monaten war es für viele Menschen undenkbar, wie gut auf Künstlicher Intelligenz beruhende sogenannte Sprachmodelle die menschliche Sprachfähigkeit imitieren können. Was zum Beispiel ChatGPT schreibt, ist oft nicht von menschen-generierten Texten zu unterscheiden. Anhand von Textmaterial in 1.293 verschiedenen Sprachen haben Forscher des Leibniz-Instituts für Deutsche Sprache (IDS) in Mannheim nun untersucht, wie schnell verschiedene Computer-Sprachmodelle „schreiben“ lernen. Das überraschende Ergebnis der Studie: Sprachen, die von mehr Menschen gesprochen werden, sind für Algorithmen tendenziell schwieriger zu lernen als Sprachen, die eine kleinere Sprachgemeinschaft haben.

Sprachmodelle sind Computer-Algorithmen, die in der Lage sind, menschliche Sprache zu verarbeiten und zu generieren. Das Modell erkennt dabei Muster und Regelmäßigkeiten in einer großen Menge an Texten und lernt so nach und nach, zukünftige Textdaten vorherzusagen. Ein bekanntes Modell ist das sogenannte „Transformer“-Modell, das u.a. auch dem bekannten Chatbot ChatGPT zugrunde liegt. Während der Algorithmus mit menschlich generierten Texten gefüttert wird, entwickelt dieser ein gewisses Verständnis für die Wahrscheinlichkeiten, mit denen Wortbestandteile, Wörter und Phrasen in bestimmten Kontexten auftreten. Dieses erlernte Wissen wird dann zur Vorhersage, also zur Generierung von neuen Texten in neuen Situationen verwendet. Wenn die Modelle zum Beispiel den Satz „In der dunklen Nacht hörte ich ein fernes …“ analysieren, können sie vorhersagen, dass Wörter wie „Heulen“ oder „Geräusch“ angemessene Fortsetzungen wären. Diese Vorhersage basiert auf einem gewissen „Verständnis“ für die semantischen Zusammenhänge und die Wahrscheinlichkeit von Wortkombinationen in der Sprache.

Sprachforscher des IDS haben nun in einer neuen Studie untersucht, wie schnell Computer-Sprachmodelle diese Art Vorhersage lernen, indem sie diese Textmaterial in 1.293 Sprachen lernen ließen. Dabei haben sie ältere und einfachere Modelle, aber auch moderne Varianten wie das oben angesprochene Transformer-Modell eingesetzt. Sie untersuchten, wie lange verschiedene Algorithmen brauchen, um ein Verständnis der Regelmäßigkeiten in den verschiedenen Sprachen zu entwickeln. Die Studie ergab, dass die Textmenge, die ein Algorithmus verarbeiten muss, um eine Sprache zu erlernen – also Vorhersagen darüber zu treffen, was als nächstes folgt – von Sprache zu Sprache unterschiedlich ist. Dabei zeigte sich, dass es Sprachalgorithmen tendenziell schwerer fällt, Sprachen mit vielen Muttersprachler zu erlernen, im Vergleich zu Sprachen, die von einer kleineren Sprecherzahl repräsentiert werden.

So einfach, wie diese Idee zu Beginn klingen mag, ist es aber doch nicht. Denn um wirklich sicherzugehen, dass Unterschiede in der Erlernbarkeit von Sprachen bestehen, müssen einige Dinge beachtet werden. Die Herausforderung liegt darin, dass Sprachen, die verwandt sind (z.B. Deutsch und Schwedisch) sich in vielen Aspekten viel ähnlicher sind als Sprachen, die sich verwandtschaftlich ferner sind (z.B. Deutsch und Thai). Doch nicht nur der Verwandtschaftsgrad von Sprachen muss kontrolliert werden, sondern auch andere Effekte wie die geographische Nähe zwischen zwei Sprachen oder die Qualität des Textmaterials, das zum Training verwendet wird. „In unserer Studie haben wir deshalb verschiedene Methoden aus der angewandten Statistik und dem maschinellen Lernen verwendet, um etwaige Einflussfaktoren möglichst streng kontrollieren zu können“, erklärt Sascha Wolfer, einer der beiden Autoren der Studie.

Unabhängig von der verwendeten Methode und über verschiedene Textsorten hinweg zeigte sich für die untersuchten Sprachmodelle eine stabile statistische Korrelation zwischen maschineller Erlernbarkeit und Größe der Sprecherpopulation. „Das Ergebnis hat uns wirklich überrascht, aufgrund des bisherigen Forschungsstands hätten wir eigentlich eher das Gegenteil erwartet, also dass Sprachen mit größerer Sprecherpopulation eher leichter maschinell erlernbar sind“, sagt Alexander Koplenig, Hauptautor der Studie. Über die Gründe für den Zusammenhang kann deshalb bisher nur spekuliert werden. In einer vorherigen Studie des Forscherteams zeigte sich etwa, dass größere Sprachen auch insgesamt komplexer sind. Es könnte also sein, dass sich der vermehrte Lernaufwand „lohnt“, wenn Menschen Sprache lernen: Denn hat man einmal eine komplexe Sprache erlernt, hat man vielfältigere sprachliche Ausdrucksmöglichkeiten zur Verfügung, die es erlauben könnten, den gleichen Inhalt in kürzerer Form auszudrücken. Um diese (oder andere) Erklärungen zu überprüfen, ist aber noch weitere Forschung nötig. „Wir stehen hier noch relativ am Anfang“, betont Koplenig. „In einem nächsten Schritt gilt es herauszufinden, ob und inwieweit sich unsere Ergebnisse für maschinelles Lernen überhaupt auf menschlichen Spracherwerb übertragen lassen.“

P.S.: Sind Sie bei Facebook? Dann werden Sie jetzt Fan von agência latinapress! Oder abonnieren Sie unseren kostenlosen Newsletter und lassen sich täglich aktuell per Email informieren!

© 2009 - 2024 agência latinapress News & Media. Alle Rechte vorbehalten. Sämtliche Inhalte dieser Webseite sind urheberrechtlich geschützt. Vervielfältigung und Verbreitung nur mit vorheriger schriftlicher Genehmigung von IAP gestattet. Namentlich gekennzeichnete Artikel und Leser- berichte geben nicht unbedingt die Meinung der Redaktion wieder. Für Einsendungen und Rückmeldungen bitte das Kontaktformular verwenden.

Dies könnte Sie auch interessieren

Kommentarbereich

Hinweis: Dieser Kommentarbereich ist moderiert. Leser haben hier die Möglichkeit, Ihre Meinung zum entsprechenden Artikel abzugeben. Dieser Bereich ist nicht dafür gedacht, andere Personen zu beschimpfen oder zu beleidigen, seiner Wut Ausdruck zu verleihen oder ausschliesslich Links zu Videos, Sozialen Netzwerken und anderen Nachrichtenquellen zu posten. In solchen Fällen behalten wir uns das Recht vor, den Kommentar zu moderieren, zu löschen oder ggf. erst gar nicht zu veröffentlichen.
  1. 1
    Paddy7

    Ich bin auch sehr überrascht, wie schlecht die Übersetzer-Tools egal welcher Marke, zum Beispiel Deutsch vs Portugiesisch übersetzen. Ich nutzte das Google-Translate vor 15 Jahren, um meine damalige Freundin, heute meine Frau, zu verstehen. Erst vertraute ich dem Übersetzer, bis ich merkte, dass das Programm manchmal das Gegenteil ausspuckte und den Unterschied zwischen den Geschlechtern nicht unterscheiden kann.
    Bis heute, kann das Programm sehr wenig korrekt übersetzen.
    Der Mensch lernt nicht nur durch lesen, sondern durch das Gehör und die Stimmlage und Erinnerung in Situationen und Emotionen.
    Ich lernte also nicht nur durch einfache Wort Übersetzung, sondern wie ein Papagei, was voraussetzt, dass man eine Quaseltante an der Seite, oder einfach viel Kontakt zu den Menschen, der gewünschten Sprache hat.

Diese News ist älter als 14 Tage und kann nicht mehr kommentiert werden!