Eine Handvoll Vokale für eine Welt von Lauten

/

Laute sind die Grundbausteine gesprochener Sprache und die menschliche Stimme kann davon unendlich viele produzieren. Die Anzahl von möglichen Sprachlauten, wie Konsonante und Vokale, ist jedoch begrenzt. Aber wie verwandeln wir die Unendlichkeit in ein begrenztes Alphabet? Wir gucken uns dafür kategoriale Wahrnehmung mal etwas näher an.

Niederländer sind groß. Aber woher wissen wir das? Glücklicherweise, haben wir weltweit mehrere Millionen Kopien des Standard-Meters (registriert beim Internationalen Büro für Maß und Gewicht) und können so ganz einfach Statistiken der Weltbevölkerung raussuchen und daraufhin entscheiden wer über- oder unterdurchschnittlich groß ist. Aber im Alltag können wir die Größe von jemandem auch ohne präzise Messung beurteilen. Wir tun dies auf Basis von unseren Erfahrungen und kontinuierlichen Vergleichen der Menschen um uns herum. Abhängig davon, ob du in den Niederlanden oder in Thailand aufgewachsen bist, ist die Erfahrung also eine andere und daher könnten NiederländerInnen eine Person klein finden, während jemand aus Bangkok dieselbe Person groß findet.

Nehmen wir mal ein anderes Beispiel: Die Englischen Wörter „bite“ und „bait“. Britisch und australisch Sprechende würden sich in der korrekten Aussprache beider Wörter nicht einig werden. Außerdem würden sie ein völlig anderes Wort verstehen: Der Laut /baɪt/ (Lautschrift) entspricht dem Wort „bite“ in Newcastle und „bait“ in Melbourne. Die Unterschiede sind klein, aber wir können mit psycholinguistischen Experimenten untersuchen ob es sich hierbei um seltene Ausnahmen handelt oder ob generelle Eigenschaften menschlicher Sprache diesem Effekt unterliegen. Und tatsächlich haben britische und australische ForscherInnen in einem Experiment mit ausgedachten Wörtern zeigen können, dass Menschen mit verschiedenen Englischsprachigen Dialekten dieselben Laute mit anderen Vokalen assoziierten. Ein berüchtigtes Beispiel wäre das Wort „bath“ wo das „a“ im Australischen betont wird wie im Wort „palm“ und im Britischen wie im Wort „trap“.

Warum hören Menschen mit unterschiedlichen Dialekten andere Vokale bei derselben Tonaufnahme? Grundsätzlich werden unsere Entscheidungen durch persönliche Erfahrungen beeinflusst. Dies hilft uns dabei fehlende Informationen zu integrieren, wenn diese sensorisch noch undeutlich sind. Psychologen haben diesen Aspekt genauer untersucht und herausgefunden, dass wir diese Erfahrungen kategorisieren: Obwohl sich fast alle natürlichen Phänomene über ein Kontinuum erstrecken, ordnen wir sie in eine relativ kleine Anzahl von möglichen Kategorien. Wir zeichnen imaginäre Grenzen zwischen den Kategorien und assoziieren eine Wahrnehmung mit einer Kategorie, wenn sie innerhalb dieser Grenzen fällt. Ein alltägliches Beispiel wäre der Regenbogen, in dem wir nur sieben Farben sehen, obwohl er alle möglichen Farben des sichtbaren Lichtspektrums in sich trägt. Unsere Wahrnehmungen auf diese Art zu kategorisieren ist ein sehr effektives Mittel eine Welt voll unendlicher Erlebnisse zu verstehen.

 

Abbildung 1. Ein Regenbogen hat einen kontinuierlichen Farbverlauf, aber die meisten Menschen sehen nur sieben Farben, wie bereits in 1704 von Isaac Newton festgestellt.

Von unserer Tendenz Sprachlaute zu kategorisieren wurde zum ersten Mal im Jahr 1957 von Liberman wissenschaftlich berichtet. Er nannte es kategoriale Wahrnehmung. Das warf eine Menge neuer Fragen auf: Was für Kategorien gibt es? (Wie) verändern sie unsere Wahrnehmung? Leider gibt es bislang nur wenige Antworten. Das erste Problem liegt darin zu verstehen, was denn überhaupt eine Sprachlautkategorie ist. Das am meisten anerkannte System für Sprachlautkategorisierung in der Linguistik basiert auf Phonemen, aber in den letzten Jahren haben ForscherInnen der Sprachpsychologie jedoch bewiesen, dass wir wir hauptsächlich über Allophone kategorisieren. Ein Phonem ist die kleinste Einheit die zwei Wörter unterscheiden kann, während ein Allophon eine von mehreren möglichen Varianten ist die gebraucht werden kann um ein Phonem, in einer gegebenen Sprache, auszusprechen. Zum Beispiel unterscheidet das Phonem /t/ top von pop, und es hat im Englischen zwei Allophone, das aspirierte [t] wie in top und das nicht aspirierte [t] wie in stop. Allerdings wächst unser Verständnis der menschlichen Sprache nach wie vor und es gibt noch eine Menge zu entdecken. Deswegen können wir auch noch nicht ausschließen, dass mehrere verschiedene Systeme im Gehirn zusammenarbeiten.

Unabhänging davon welches System für Sprachlautkategorisierung letztendlich in unserem Gehirn am Werk ist, ForscherInnen haben zeigen können, dass wir Kategorien gebrauchen um zu entscheiden was wir genau hören. Aber wie genau funktioniert das? Kleinschmidt und Jaeger stellen vor, dass Menschen optimale Zuhörer sind, da sie von dem Wissen übereinander profitieren. Sie schlagen vor, dass wir Bekannte einfacher verstehen können (z.B., Freunde, Familie etc.) , weil wir bereits wissen wie sie die Laute aussprechen um bestimmte Worte in einem bestimmten Kontext zu produzieren. Wenn wir jemanden (noch) nicht so gut kennen und wir keine personengebundenen Erfahrungen haben, die uns helfen könnten sie zu verstehen, dann passen wir unsere Wahrnehmungskategorien an. McQueen und Kollegen haben gezeigt, dass diese Anpassung sehr schnell verläuft und dass wir dazu alle möglichen Informationen verwenden, wie zum Beispiel Worte und Gesichtsausdrücke. So wird es immer einfacher den spezifischen Akzent der Person zu verarbeiten. In Figur 1 ist eine kleine Animation zu sehen die darstellt, wie jemand seine Vokalgrenzen anpassen könnte bei einem Gespräch mit Freunden: Amelia aus Newcastle und Michael aus Melbourne. Die Grenzen der Kategorien zeigen die Variation der Vokallaute zwischen den Dialekten und heben die Einteilung des kontinuierlichen akustischen Raumes in wenige linguistische Symbole hervor.

 


Bildtext: Dieses Beispiel wurde auf Basis von Antonia Andreu Nadals Masterarbeit entwickelt. Der Übergang ist nur illustrativ. Er geht von einer stabilen und kontinuierlichen Transformation von britischen zu australischen Grenzen aus, obwohl eine komplette Studie über die Veränderung dieser Grenzen noch nicht besteht. Die Symbole repräsentieren die Allophone, die zum Ausdruck des Phonems gebraucht werden.

Viele Vokale sind in zwei regionalen Akzenten identisch, wie zum Beispiel [ɪ], [ʊ] (bit und put) und deren Kategorie wird deswegen mit demselben phonetischen Symbol dargestellt. Bei anderen Vokalen variiert die Aussprache viel mehr und darum werden auch zwei verschieden Symbole gebraucht, wie zum Beispiel [ʌ] (stuff) welchen im Australischen zu [ɐ] wird.

Das Mosaik wurde mithilfe des Voronoi Algorithmus erstellt. Die gestrichelten Linien zeigen die gewöhnliche Einteilung des Vokalraumes in primäre und sekundäre Frequenzen.

 
Vokale, genauso wie „groß“ und „klein“, sind keine guten Kategorien mit starren Grenzen, weil es keine objektiven Messungen sind. Selbst wenn sie mit physikalischen Einheiten, wie Zentimetern oder Frequenzen beschrieben werden, so werden sie dennoch von unserer persönlichen Wahrnehmung beeinflusst, sodass sich die Kategorien letztendlich vollkommen von denen einer anderen Person unterscheiden können.

 
Verder lezen
– Best CT, Shaw JA, Docherty G, Evans BG, Foulkes P, Hay J, et al. From Newcastle MOUTH to Aussie ears: Australians’ perceptual assimilation and adaptation for Newcastle UK vowels. Link
– Cox, F. (1999). Vowel Change in Australian English. Phonetica, 56(1-2), 1–27. http://doi.org/10.1159/000028438
– Antonia Andreu Nadal’s Master thesis, A comparative analysis of Australian English and RP monophthongs. Link
Mitterer, Holger, Eva Reinisch, and James M. McQueen. “Allophones, Not Phonemes in Spoken-Word Recognition.” Journal of Memory and Language 98 (February 2018): 77–92. Link
– Norris, D. “Perceptual Learning in Speech.” Cognitive Psychology 47, no. 2 (September 2003): 204–38. Link
– Mitterer, Holger, Eva Reinisch, and James M. McQueen. “Allophones, Not Phonemes in Spoken-Word Recognition.” Journal of Memory and Language 98 (February 2018): 77–92. Link
– Kleinschmidt, Dave F., and T. Florian Jaeger. “Robust Speech Perception: Recognize the Familiar, Generalize to the Similar, and Adapt to the Novel.” Psychological Review 122, no. 2 (April 2015): 148–203. Link

 
Abbildung
– Header: Illustration du poème Voyelles d’Arthur Rimbaud by Airair
– Abbildung 1: The Rainbow, Edvard Munch 1910, Munch Museum (Public Domain image from https://openartimages.com/)
– Video: Eigenproduktion

 

Autor: Alessio Quaresima
Redakteure: Natascha Roos, Guillermo Monteiro-Melis
Niederländische Übersetzung: Cielke Hendriks
Deutsche Übersetzung: Ronny Bujok
Endredaktion: Merel Wolf

FacebookTwitterEmailLinkedInWhatsApp