Loading AI tools
Zweig der Sprachwissenschaft, der die Sprache anhand von Beispielen in realen Texten untersucht Aus Wikipedia, der freien Enzyklopädie
Die Korpuslinguistik ist ein Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage quantitative oder qualitative Daten dienen, die aus der Analyse von speziellen Textkorpora oder (seltener) Korpora gesprochener Sprache gewonnen werden. Große Verbreitung fand die Korpuslinguistik im deutschsprachigen Raum ab der zweiten Hälfte der 1990er Jahre. Es ist nach wie vor umstritten, ob es sich bei der Korpuslinguistik um eine Methode oder um einen eigenen neuen Zweig der Sprachwissenschaft handelt.
Gegenstand der Korpuslinguistik ist die Sprache in ihren verschiedenen Erscheinungsformen. Die Korpuslinguistik ist dabei durch das Verwenden von authentischen Sprachdaten charakterisiert, die in großen Korpora dokumentiert sind. Bei solchen Textkorpora handelt es sich um Sammlungen von sprachlichen Äußerungen, die nach bestimmten Kriterien und mit einem bestimmten Forschungsziel zusammengestellt werden. Die Erkenntnisse der Korpuslinguistik basieren somit auf natürlichen Äußerungen einer Sprache, also auf Sprache, wie sie tatsächlich verwendet wird. Diese Äußerungen können entweder schriftlich entstanden sein oder es kann sich um spontane oder elizitierte gesprochene Sprache handeln. Die meisten Korpora liegen heute in digitaler Form vor und sind mittels bestimmter Software für die linguistische Recherche nutzbar.
Ziel der Korpuslinguistik ist es, anhand dieser Daten entweder bestehende linguistische Hypothesen zu überprüfen (bestätigen oder widerlegen) oder durch explorative Datenanalyse neue Hypothesen und Theorien über den Gegenstand zu gewinnen. Man spricht im ersten Fall von „korpusgestützter“ linguistischer Analyse und im zweiten Fall von „korpusbasierter“ linguistischer Analyse.
Korpuslinguistische Fragestellungen betreffen sowohl das sprachliche System selbst („Langue“ nach Ferdinand de Saussure bzw. „Kompetenz“ nach Noam Chomsky) als auch den Gebrauch von Sprache („Parole“ nach de Saussure bzw. „Performanz“ nach Chomsky). Die Korpuslinguistik ist also dahingehend im Begriff, die in der Linguistik dominierende dichotome Sprachbetrachtung aufzuheben.
Eine typische Fragestellung das Sprachsystem betreffend ist beispielsweise:
Typische Fragestellungen den Sprachgebrauch betreffend sind etwa:
Bei zahlreichen Forschungsfragen, die die Korpuslinguistik versucht zu beantworten, ist jedoch nicht eindeutig zu entscheiden, welchem der beiden Domänen Langue und Parole ein Phänomen zuzuordnen ist, wie beispielsweise bei den Fragen:
Denn einerseits kann die Verteilung der Adjektive mit „Haar“ und der Modalpartikeln als Phänomen einer bestimmten Sprache oder – nach Vergleich mit anderen Sprachen – als Merkmal von Sprache generell gelten, aber andererseits auch als Ergebnis eines spezifischen Sprachgebrauchs angesehen werden.
(Einen Einblick in die Facetten korpuslinguistischer Forschung bieten z. B. die Arbeiten von Lemnitzer/Zinsmeister (2010) für das Deutsche und McEnery/Xiao/Tono (2006) für das Englische.)
Ein bedeutendes methodisches Problem der Korpuslinguistik ist das Verhältnis der Datenbasis, also des Korpus, zum untersuchten Gegenstand. Die Datenbasis könnte theoretisch den Gegenstand komplett abdecken, wenn es sich um eine heute noch verwendete Sprache handelt. Doch man kann einen Korpus nicht als eine im Sinne der schließenden Statistik valide Stichprobe betrachten, da der Gegenstand, auf den sich die Stichprobe bezieht, in der Praxis als Ganzes – also eine bestimmte Sprache oder ein bestimmter Sprachgebrauch – nicht erfassbar ist.[2] Man behilft sich heute damit, ein Korpus nicht mehr (wie ursprünglich gefordert) als „repräsentativ“ im statistischen Sinne für den untersuchten Gegenstand zu bezeichnen und Erkenntnisse, die auf Grund von Korpora gewonnen werden, lediglich als vorläufig plausibel zu betrachten. Die Zusammenstellung von großen Korpora soll daher „ausgewogen“ sein, also in einem bestimmten Verhältnis aus unterschiedlichen Textsorten bestehen.
Die Grundannahme der Korpuslinguistik, dass Erkenntnisse über Sprache anhand von realen sprachlichen Äußerungen gewonnen oder überprüft werden können, bringt zwei weitere methodische Probleme oder Einwände mit sich:
Im ersten Fall kann man Ergebnisse, die durch Korpusanalyse gewonnen wurden, durch eine parallele Sprecherbefragung zu stützen versuchen. Im zweiten Fall hilft nur die Untersuchung weiterer Daten oder, als ultima ratio, ebenfalls eine Sprecherbefragung.
Die Korpuslinguistik geht vom Gebrauch natürlicher Sprachen aus. Sie ist eine induktive/empirische Methode zum Gewinn von Wissen über die Sprache: Die Beobachtung von möglichst vielen konkreten Einzelbeispielen führt zur Formulierung einer allgemeinen Aussage über den Gegenstand. Dieses Vorgehen („vom Speziellen zum Allgemeinen“) ist dem Empirismus zuzuordnen, der davon ausgeht, dass alles Wissen auf Erfahrung beruht. Im Gegensatz dazu steht die deduktive Methode, die sich aus der philosophischen Tradition des Rationalismus herleitet: Ausgehend von der Überlegung, wie ein bestimmtes sprachliches Phänomen beschaffen ist, wird versucht, in den Sprachen Belege als Bestätigung dafür zu finden („vom Allgemeinen zum Speziellen“).
Das unterscheidet die Korpuslinguistik grundsätzlich von der von Noam Chomsky begründeten Generativen Transformationsgrammatik und ihren Nachfolgern, deren erklärtes Ziel auch die Untersuchung der Sprachfähigkeit des kompetenten Sprechers als eine kognitive Leistung ist. Chomsky selbst hat mehrfach klar den Wert von authentischen Sprachbelegen für den linguistischen Erkenntnisgewinn bestritten. Er stellte fest, dass für die Untersuchung der Performanz authentische Sprachdaten, wie sie in Textkorpora vorliegen, ungeeignet sind, da bei der Produktion von Sprache immer Fehler auftreten.[3] Daher könnten anhand so erhaltener Daten keine gültigen Aussagen über das sprachliche System getroffen werden. Chomsky konzentrierte sich daher methodisch auf Introspektion und auf Sprecherurteile, die unter Laborbedingungen von kompetenten Muttersprachlern elizitiert werden. Die Korpuslinguistik dagegen verzichtet auf die Betrachtung des Unterschieds zwischen Sprachkompetenz und -performanz, den Chomsky für wesentlich hält.
Es ist in jüngster Zeit aber eine Annäherung zwischen diesen beiden Positionen zu beobachten. In beiden Lagern betrachtet man mittlerweile die eigene Datenbasis kritischer und ist bereit, die von der jeweils anderen Seite bevorzugten Daten zumindest als Instrument zur Kontrolle der eigenen Erkenntnisse heranzuziehen.[4]
Die weite Verbreitung und die hohe Bedeutung der englischen Sprache sowie eine insgesamt hohe Affinität zur empirischen Forschung in der Sprachwissenschaft sind zwei Gründe, weshalb sich die computergestützte Datenanalyse, wie sie die Korpuslinguistik eine ist, zuerst im anglo-amerikanischen Raum entwickelt hat.
Die dortige moderne Korpuslinguistik wurde 1967 von Henry Kucera (1925–2010) und Nelson Francis durch ihre Arbeit „Computational Analysis of Present-Day American English“ begründet. Deren Ergebnisse wurden anhand des „Brown-Corpus“ (genau: „Brown University Standard Corpus of Present-Day American English“) gewonnen. Dieses umfasste ursprünglich rund 1 Million Wörter. Weitere englischsprachige Korpora folgten, wie etwa in den 1980er Jahren das gleich große „Lund-Oslo-Bergen-Korpus“ (LOB). Eine neue Wegmarke wurde durch die Erstellung eines diese Zahl weit überschreitenden Textkorpus im Rahmen der lexikographischen Arbeiten beim englischen Collins Verlag erreicht. Dessen Ergebnis war die erste Auflage des „Collins Cobuild Dictionary of English“. Ihm folgte in einer neuen Größenordnung die nicht-kommerzielle Erstellung eines ausgewogenen, 100 Millionen laufende Wörter umfassenden „British National Corpus“, das heute immer noch als Referenzkorpus für linguistische Untersuchungen des britischen Englisch verwendet wird. Ihm tritt heute das „American National Corpus“ zur Seite. Andere regionale Varietäten des Englischen werden im „International Corpus of English“ (ICE) erfasst.
Vorreiter der deutschen Korpuslinguistik waren das Institut für Kommunikationswissenschaft und Phonetik (IKP) an der Universität Bonn und das Institut für Deutsche Sprache in Mannheim. Heute sind als deutschsprachige Korpora besonders folgende zu nennen:
Neben diesen der Öffentlichkeit kostenlos zugänglichen Korpora mit garantierter Langzeitpflege gibt es eine Vielzahl von Spezialkorpora für viele Sprachstufen und Varietäten des Deutschen. (Eine Übersicht hierüber geben Lemnitzer / Zinsmeister (2010).)
Korpora werden, wie das Beispiel des Collins Cobuild Projekts, aber auch das American Heritage Dictionary (1969) zeigen, von einer Lexikographie genutzt, die dem Benutzer nicht nur präskriptive (wie soll ein Wort benutzt werden), sondern auch deskriptive (wie wird ein Wort tatsächlich benutzt) Beschreibungen anbieten will. Quantitative Erhebungen zu Worthäufigkeitsstatistiken können die Lemmaauswahl für viele Arten von Wörterbüchern steuern und objektivieren. Heute ist die Verwendung von Korpora auch in deutschen Wörterbuchverlagen etabliert. Einige Arten von lexikalischen Informationen können erst auf Grund der Analyse großer Textkorpora gewonnen werden (z. B. zeitlich gestaffelte Frequenzprofile), andere können durch Korpora besser abgesichert werden als durch die Sprachkompetenz einzelner Lexikographen.
Korpora werden heute auch vermehrt in der Sprachdidaktik als Forschungsgrundlage genutzt. Anhand der Ergebnisse, wie eine Sprache tatsächlich gebraucht wird, werden auch die Unterrichtsmaterialien gestaltet, und so genannte Lernerkorpora zeigen auf, in welchen Lernstadien welche Fehler bei der Sprachproduktion vorherrschen.
Für spezielle linguistische Fragestellungen werden in zunehmendem Ausmaß auch andere spezielle Korpora erarbeitet, die im Umfang erklärlicherweise weitaus kleiner sind als Referenzkorpora, die eine Sprache insgesamt erfassen sollen. Solche gibt es beispielsweise im Bereich der Untersuchungen des Sprachgebrauchs in der Politik und in den Medien.
Die Frage, ob die Korpuslinguistik eine Methode der Allgemeinen oder der Angewandten Linguistik ist oder eine eigene sprachwissenschaftliche Disziplin darstellt, ist noch nicht abschließend beantwortet.
Für die Einschätzung als Methode spricht, dass viele Zweige der Linguistik, von der Theoretischen bis zur Forensischen Linguistik, sich einer empirischen, korpusbezogenen Analysetechnik in methodisch reflektierter Weise bedienen, wenn auch meistens nicht ausschließlich. Ein genuiner Gegenstand der Korpuslinguistik ist hingegen nicht erkennbar. Ein solcher wäre aber notwendig, wollte man ihr den Status einer eigenständigen wissenschaftlichen Disziplin zusprechen.
Für die Einschätzung, dass die Korpuslinguistik eine eigenständige Disziplin ist, spricht der Umstand, dass sie dezidiert den Sprachgebrauch als ihren Erkenntnisgegenstand bestimmt und sich damit von Schulen der Linguistik absetzt, die die Sprachfähigkeit des Menschen oder die generellen Strukturen von Sprache als semiotisches System zum Gegenstand haben.
Ungeachtet dieser grundsätzlichen Erwägung hat sich die Korpuslinguistik als Wissenschaftszweig im akademischen Leben etabliert. Darauf deuten die Existenz mehrerer thematischer Fachzeitschriften, eines zwei Bände umfassenden Handbuchs (Lüdeling/Kytö 2008, 2009) sowie zweier dedizierter Lehrstühle an der Universität Birmingham und an der Berliner Humboldt-Universität hin.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.