Deppermann / Fandrych / Kupietz | Korpora in der germanistischen Sprachwissenschaft | E-Book | sack.de
E-Book

E-Book, Deutsch, Band 2022, 262 Seiten

Reihe: Jahrbuch des Instituts für Deutsche SpracheISSN

Deppermann / Fandrych / Kupietz Korpora in der germanistischen Sprachwissenschaft

Mündlich, schriftlich, multimedial

E-Book, Deutsch, Band 2022, 262 Seiten

Reihe: Jahrbuch des Instituts für Deutsche SpracheISSN

ISBN: 978-3-11-108589-0
Verlag: De Gruyter
Format: EPUB
Kopierschutz: Adobe DRM (»Systemvoraussetzungen)



Die in diesem Band versammelten Beiträge zur Jahrestagung 2022 des Instituts für Deutsche Sprache geben einen Überblick zu aktuellen Entwicklungen der Erschließung und Nutzung von Korpora in der germanistischen Linguistik und darüber hinaus. Dabei steht im Vordergrund, wie bekannte und neue Korpora für die Untersuchung verschiedenster linguistischer Fragestellungen, z.B. der Lexikografie, der Gesprächsforschung, des Spracherwerbs oder der historischen Sprachwissenschaft, genutzt werden können. Im Einzelnen geht es um: - Korpusangebote und Korpusdesign
- Software für die Arbeit mit Korpora
- Korpusaufbereitung
- den Zusammenhang von Korpusaufbereitung und Forschungsfragestellungen
- ethisch-rechtliche Aspekte der Arbeit mit Korpora
- Anwendungs- und Nutzungsmöglichkeiten von Korpora
Diese Fragen werden im Kontext wissenschaftstheoretischer Überlegungen zur Frage des Nutzens von Korpora für die linguistische Erkenntnisbildung behandelt. Es werden dabei sowohl klassische Schrift- und Tonkorpora, als auch Korpora mit Daten aus anderen Medialitäten (Video und Social Media) vorgestellt. Eine weitere Dimension sind Vergleichskorpora mehrerer Sprachen oder Medialitäten (mündlich vs. schriftlich) sowie diachrone (Vergleichs-)Korpora und der Blick auf nicht-deutschsprachige Korpusangebote.
Deppermann / Fandrych / Kupietz Korpora in der germanistischen Sprachwissenschaft jetzt bestellen!

Weitere Infos & Material


Marc Kupietz/Harald Lüngen/Nils Diewald (Mannheim) Das Gesamtkonzept des Deutschen Referenzkorpus DEREKO
Vom Design bis zur Verwendung und darüber hinaus Abstract: Das Deutsche Referenzkorpus DEREKO dient als eine empirische Grundlage für die germanistische Linguistik. In diesem Beitrag geben wir einen Überblick über Grundlagen und Neuigkeiten zu DEREKO und seine Verwendungsmöglichkeiten sowie einen Einblick in seine strategische Gesamtkonzeption, die zum Ziel hat, DEREKO trotz begrenzter Ressourcen für einerseits möglichst viele und andererseits auch für innovative und anspruchsvolle Anwendungen nutzbar zu machen. Insbesondere erläutern wir dabei Strategien zur Aufbereitung sehr großer Korpora mit notwendigerweise heuristischen Verfahren und Herausforderungen, die sich auf dem Weg zur linguistischen Erschließung solcher Korpora stellen. 1 Einleitung
Dieser Beitrag gibt einen Überblick über die Gesamtkonzeption des Deutschen Referenzkorpus DEREKO – von seinen Designprinzipien, über Ausbau- und Aufbereitungsstrategien, bis hin zur Erweiterung seiner linguistischen Nutzungsmöglichkeiten. Besonderes Augenmerk gilt dabei aktuellen Herausforderungen und der Vorstellung unserer Lösungsansätze, die jeweils durch eine enge Integration allgemein methodischer, linguistischer, informatischer und infrastruktureller Aspekte charakterisiert sind. Im folgenden Abschnitt 2 werden kurz DEREKO’s Aufgaben und Ziele, Designprinzipien und Erweiterungsstrategien zusammengefasst. Abschnitt 3 berichtet über die aktuelle Vorgehensweise bei der Akquisition und Aufbereitung von Texten und will außerdem auf einen in der Literatur bisher wenig explizit diskutierten Umstand aufmerksam machen: Die Forschungsdatenaufbereitung für sehr große Korpora wie DEREKO erfordert im großen Maßstab den Einsatz heuristischer Verfahren, was u. a. auch erhebliche Konsequenzen für die Methodik der Korpusnutzung hat. Dazu werden einige Beispiele dargestellt und die im Kontext von DEREKO angewendeten Lösungsstrategien skizziert. Abschnitt 4 berichtet über die jüngsten Ergebnisse der zuvor dargestellten Ansätze: aktuelle DEREKO-Erweiterungen und Verbesserungen in der Abdeckung in den Bereichen Internetbasierte Kommunikation und Fachsprache. Im Abschnitt 5 geht es um die sich anschließende Herausforderung, wie trotz rechtlicher, methodischer, technischer und ökonomischer Grenzen sehr große Korpora wie DEREKO, für einerseits möglichst viele, andererseits aber auch für innovative und anspruchsvolle linguistische Anwendungen möglichst niedrigschwellig nutzbar gemacht werden können. Wir stellen dazu eine aktualisierte und verfeinerte Fassung unseres „put the computation near the data“-Ansatzes (Gray 2003; Kupietz et al. 2010) vor und gehen auf konkrete Verbesserung der Möglichkeiten programmatischer Nutzung ein, insbesondere für kontrastive und vergleichende Forschung. 2 DEREKO-Grundlagen
2.1 Aufgaben und Ziele
Das Deutsche Referenzkorpus DEREKO wird am Leibniz-Institut für Deutsche Sprache bereits seit dessen Gründung 1964 aufgebaut. Aufgabe und Ziel von DEREKO ist es, eine allgemeine Forschungsdatengrundlage für das IDS und für die synchron arbeitende germanistische Linguistik insgesamt dauerhaft zu sichern und dabei möglichst breit einsetzbar zu sein, z. B. für Forschung in den Bereichen Lexikographie, Grammatik und Orthographie über DaF, Forensische Linguistik, Diskurslinguistik bis zu Sprachkritik: Linguist/-innen und, sofern möglich, auch Forschende aus angrenzenden Disziplinen sollen durch DEREKO in die Lage versetzt werden, sich für eine große Bandbreite an Fragestellungen und Sprachdomänen geeignet stratifizierte Sub-Korpora zu definieren, mithilfe derer sie bestehende Hypothesen zuverlässig testen und interessante neue Hypothesen gewinnen können. Zu diesem Zweck wird DEREKO laufend stichprobenartig um ein möglichst breit gefächertes Spektrum des aktuellen deutschen Schriftsprachgebrauchs erweitert und mehrfach morphosyntaktisch und syntaktisch annotiert. Zuständig für DEREKO ist seit 2004 das IDS-Dauerprojekt Ausbau und Pflege der Korpora geschriebener Gegenwartssprache. 2.2 Urstichproben-Design: Stratifizierte nutzerdefinierte Korpora
Seit der Einführung von COSMAS I (al Wadi 1994) ist DEREKO einem Urstichproben-Design (Kupietz et al. 2010) verpflichtet, d. h. DEREKO gilt als eine Urstichprobe (engl. primordial sample) der deutschen Schriftsprache. DEREKO zielt somit in der Akquisitionsphase nicht auf eine formale Ausgewogenheit, wie es vielleicht von anderen Referenzkorpora bekannt ist, die nach einem bestimmten Schlüssel feste Anteile an Genres vereinen, wie das wegweisende British National Corpus (BNC Consortium 2007). Vielmehr strebt DEREKO eine möglichst breite Streuung und Besetzung potenziell relevanter Strata wie Zeit, Ort, Genre oder Thema an, um seine Nutzer in die Lage zu versetzen, sich aus DEREKO anhand seiner Metadaten selbst gezielt stratifiziert virtuelle Korpora zusammenzustellen, die bezüglich ihrer konkreten Forschungsfrage und Sprachdomäne eine geeignete und im besten Fall repräsentative Stichprobe darstellen. 2.3 Steuerung des DEREKO-Ausbaus
Bei der Steuerung des Ausbaus von DEREKO werden verschiedene Faktoren berücksichtigt, die wie bei einem Optimierungsproblem koordiniert werden müssen. 1. Die Steigerung der Größe und Diversität sind grundsätzliche Ziele, um den Status von DEREKO als Urstichprobe der schriftlichen Gegenwartssprache fortlaufend zu konsolidieren. 2. Insbesondere ist dabei auch die Kontinuität und Aktualität hervorzuheben, um (zeitnah) Sprachwandelprozesse erfassen zu können.1 3. Zur Gewährleistung der Kontinuität ist die Wahrung des Renommees des IDS als verlässlicher Partner für Text- und Lizenzspender notwendig. 4. Außerdem spielen langfristige Strategien und Prognosen (z. B. über die Ubiquität von Digitalisierung oder die Entwicklung der Presselandschaft) eine Rolle. 5. Besonders bzgl. der Diversitätsverbesserung wird auf die Nachfrage und den Bedarf von IDS-internen und gegebenenfalls externen Forschungsprojekten eingegangen. 6. Die Akquisition ist grundsätzlich abhängig vom tatsächlichen Angebot – es kann nur akquiriert werden, was auf der Seite von Textgebern und Rechteinhabern (wie Zeitungs- und Buchverlagen, Datenbankprovidern, Portalbetreibern) sowie Forschungseinrichtungen oder Einzelpersonen, die selbst Korpora aufbauen, angeboten wird. 7. Die Datenakquisition wird auch priorisiert anhand der anfallenden Kosten für Verhandlungsaufwand und Lizenzgebühren sowie für die anschließende Erschließung (Aufwand an Analyse, Konvertierung und Aufbereitung zur Integration in DEREKO) und Wartung. DEREKO wird zwei Mal im Jahr aktualisiert und in Form eines sogenannten DEREKO-Releases veröffentlicht, das daraufhin in die Korpusrecherchesysteme COSMAS II (Bodmer 1996; b. a. w.) und KorAP eingepflegt wird. 3 Herausforderungen der Forschungsdatengewinnung
Viele Herausforderungen, die sich bei der Erweiterung von DEREKO ergeben, sind unmittelbar auf seine Größe und sein Wachstum zurückzuführen. Der Stichprobenumfang ist jedoch ein entscheidender Faktor für die Verallgemeinerbarkeit ihrer Eigenschaften und für Gewinnung interessanter linguistischer Erkenntnisse. „More data are better data“ (cet. par.) gilt in der Linguistik mehr noch als in vielen anderen Disziplinen, da lexikalische Häufigkeitsverteilungen eine large number of rare events (LNRE) aufweisen, mit linguistisch interessanten Phänomenen oft weit hinten im sogenannten long tail (vgl. Kupietz/Schmidt 2015, S. 302). Hinzu kommt, dass sprachliche Variation von vielen inner- und außersprachlichen Kontextvariablen abhängt, so dass auch in sehr großen Korpora Beobachtungen zu bestimmten relevanten Kombinationen dieser Variablen rar sein können. Unabhängig von solchen methodischen Überlegungen leitet sich die Notwendigkeit der kontinuierlichen DEREKO-Erweiterung, speziell um aktuelle Daten, auch aus dem Stiftungszweck des...


Arnulf Deppermann & Marc Kupietz, IDS, Mannheim; Christian Fandrych, University of Leipzig; Thomas Schmidt, University of Basel.

Arnulf Deppermann &
Marc Kupietz
, IDS, Mannheim;
Christian Fandrych
, University of Leipzig;
Thomas Schmidt
, University of Basel.


Ihre Fragen, Wünsche oder Anmerkungen
Vorname*
Nachname*
Ihre E-Mail-Adresse*
Kundennr.
Ihre Nachricht*
Lediglich mit * gekennzeichnete Felder sind Pflichtfelder.
Wenn Sie die im Kontaktformular eingegebenen Daten durch Klick auf den nachfolgenden Button übersenden, erklären Sie sich damit einverstanden, dass wir Ihr Angaben für die Beantwortung Ihrer Anfrage verwenden. Selbstverständlich werden Ihre Daten vertraulich behandelt und nicht an Dritte weitergegeben. Sie können der Verwendung Ihrer Daten jederzeit widersprechen. Das Datenhandling bei Sack Fachmedien erklären wir Ihnen in unserer Datenschutzerklärung.