Korpuserstellung

Datenerhebung

KoLaS wurden zwischen 2011 und 2016 an der Universität Hamburg erhoben. In das Korpus wurden Texte aufgenommen, mit denen Studierende in die Schreibberatung der Schreibwerkstatt Mehrsprachigkeit gekommen sind und für die die Studierenden ihr Einverständnis zur Veröffentlichung und Nutzung im Rahmen wissenschaftlicher Forschung und Entwicklung gegeben haben. Die Studierenden wurden in einem Gespräch über die Verwendung der Daten und die Form der Anonymisierung aufgeklärt. In diesem Gespräch wurden zudem biographische Daten zum Bildungsverlauf, zum Studium sowie zum Sprachgebrauch erfasst (siehe Korpusbeschreibung).

Die Texte der Studierenden wurden von den Schreibberater:innen der Schreibwerkstatt Mehrsprachigkeit schriftlich kommentiert. Diese kommentierten Fassungen bildeten die Grundlage für Beratungsgespräche, zu denen von den Schreibberater:innen Protokolle angefertigt wurden, die dem Korpus als Metadaten beigefügt sind. Auf der Basis des Beratungsgesprächs und der schriftlich kommentierten Fassung haben die Ratsuchenden unter Umständen eine Textüberarbeitung bzw. -weiterführung der Textproduktion vorgenommen, die teilweise wiederum Eingang in das Korpus gefunden hat. Auf diese Weise entsteht eine Schleife: Erste Textfassung – (schriftliches und mündliches) Feedback – Weiterbe-/Überarbeitung – Feedback - Zweite Textfassung – … – Endprodukt. Diese Schleife stellt den Idealfall in der Dokumentation einer Textgenese dar. Da es sich um ein natürliches und wachsendes Korpus handelt, ist nicht in allen Fällen ein „Endprodukt“ im Sinne einer Textfassung, die von den Studierenden als Studien- oder Prüfungsleistung abgegeben wurde, im Korpus enthalten. Dies ist der Tatsache geschuldet, dass die Teilnahme an den Angeboten der Schreibwerkstatt Mehrsprachigkeit freiwillig erfolgte und die Ablieferung des Endprodukts nicht eingefordert werden konnte.

Das Korpus ist aufgrund seiner Genese nicht gleichförmig aufgebaut. Die Gründe hierfür sind folgende:

Zeit: Der Zeitpunkt im Textproduktionsprozess, zu dem die Schreibberatung von Studierenden aufgesucht wird, variiert. Einige kommen in einem frühen Stadium, andere erst später. Allein aufgrund der Zeitdauer bis zur Abgabe variiert die Anzahl der Texte pro Person.
Kommentierungsbedarf: Einige Studierende lassen sich im Prozess der Ideenfindung und Strukturierung begleiten, andere haben Fragen zu konkreten Textstellen. Dies führt zu unterschiedlichem Kommentierungsverhalten und unterschiedlichen Textbearbeitungszyklen.
Freiwilligkeit: Die Studierenden bestimmen selbst, ob und in welchem Umfang sie sich in ihrer Textproduktion begleiten lassen möchten.
Fachspezifik und Phase im Studium: Da die Schreibwerkstatt Mehrsprachigkeit ihre Angebote nicht auf eine bestimmte Studierendengruppe eingeschränkt hat, sind Texte von Studierenden aus verschiedenen Fachrichtungen und in unterschiedlichen Phasen des Studiums enthalten.
Sprachliche Voraussetzungen: Die sprachlichen Voraussetzungen der Studierenden unterscheiden sich, da sich Texte von monolingual deutschsprachigen Studierenden ebenso im Korpus befinden wie Texte von Studierenden, die erst seit kurzem Deutsch lernen.

Dies führt dazu, dass die Vergleichbarkeit der Texte untereinander in sehr unterschiedlichem Maß gegeben ist. Aussagen über das Korpus als Ganzes sind nur eingeschränkt möglich, da zu viele Variablen die Gestalt der Texte beeinflussen. Andersherum hat diese Art der Korpuserstellung auch methodische Vorteile: Bei den in das Korpus eingehenden Texten handelt es sich ausschließlich um authentische Schreibprodukte, die das Ziel haben, eine Studien- oder Prüfungsleistung im Handlungsraum „Wissenschaft“ zu bestehen. Unserer Ansicht nach ist das Korpus sehr gut als Material für explorative Studien geeignet, die nicht unbedingt auf repräsentative Aussagen abzielen, sondern einen ersten Einblick gewinnen und Hypothesen generieren wollen. Dadurch, dass die Texte mit Metadaten verknüpft sind, haben alle Nutzer:innen des Korpus Einblick in die vielfältigen Entstehungsbedingungen der Texte und können ihre Eignung für eine gegebene Fragestellung einschätzen. Darüber hinaus bietet das Korpus einen Einblick in die Kommentierungspraxis von Peer-Tutor:innen.

Datenaufbereitung

Wie oben beschrieben stammen die Texte aus dem Beratungsalltag der Schreibwerkstatt Mehrsprachigkeit, wo sie natürlich mit konkreten Personen in Verbindung gebracht werden mussten. Um eine Veröffentlichung der Daten möglich zu machen, war eine vollständige Anonymisierung aller Texte und Metadaten notwendig. Hierzu wurden zunächst die Namen aller Ratsuchenden durch einen sechsstelligen Nummerncode ersetzt, anstelle der Namen der Schreibberater:innen wurden Kürzel eingeführt, die die Person als Schreibberater:in erkennbar machen (SB01, SB02…). Die Textdateien sind nach einem festen Schema benannt:

Beispiel-Dateiname

Datum im Format JJ-MM-TT
Eine Textbezeichnung, die Informationen zu Textart und Inhalt enthält
Nummerncode für die ratsuchende Person
Kürzel für den/die Schreibberater:in (nur wenn Kommentare vorhanden sind)

Alle Metadaten zu den Ratsuchenden und den Beratungsereignissen wurden an der Schreibwerkstatt Mehrsprachigkeit in einer FileMaker-Datenbank archiviert. Zum Zwecke der Veröffentlichung wurde eine neue Version erstellt, die um zahlreiche persönliche Daten reduziert wurde (z.B. Namen, Kontaktdaten, …). Die restlichen Metadaten werden mit dem Korpus gemeinsam zur Verfügung gestellt, um die Nutzbarkeit der Daten zu maximieren. Zweitens sollten die Daten mit der Veröffentlichung für jeden zugänglich und deshalb nicht an eine kostenpflichtige Software gebunden sein.

Als aufwendig erwies sich außerdem die Anonymisierung der Texte selbst, die als Word- oder PDF-Dokumente vorliegen. Persönliche Daten finden sich hier insbesondere auf dem Deckblatt, wo neben Informationen zur Person auch solche zur dazugehörigen Lehrveranstaltung entfernt wurden. Namen werden außerdem häufig in den Kommentaren der Schreibberater:innen verwendet, die sich an ganz unterschiedlichen Stellen im Dokument befinden können. Überwiegend wird mit der Word-Kommentarfunktion gearbeitet, gelegentlich werden aber auch Abschlusskommentare am Ende des Dokumentes in den Fließtext eingefügt. Um hier zu vermeiden, dass Namen übersehen werden, wurde ein Python-Skript eingesetzt, das nach den Namen sucht und Fundstellen ausgibt. Word-Dokumente enthalten außerdem Metadaten zur Autorin oder zum Autor des Textes und den Namen möglicher Kommentator:innen, die ebenfalls entfernt wurden. Personenbezogene Daten in Texten, von denen nur pdf-Dateien in das Korpus eingehen, wurden geschwärzt.