KI-basierte Bewertung der Textqualität narrativer Erstklasstexte (KITE)

Projektteam
Lehrstuhl für Grundschulpädagogik und Grundschuldidaktik, Universität Würzburg:
Dr. Caroline Theurer, Dr. Daniel Then, Prof. Dr. Sanna Pohlmann-Rother
Projektlaufzeit
seit 2024
Kurzbeschreibung
Die Förderung der Schreibkompetenz ist ein bedeutendes Bildungsziel, welches in der Grundschule einen hohen Stellenwert einnimmt. Als wichtiger Indikator für Schreibkompetenz gilt die Qualität der Texte. Wie Textqualität konzeptualisiert und operationalisiert wird, variiert im Forschungsdiskurs jedoch stark (Blatt et al., 2009; Kruse et al., 2012; Müller & Busse, 2023). Gleichzeitig ist die Erfassung von Textqualität aufgrund der Vielschichtigkeit des Konstrukts überaus komplex (Becker-Mrotzek et al., 2014) – v.a. im Anfangsunterricht mit seiner stark heterogenen Schülerschaft. Nicht zuletzt aus diesem Grund wurde die Erfassung von Textqualität im Anfangsunterricht in der Forschung bislang nur wenig fokussiert (Kürzinger, 2017). Eine Ausnahme bildet die Studie NaSch1 („Narrative Schreibkompetenz in Klasse 1“; Pohlmann-Rother, Schoreit & Kürzinger, 2016), in der theoriegeleitet Qualitätskriterien für SchülerInnentexte im Anfangsunterricht definiert und 540 Erstklasstexten entlang dieser Kriterien ausgewertet wurden.
Mit Blick auf die Unterrichtspraxis stellt sich die Frage, ob und wie eine solche kriteriengeleitete Auswertung pädagogisch sinnvoll und zeitökonomisch in den Unterrichtsalltag implementiert werden und die Unterrichtsgestaltung bereichern kann. Der Ausbau und die breite Verfügbarkeit KI-gestützter Systeme eröffnen hier bedeutende Potenziale (Chiu et al., 2023). So können KI-Systeme zum einen Grundschullehrkräfte bei der aufwändigen Bewertung der Textqualität potenziell entlasten. Zum anderen ist denkbar, dass KI-basierte Systeme den SchülerInnen im Schreibprozess passgenaues Feedback zur Qualität ihrer Schreibprodukte geben (Kasneci et al., 2023).
Das Ziel des vorliegenden Projekts ist zu analysieren, inwieweit KI-gestützte Systeme für beide Aufgaben – Unterstützung der Lehrkraft (Teilstudie 1) und Begleitung der SchülerInnen (Teilstudie 2) – tatsächlich Potenziale bieten, und zwar bereits ab Schuleintritt.
In der quantitativen Teilstudie zum Projekt (Teilstudie 1) rücken Large Language Modelle (LLMs) in den Fokus. So bieten LLMs vielfältige Möglichkeiten zur automatisierten Bewertung von Individualleistungen, die Lehrkräfte entlasten und zu einer validen Erfassung der Textqualität beitragen können (Meyer et al., 2024). Es ist jedoch unklar, inwieweit dies auch für die Textbewertung bei Grundschulkindern mit ihren spezifischen Voraussetzungen gilt. Daher wird in der vorliegenden Teilstudie untersucht, inwieweit und in welchen Bereichen ein LLM Potenziale bietet, um die Qualität von Erstklasstexten zu bewerten. Die Datenbasis bilden die Erstklasstexte (n=540), die im Rahmen der Nasch1-Studie entstanden sind (Pohlmann-Rother et al., 2016). Die Texte sowie die Bewertungskriterien aus NaSch1 werden in ein gängiges LLM (ChatGPT; Open AI, 2025) eingegeben und das LLM zur holistischen Einschätzung der Texte entlang dieser Kriterien aufgefordert. Die Daten des menschlichen, kriteriengeleiteten Auswertungsprozesses sowie der holistischen Beurteilung werden anschließend als benchmark genutzt, um zu prüfen, ob und inwieweit die automatisieren Auswertungen mit den menschlichen Ratings vergleichbar sind. Die Auswertungen erfolgen mittels Korrelationsanalysen sowie der Berechnung von Übereinstimmungsmaßen (Cohens Kappa, G-Koeffizient). Anschließend wird eine kriteriengeleitete Auswertung der Textprodukte mittels des LLM durchgeführt, um im Abgleich mit den menschlichen Ratings spezifische Unterschiede in einzelnen Domänen der Textqualität transparent zu machen. Abschließend wird geprüft, ob, wie und in wie vielen Schritten die Auswertung sukzessive geschärft werden kann, um die Übereinstimmung mit den menschlichen Ratings zu erhöhen.
In der qualitativen Teilstudie zum Projekt (Teilstudie 2) rückt die Frage ins Zentrum, welche Potenziale KI-gestützte Lehr-Lern-Systeme bieten, um GrundschülerInnen im Schreibprozess zu unterstützen. Hierfür werden die Texte der NaSch1-Studie in spezifische, KI-gestützte Lehr-Lern-Applikationen (fobizz, fiete) mit Feedbackfunktion für SchülerInnen eingegeben. Das Feedback der KI-Systeme wird anschließend mittels inhaltsanalytischer Verfahren auf seinen Informationsgehalt (Kürzinger & Pohlmann-Rother, 2019) hin eingeschätzt. Zudem wird die Art des Feedbacks (Hattie & Timperley, 2007) bestimmt. Die Ergebnisse sollen Hinweise darauf geben, wie elaboriert das Feedback etablierter KI-gestützter Lehr-Lern-Systeme für GrundschülerInnen im schriftsprachlichen Anfangsunterricht ausfällt und zur Förderung der Textqualität beitragen kann.
Projektbezogene Publikationen und Vorträge
Theurer, C., Then, D., & Pohlmann-Rother, S. (2025). AI-based assessment of text quality in early primary school. Vortrag auf der Biannual Conference der European Association for Research on Learning and Instruction (EARLI) zum Thema “Realising Potentials through Education: Shaping the Minds and Brains for the Future”, Universität Graz, 25.-29.08.2025.
Verwendete Literatur
Becker-Mrotzek, M., Grabowski, J., Jost, J., Knopp, M., & Linnemann, M. (2019). Adressatenorientierung und Kohärenzherstellung im Text. Zum Zusammenhang kognitiver und sprachlicher realisierter Teilkompetenzen von Schreibkompetenz. Didaktik Deutsch, 19(37), 21–43.
Blatt, I., Ramm, G., & Voss, A. (2009). Modellierung und Messung der Textkompetenz im Rahmen einer Lernstandserhebung in Klasse 6 (2008). Didaktik Deutsch, 14(26), 54–81.
Chiu, T. K. F., Xia, Q., Zhou, X., Chai, C. S., & Cheng, M. (2023). Systematic literature review on opportunities, challenges, and future research recommendations of artificial intelligence in education. Computers and Education: Artificial Intelligence, 4, 100118.
Hattie, J., & Timperley, H. (2007). The Power of Feedback. Review of Educational Research, 77(1), 81–112.
Kruse, N., Reichardt, A., Herrmann, M., Heinzel, F., & Lipowsky, F. (2021). Zur Qualität von Kindertexten. Entwicklung eines Bewertungsinstruments in der Grundschule. Didaktik Deutsch, 17(32), 87–110.
Kasneci, E., Sessler, K., Küchemann, S., Bannert, M., Dementieva, D., Fischer, F. et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kürzinger, A. (2017). Unterrichtliche Determinanten der Schreibkompetenz in der Primarstufe – Wie wirken sich Aufgabenstellung und individuelle Lernunterstützung auf die Textqualität im Anfangsunterricht aus? FIS Bamberg.
Kürzinger, A., & Pohlmann-Rother, S. (2015). Möglichkeiten einer objektiven und reliablen Bestimmung von Textqualität im Anfangsunterricht. Methodisches Vorgehen und deskriptive Befunde aus dem Projekt NaSch1. Didaktik Deutsch, 20(38), 60–79.
Kürzinger, A., & Pohlmann-Rother, S. (2019). Niedrig und mittel inferente Kodierung: Feedback im Schreibunterricht. In F. Lipowsky, M. Hess & A.-K. Denn (Hrsg.), Dokumentation der Erhebungsinstrumente des Projekts „Persönlichkeits- und Lernentwicklung von Grundschulkindern“ (PERLE) – Teil 4. In M. Hess, A.-K. Denn & F. Lipowsky (Hrsg.), Technischer Bericht zu den PERLE-Videostudien. Band 2: Beobachtungssysteme zur Beschreibung und Qualität von Grundschulunterricht (S. 387–403). DIPF.
Meyer, J, Jansen, T., Schiller, R., Liebenow, L. W., Steinbach, M., Horbach, A., & Fleckenstein, J. (2024). Using LLMs to bring evidence-based feedback into the classroom: AI-generated feedback increases secondary students’ text revision, motivation, and positive emotions. Computers and Education: Artificial Intelligence, 6, 100199.
Müller, N., & Busse, V. (2023). Herausforderungen beim Verfassen von Texten in der Sekundarstufe – Eine differenzielle Untersuchung nach Migrationshintergrund und Familiensprachen. Zeitschrift für Erziehungswissenschaft, 26(4), 921–947.
OpenAI (2025). ChatGPT (version 5) [Large language model]. https://chat.openai.com/
Pohlmann-Rother, S., Schoreit, E., & Kürzinger, A. (2016). Schreibkompetenzen von Erstklässlern quantitativ-empirisch erfassen—Herausforderungen und Zugewinn eines analytisch-kriterialen Vorgehens gegenüber einer holistischen Bewertung. Journal for educational research online, 8(2), 107–135.