Ergebnisse Navigator für Perspektivenvielfalt

Die Ergebnisse zeigen deutlich: Der Navigator für Perspektivenvielfalt wird von den Testpersonen als klarer Mehrwert wahrgenommen. In einem kontrollierten Vergleich bewerteten 36 von 42 Teilnehmenden die mit KI generierten Ergebnisse als perspektivenreicher als ihre eigenen.

Die statistischen Tests bestätigen die Signifikanz dieser Wahrnehmung. Auch die Nutzungsabsicht fällt hoch aus: Die Mehrheit kann sich gut vorstellen, das Tool künftig einzusetzen. Damit stützt die Auswertung die Annahme, dass KI Journalist*innen wirksam beim Perspektivwechsel und bei der Entwicklung vielfältiger Fragestellungen unterstützen kann.

Selbsteinschätzung Persona

Insgesamt testeten 42 Personen den Navigator für Perspektivenvielfalt und füllten den Fragebogen aus. Jeweils 13 Teilnehmende identifizierten sich hauptsächlich mit Pia oder Anton, fünf entschieden sich für Malika, sieben für Alex. Die negativen Personas Anna und Dennis wählten drei bzw. eine Testperson (Abbildung 13).

Merkmale für die identifikation mit einer persona

Mit 71 Prozent entschieden sich die Teilnehmenden am häufigsten aufgrund der Wertvorstellungen für eine Persona. Dahinter folgte mit 62 Prozent die Motivation zur Mitarbeit bei uniCROSS. Für 57 Prozent der Befragten war die Persönlichkeit ausschlaggebend.

Jeweils 55 Prozent Identifizierten sich aufgrund der Zukunftsperspektive oder Mediennutzung mit einer Persona. 52 Prozent gaben an, sich in ähnlichem Umfang diskriminiert oder privilegiert zu fühlen.

Das Alter oder Geschlecht passten auf 43 Prozent, die ethnische Herkunft auf 36 Prozent der Testpersonen. 19 Prozent gaben an, sich aufgrund eines bestimmten Diskriminierungsmerkmals mit einer Persona zu identifizieren (Abbildung 14).

Negative Verzerrungen

Zehn Personen arbeiten an ihrem ersten journalistischen Beitrag und haben noch wenig Erfahrung. Sieben Teilnehmende haben erste Beiträge unter Anleitung und acht Befragte Beiträge selbständig erstellt. 15 Personen haben journalistische Erfahrung und geben sie als Tutor*in an andere Studierende weiter. Zwei Befragte haben mehrere Jahre Berufserfahrung im Journalismus (Abbildung 15).

Cronbachs alpha und Signifikanz

Die sechs Items für das Konstrukt subjektive Performanz [146] für T1 allein arbeiten und T2 mit ChatGPT arbeiten wurden an das Forschungsdesign angepasst. Die drei Items für das Konstrukt Intention to use [147] wurden auf Deutsch übersetzt. Um die interne Konsistenz der Skalen zu überprüfen, wurde eine Reliabilitätsanalyse für die Items durchgeführt, um die Wahrscheinlichkeit von zufälligen Korrelationen zu schätzen. Cronbachs alpha berechnet sich wie folgt:

N = Anzahl Items, v¯ = durchschnittliche Varianz, c¯= durchschnittliche Inter-Item-Kovarianz zwischen den Items

Für die drei Konstrukte ergibt sich demnach:

Subjektive Performanz T1 allein arbeiten
Subjektive Performanz T2 mit ChatGPT arbeiten
Intention to use

Cronbachs α = 0,61
Cronbachs α = 0,71
Cronbachs α = 0,90

Cronbachs alpha für die Nutzungsabsicht ist mit 0,9 exzellent. Für die subjektive Performanz mit ChatGPT ist der Wert von 0,71 akzeptabel. Der Wert von 0,61 für die Selbsteinschätzung der eigenen Arbeit liegt unter dem akzeptablen Niveau.

Ohne Item 6 läge Cronbachs alpha für T1 bei 0,65. Ohne die beiden negierten Items 5 und 6 läge der Wert für T1 bei 0,67 (Tabelle 1). Das deutet darauf hin, dass diese Items nicht ausreichend eindimensional formuliert waren. Ein weiterer Grund könnte sein, dass bei einer Selbsteinschätzung stets weitere Faktoren wie Selbstbewusstsein und Selbstwahrnehmung hineinspielen, während die Bewertung des Chatbots keinen Bezug zur eigenen Person hat.

Tabelle 1: Cronbachs alpha für subjektive Performanz T1 (links) und T2 (Mitte) sowie für die Nutzungsabsicht (rechts)

Hypothesen überprüfen

Um zu überprüfen, ob ein Ergebnis signifikant ist, also nicht einem zufälligen Ergebnis entspricht, werden zunächst eine Nullhypothese und eine Alternativhypothese formuliert. Der Signifikanztest prüft, ob die Nullhypothese widerlegt, also falsifiziert werden kann. Wird die Nullhypothese abgelehnt, gilt die Alternativhypothese als signifikant [148].

Der p-Wert ist dabei der Schwellenwert oder kritische Wert, ab dem angenommen wird, dass das Ergebnis signifikant ist. Hierfür wird das Signifikanzniveau α festgelegt. Es ist frei wählbar, üblich ist ein Wert von 5 Prozent, α = 0,05. Wenn der errechnete p-Wert kleiner als das festgelegte Signifikanzniveau ist, wird die Nullhypothese abgelehnt. Je nach Anwendungsfall gibt es unterschiedliche Hypothesentests.

Subjektive Performanz - abhängiger t-Test

Der abhängige oder gepaarte t-Test prüft, ob sich die Mittelwerte zweier abhängiger Stichproben signifikant voneinander unterscheiden. Das Forschungsdesign arbeitet mit der Stichprobe einer Personengruppe zu zwei Messzeitpunkten T1 und T2. Es wird angenommen, dass die beiden gemessenen Mittelwerte sich gegenseitig beeinflussen, es handelt sich demnach um abhängige Stichproben, bei denen die Differenz zwischen den beiden Mittelwerten gemessen wird. Die Hypothese für die Fragestellung ist gerichtet: Es wird angenommen, dass das Ergebnis zum Zeitpunkt T2 besser ist als zum Zeitpunkt T1.

Für einen abhängigen t-Test gelten folgende Voraussetzungen:

Es werden zwei abhängige Stichproben benötigt: eine Stichprobe mit zwei Messzeitpunkten.
Die Variablen müssen metrisch, also messbar sein. Die nominalen Bewertungskriterien von stimme voll und ganz zu bis stimme überhaupt nicht zu wurden hierfür in die Likert-Skala von 5 bis 1 überführt.
Die Variablen müssen normalverteilt sein. Ab einer Stichprobe größer 30 wird eine Normalverteilung angenommen.

Für die subjektive Performanz lauten die Hypothesen:

Nullhypothese H₀: x̄ _T1 ≥ x̄ _T2

„Ich arbeite allein gleich gut oder besser, wie mit ChatGPT.“ Die Mittelwerte x̄ zum Messpunkt T1 sind größer oder gleich als die Mittelwerte x̄ zum Zeitpunkt T2.

Alternativhypothese H₁: x̄ _T1 < x̄ _T2

„Ich arbeite besser in Zusammenarbeit mit ChatGPT.“ Die Mittelwerte x̄ zum Messpunkt T2 sind signifikant größer als zum Messpunkt T1. Der p-Wert ist kleiner als 0,05.

Ergebnisse subjektive Performanz

Für den Zeitpunkt T1 waren die Befragten mit durchschnittlich 20,86 von 30 Punkten zufrieden mit ihren eigenen Antworten. Die Hälfte der Testpersonen gab sich 20 bis 22 Punkte.

Abbildung 16: Verteilung Ergebnisse: Allein arbeiten (links), mit ChatGPT arbeiten (Mitte), Differenz T2-T1 (rechts)

Mit 9, 14 bzw. 26 Punkten werden drei Ergebnisse als Ausreißer betrachtet. Die subjektive Performanz des Navigators für Perspektivenvielfalt zum Zeitpunkt T2 wurde mit durchschnittlich 24,86 Punkten bewertet. Die Hälfte der Ergebnisse lag zwischen 24 und 27 Punkten. Mit 16 und 19 Punkten gab es zwei Ausreißer. Die Differenz zwischen Messzeitpunkt T2 und T1 betrug durchschnittlich vier Punkte. Die Hälfte der Werte lag zwischen zwei und sechs Punkten. Mit einer Differenz von minus sechs, minus fünf bzw. plus 18 Punkten gab es drei Ausreißer (Abbildung 16).

Insgesamt sechs Personen bewerteten den Navigator für Perspektivenvielfalt gleich oder schlechter als ihre eigenen Ergebnisse, 36 Befragte bewerteten die Antworten von ChatGPT perspektivenreicher als ihre eigenen (Abbildung 17).

Empirischen und kritischen t-Wert sowie p-Wert berechnen

Der empirische t-Wert t_emp ist das Ergebnis der Stichprobe und ergibt sich aus dem Mittelwert der Differenzen x̄_diff zwischen T2 und T1 geteilt durch den Standardfehler des Mittelwerts s_x̄.

Für die subjektive Performanz ergibt sich ein empirischer t-Wert von t_emp = 4,0/0,65 = 6,19. Der kritische t-Wert liegt bei t_krit = 1,683, laut Tabelle für 41 Freiheitsgrade [149].

Der p-Wert nähert sich demnach null an, d. h. die Wahrscheinlichkeit, dass die Antworten des Navigators für Perspektivenvielfalt perspektivenreicher wahrgenommen werden als die eigenen, liegt bei nahezu hundert Prozent. Die Ergebnisse für die subjektive Performanz sind damit signifikant und die Nullhypothese wird abgelehnt.

Intention to use - t-Test für eine Stichprobe

Der t-Test für eine Stichprobe prüft, ob sich der Mittelwert der Stichprobe von einem gegebenen Referenzwert signifikant unterscheidet. Für die Intention to use führen wir einen einseitig gerichteten t-Test durch, d. h. wir erwarten, dass der Mittelwert der Ergebnisse signifikant größer ist als der Referenzwert.

Für einen t-Test mit einer Stichprobe gelten folgende Voraussetzungen:

Es werden eine Stichprobe und ein Referenzwert für die Grundgesamtheit benötigt. Für die Intention to use mit drei mal fünf Items liegt der Referenzwert bei 9, also dreimal der Mittelwert 3.
Wie beim abhängigen t-Test müssen auch hier die Variablen metrisch und normalverteilt sein.

Für die Intention to use lauten die Hypothesen:

Nullhypothese H₀: p ≥ 0,05

Die Nutzungsabsicht liegt niedriger oder gleich als der zu erwartende Mittelwert der Grundgesamtheit. Der p-Wert ist größer gleich 0,05.

Alternativhypothese H₁: p < 0,05

Die Nutzungsabsicht liegt signifikant höher als der zu erwartende Mittelwert der Grundgesamtheit. Der p-Wert ist kleiner als 0,05.

Ergebnisse Intention to use

Die Testpersonen bewerteten ihre Absicht, den Navigator für Perspektivenvielfalt zukünftig zu nutzen mit durchschnittlich 9,95 von 15 Punkten. Die Hälfte der Ergebnisse lag zwischen acht und zwölf Punkten (Abbildung 18).

Für die Intention to use ergibt sich ein empirischer t-Wert von t_emp = 9,95/0,48 = 2,0. Der kritische t-Wert liegt bei t_krit = 1,683, laut Tabelle für 41 Freiheitsgrade [149].

Der p-Wert liegt demnach bei 0,026, d. h. die Wahrscheinlichkeit, dass der Navigator für Perspektivenvielfalt von den Testpersonen später genutzt wird, liegt bei 97,4 Prozent. Die Ergebnisse für die Intention to use sind damit signifikant und die Nullhypothese wird abgelehnt.

Quellen

[146]	B. Gonsior, S. Sosnowski, C. Mayer, J. Blume, B. Radig, D. Wollherr und K. Kühnlenz, „Improving aspects of empathy and subjective performance for HRI through mirroring facial expressions,“ Proc. of IEEE Int. Symp. on Robot and Human Interactive Communication (RO-MAN), (Atlanta, GA, USA), pp. 350-356, 2011.
[147]	M. Heerink, B. Krose, V. Evers und B. Wielinga, „Measuring acceptance of an assistive social robot: a suggested toolkit,“ Proc. of the 18th IEEE Int. Symposium on Robot and Human Interactive Communication (RO-MAN), pp. 528-533, 2009.
[148]	P. Planing, Hypothesentest/Signifikanztest, 2022.
[149]	DATAtab Team, Tabelle t-Verteilung, 2024.