Es war ein Donnerstagmorgen, als ein Kollege den ersten Entwurf eines Arbeitsberichts kurzerhand an Copilot auslagerte – fünf Minuten später war der Text nicht nur fehlerfrei, sondern klang plötzlich wie aus einer anderen Abteilung. KI im Beruf? Für viele klingt das nach Zukunftsmusik, doch die Realität rollt längst über die Büros hinweg. Die neue Studie „Working with AI: Measuring the Occupational Implications of Generative AI“ taucht tief in anonymisierte Copilot-Daten ein und zeigt auf, wie sehr generative KI schon heute an der Schaltzentrale moderner Arbeitsplätze sitzt - mit kleinen Überraschungen und großen Fragen, die wir noch gar nicht alle beantworten können.
1. Zwischen Mensch und Copilot: Was Nutzer wirklich mit KI tun (und was sie erwartet)
Die Studie „Working with AI: Measuring the Occupational Implications of Generative AI“ (Tomlinson et al., 2025) liefert erstmals detaillierte Einblicke in die tatsächliche Microsoft Copilot Nutzung im Arbeitsalltag. Im Fokus stehen dabei zwei zentrale Begriffe: das Nutzerziel (User Goal) – also das, was Menschen mit KI erreichen wollen – und die KI-Aktion (AI Action), also das, was Copilot tatsächlich tut. Die Analyse von 200.000 anonymisierten Bing Copilot Daten aus den USA zeigt, dass zwischen Wunsch und Wirklichkeit oft eine erhebliche Lücke klafft.
Unterschied zwischen Nutzerziel und KI-Aktion
Die Studie unterscheidet konsequent zwischen User Goals und AI Actions. Während Nutzer:innen Copilot meist für konkrete Aufgaben anfragen, etwa das Schreiben eines Textes oder das Sammeln von Informationen, interpretiert und bearbeitet die KI diese Ziele oft auf ihre eigene Weise. In 40 % der analysierten Konversationen gibt es keinen direkten inhaltlichen Match zwischen Nutzerwunsch und KI-Leistung – die Arbeitsaktivitäten sind also disjunkt.
"Unsere KI-Analysen zeigen, dass Arbeitsrealität komplexer ist, als wir dachten – Nutzer haben etwas anderes im Sinn, als Copilot liefert." – Kiran Tomlinson
Drei Hauptbereiche der Copilot-Unterstützung
Die Top-Kategorien der Copilot-Nutzung sind laut Studie:
Informationsbeschaffung (z. B. Recherche, Faktenprüfung)
Textproduktion (z. B. Schreiben, Editieren, Zusammenfassen)
Kommunikation (z. B. E-Mails formulieren, Präsentationen vorbereiten)
Nutzer suchen vor allem Hilfe bei kreativen oder informationsbasierten Aufgaben. Copilot agiert dabei meist unterstützend und übernimmt selten die vollständige Automatisierung einer Aufgabe. Typische AI Actions sind das Bereitstellen von Informationen, Schreiben, Unterrichten und Beraten.
Anekdote aus dem Arbeitsalltag
Ein anschauliches Beispiel aus den Daten: Ein IT-Supporter bittet Copilot lediglich um eine kurze Zusammenfassung der wichtigsten Meeting-Notizen. Copilot liefert jedoch ein ausführliches Protokoll samt Handlungsempfehlungen – mehr, als ursprünglich gewünscht. Solche Fälle verdeutlichen die Asymmetrie zwischen User Goal und AI Action.
Überblick: Daten und Feedback
Kriterium | Wert |
|---|---|
Analysierte Konversationen | 200.000 (2024) |
Copilot-Uniform (repräsentative Stichprobe) | 100.000 |
Copilot-Thumbs (mit Nutzerfeedback) | 100.000 |
Disjunkte User Goals vs. AI Actions | 40 % |
Top-Kategorien | Schreiben, Recherchieren, Kommunizieren |
Was Nutzer erwartet
Die AI User Feedback-Analyse zeigt: Copilot wird als hilfreich empfunden, vor allem bei Schreib- und Rechercheaufgaben. Dennoch bleibt die Erwartungslücke bestehen – Nutzer:innen wünschen sich oft spezifische Unterstützung, während Copilot eher umfassende oder beratende Antworten liefert. Die Ergebnisse machen deutlich, dass die Arbeitsrealität mit KI vielschichtig ist und die Interaktion zwischen Mensch und Copilot von Missverständnissen, aber auch neuen Möglichkeiten geprägt wird.
2. KI-Score auf dem Arbeitsmarkt: Gewinner, Verlierer und alle dazwischen (mit Zahlen und Kuriositäten)
Wie stark beeinflusst Generative AI Technology wie Microsoft Copilot verschiedene Berufe? Die Studie „Working with AI“ (Tomlinson et al., 2025) liefert mit dem AI Applicability Score erstmals eine datenbasierte Antwort: Er misst, wie oft und wie erfolgreich Copilot berufsrelevante Aufgaben unterstützt oder übernimmt. Das Ergebnis: Der AI impact on occupations ist höchst unterschiedlich – und bringt klare Gewinner, Verlierer und überraschende Ausreißer hervor.
Der AI Applicability Score: Wer profitiert am meisten?
Besonders Knowledge Work-Berufe, also Tätigkeiten rund um Information, Kommunikation und Text, erzielen die höchsten Werte. Hier kann Copilot Aufgaben wie Recherchieren, Schreiben oder Beraten besonders gut unterstützen. Die Top-Berufe mit dem höchsten Score sind:
Rang | Beruf | AI Applicability Score | Coverage |
|---|---|---|---|
1 | Interpreters and Translators | 0,495 | 0,98 |
2 | Historians | 0,483 | 0,94 |
3 | Writers and Authors | 0,454 | 0,92 |
4 | Technical Writers | 0,441 | 0,90 |
5 | Data Scientists | 0,429 | 0,88 |
6 | Mathematicians | 0,418 | 0,87 |
7 | Sales Representatives (Services) | 0,410 | 0,85 |
8 | Customer Service Representatives | 0,402 | 0,83 |
9 | Editors | 0,397 | 0,81 |
10 | Public Relations Specialists | 0,391 | 0,80 |
Die andere Seite: Kaum betroffen – und kuriose Ausreißer
Am wenigsten profitieren Berufe mit hohem physischem oder maschinenbasiertem Anteil. Hier einige Beispiele:
Nurses (Score: 0,057)
Dishwashers
Roofers
Pile Driver Operators
Massage Therapists
Water Treatment Plant Operators
Farming, Fishing, and Forestry
Kurios: Selbst innerhalb einer Berufsgruppe gibt es Ausreißer. So schneiden etwa „Historians“ fast so hoch ab wie Tech-Berufe – ein Hinweis, dass AI employment projections nicht nur von Technik, sondern auch von konkreten Arbeitsaufgaben abhängen.
Berufsgruppen im Vergleich: Wer liegt vorn?
Sales and Related: 0,32
Computer & Mathematical: 0,30
Office and Administrative Support: 0,29
Healthcare Support: 0,057
Der AI Applicability Score korreliert stark mit bisherigen AI impact occupations-Vorhersagen (r=0,91 auf Gruppenebene). Berufe mit Bachelorabschluss (Ø Score: 0,27) sind stärker betroffen als weniger qualifizierte Tätigkeiten (Ø 0,19), aber auch viele Office- und Sales-Jobs mit niedrigen Zugangsvoraussetzungen zeigen hohe Werte.
Kurzporträt: Historikerin mit KI-Copilot
"Wenn wir KI nutzen, bleibt mehr Luft fürs Wesentliche. Die Recherche geht plötzlich in Minuten, nicht Stunden." – (fiktive Historikerin)
Ein Beispiel: Eine Historikerin nutzt Copilot für die Recherche, das Schreiben von Zusammenfassungen und das Sortieren von Quellen. Dadurch gewinnt sie Zeit für die eigentliche Analyse und neue Forschungsideen – ein typisches Muster für viele Knowledge-Work-Berufe, die von AI support knowledge work profitieren.
Interpreters and Translators (0,495)Historians (0,483)Writers and Authors (0,454)Technical Writers (0,441)Data Scientists (0,429)Mathematicians (0,418)Sales Representatives (0,410)Customer Service Rep. (0,402)Editors (0,397)PR Specialists (0,391)Nurses (0,057)
3. Der Faktor Mensch: Feedback, Performance und Stolpersteine im KI-Alltag
Wie oft gelingt Copilot die Aufgabenerfüllung wirklich? Feedbackraten und Completion Scores im Überblick
Die Studie „Working with AI: Measuring the Occupational Implications of Generative AI“ liefert erstmals einen datenbasierten Einblick, wie Microsoft Copilot im Arbeitsalltag tatsächlich performt. Im Zentrum stehen dabei zwei Kennzahlen: das AI User Feedback (Daumen hoch/runter) und die AI Task Completion Rates (automatisierte Bewertung der Aufgabenerfüllung). Beide Werte zeigen, wie gut Copilot die Erwartungen der Nutzer:innen in verschiedenen AI Usage Occupations erfüllt.
Die Ergebnisse sind eindeutig: Keine häufig genutzte Arbeitsaktivität (IWA) erhält weniger als 50% positives Feedback. Besonders hoch ist die Zustimmung bei klassischen KI-Tugenden wie Schreiben und Recherche. Hier liegen sowohl Feedbackrate als auch Completion Score deutlich über dem Durchschnitt. Die Korrelation zwischen Nutzerfeedback und Task Completion ist stark (r=0,83 für das Nutzerziel, r=0,76 für die KI-Aktion), was zeigt: Wo Copilot Aufgaben erfolgreich abschließt, sind die Nutzer meist auch zufrieden.
Auffällige Diskrepanz: Textaufgaben top, Datenanalyse und Design mit Luft nach oben
Ein genauer Blick auf die AI Productivity Effects zeigt jedoch Unterschiede zwischen den Tätigkeitsfeldern. Während Copilot beim Bearbeiten und Verfassen von Texten sowie bei Informationsrecherche besonders viel positives Feedback erhält, schneiden Aufgaben wie Datenanalyse und visuelle Gestaltung deutlich schlechter ab. Hier sind sowohl die Feedbackraten als auch die Task Completion Scores niedriger. Das bestätigt: Die Stärken generativer KI liegen aktuell klar im Bereich der AI Communication Jobs und Wissensarbeit.
Die Validierung durch GPT-4o-basierte Klassifikatoren zeigt eine moderate Übereinstimmung mit menschlichen Bewertungen (Cohen's Kappa 0,34–0,53). Das unterstreicht, dass trotz technischer Fortschritte menschliches Urteil weiterhin eine wichtige Rolle bei der Beurteilung von KI-Leistung spielt.
Tangente: Der Büroflurfunk – Copilot als stiller Assistent mit Nachbesserungsbedarf
Im Arbeitsalltag wird Copilot oft als „unsichtbarer Helfer“ geschätzt. Viele Kolleg:innen berichten, dass die KI Routineaufgaben beschleunigt und für neue Impulse sorgt. Doch ganz ohne Nacharbeit geht es selten: „Die KI ist wie Kaffee: Hilft fast immer, aber schmeckt nicht jedem gleich gut“, bringt es ein Mitarbeiter auf den Punkt. Gerade bei komplexeren Aufgaben bleibt menschliche Kontrolle unverzichtbar – ein typischer Stolperstein im KI-Alltag.
Die Studie zeigt, dass Copilot vor allem in unterstützender Funktion glänzt. Nutzer:innen loben die Effizienz bei Textaufgaben, bemängeln aber gelegentliche Fehler bei Zahlen, Daten oder kreativen Designs. Das Feedback verdeutlicht: KI-Tools wie Copilot sind im Büroalltag angekommen, doch der Faktor Mensch bleibt entscheidend für Qualität und Endergebnis.
Feedbackrate und Task-Completion im Vergleich: Schreiben vs. Datenanalyse & Design
Feedbackrate & Task-Completion nach Arbeitsaktivität0%25%50%75%100%SchreibenRechercheDatenanalyseDesignFeedbackrateTask Completion
Das Liniendiagramm macht deutlich: Bei Schreib- und Rechercheaufgaben liegen Feedbackrate und Task Completion nahe an der 80–90%-Marke. Bei Datenanalyse und Design sinken beide Werte auf 60–70%. Die Ergebnisse spiegeln die reale Nutzung und Wahrnehmung von Copilot im Büroalltag wider.
4. Grenzen des Copilot-Booms: Was KI (noch) nicht kann und warum das auch gut ist
Die Euphorie um generative KI im Arbeitsalltag ist groß – doch die Studie „Working with AI: Measuring the Occupational Implications of Generative AI“ zeigt deutlich, dass Copilot und ähnliche Systeme klare Grenzen haben. Besonders in Berufen mit hohem physischen Anteil, wie Pflege, Handwerk oder Landwirtschaft, bleibt der Einfluss von KI minimal. Während Wissensberufe und Tätigkeiten mit Fokus auf Kommunikation und Information von Copilot profitieren, sind Arbeitsfelder, in denen praktische Fähigkeiten, Fingerspitzengefühl oder körperliche Präsenz gefragt sind, kaum betroffen.
Die Daten sprechen eine klare Sprache: Der AI Applicability Score für Healthcare Support liegt bei nur 0,057, für Building Cleaning bei 0,084 und für Farming, Fishing, and Forestry sogar bei 0,064. Das bedeutet, dass KI-Tools wie Copilot in diesen Bereichen nur selten oder gar nicht zur Automatisierung beitragen. Ein anschauliches Beispiel liefert die Studie mit einem Pile Driver Operator, der nach einem „KI-Hebekran“ sucht – Copilot kann hier nur eine Sicherheitsunterweisung geben, aber keine echte Unterstützung leisten.
"Handwerk hat goldenen Boden, aber keine KI-Kupplung" – Handwerksmeister bei einer Podiumsdiskussion
Diese Grenzen sind nicht nur technisch bedingt, sondern auch gesellschaftlich sinnvoll. Nicht jede Arbeit sollte automatisiert werden. Gerade in Pflege, Handwerk oder Landwirtschaft sind menschliche Fähigkeiten, Empathie und Erfahrung unersetzlich. Die Studie betont, dass KI vorerst ein Begleiter für kognitive Tätigkeiten bleibt und physische Arbeit weiterhin von Menschen ausgeführt wird. Das schützt viele Arbeitsplätze vor schnellen AI job losses 2025 und bewahrt wertvolle Kompetenzen.
Auch die Analyse der AI socioeconomic factors zeigt interessante Unterschiede: Zwar gibt es einen schwach positiven Zusammenhang zwischen dem AI Applicability Score und den Berufslöhnen (r=0,07, ohne Top 10 % r=0,13), doch die Streuung ist groß. Berufe mit Bachelorabschluss erreichen im Schnitt einen Score von 0,27, während weniger qualifizierte Berufe bei 0,19 liegen. Dennoch profitieren auch viele Office- und Sales-Berufe mit niedrigen Zugangsvoraussetzungen stark von KI-Unterstützung. Die folgende Tabelle fasst zentrale Werte zusammen:
Berufsfeld | AI Applicability Score |
|---|---|
Healthcare Support | 0,057 |
Building Cleaning | 0,084 |
Bachelor-Abschluss (Durchschnitt) | 0,27 |
Unter Bachelor (Durchschnitt) | 0,19 |
Die Studie macht deutlich: AI automation workplace betrifft vor allem kognitive, nicht-physische Aufgaben. AI skills and wages hängen zwar zusammen, aber nicht eindeutig. Gerade in Berufen, in denen menschliche Interaktion, Kreativität oder praktische Erfahrung gefragt sind, bleibt KI vorerst ein Werkzeug – und das ist auch gut so. Denn so bleibt Raum für das, was Menschen einzigartig macht.
Abschließend zeigt die Forschung: AI usage in professions ist höchst unterschiedlich verteilt. Während Copilot in Büros und bei Wissensarbeit neue Möglichkeiten eröffnet, bleibt die „KI-Kupplung“ im Handwerk, in der Pflege und auf dem Feld Zukunftsmusik. Die Grenzen der KI sind damit nicht nur eine technische, sondern auch eine gesellschaftliche Chance.



