Les effets de productivité de l'intelligence artificielle générative

Les technologies d'automatisation - des machines capables d'effectuer des tâches productives à la place des travailleurs humains - ont joué un rôle énorme dans l'histoire économique de l'humanité depuis la révolution industrielle. De l'automatisation de la production textile au XIXe siècle à la mécanisation de l'agriculture au début du XXe siècle, les vagues historiques d'automatisation ont entraîné d'énormes réaffectations sectorielles de la main-d'œuvre et ont contribué à stimuler l'urbanisation et des changements sociaux massifs. Ces vagues d'automatisation étaient loin d'être parfaitement bienveillantes à court et moyen terme (Acemoglu et Johnson 2023), mais ont finalement contribué à une immense croissance de la production et du niveau de vie dans les pays industrialisés.

Entre les années 1970 et le début des années 2020, l'histoire de l'automatisation dans les pays à revenu élevé est restée assez constante (Autor 2015). Les progrès de la machinerie, l'essor des ordinateurs et la prolifération des technologies numériques ont conduit à l'automatisation progressive des tâches « moyennement qualifiées » allant des tâches de chaîne de montage en usine aux tâches de tenue de livres et de comptabilité (Autor et al. 2003). Ces tâches - consistant en des séquences d'étapes discrètes et formalisables - pourraient de plus en plus être programmées dans des ordinateurs et des machines de moins en moins chers, déplaçant les humains de nombreuses professions.

Ces vagues progressives d'automatisation « orientée vers la routine » ont contribué à une « polarisation » largement discutée du marché du travail : les emplois de fabrication et de bureau à salaire moyen ont lentement disparu tandis que de nouveaux emplois sont apparus dans les professions de nettoyage, de vente au détail et de soins personnels à bas salaire ainsi que dans les professions de gestion, techniques et professionnelles à haut salaire. En conséquence, les inégalités de salaires et de revenus ont considérablement augmenté au cours de cette période, les groupes démographiques autrefois concentrés dans des professions fortement automatisées prenant du retard (Acemoglu et Restrepo 2022) tandis que les professionnels à revenu élevé et les propriétaires de capitaux ont pris de l'avance (Moll et al. 2022).

À partir des années 2010, les économistes ont observé que le domaine en plein essor de l'apprentissage automatique pourrait orienter l'automatisation dans une nouvelle direction. Auparavant, les tâches ne pouvaient être automatisées que si elles pouvaient être décomposées en séquences explicites d'étapes pouvant être formellement expliquées à un ordinateur ou à une machine. De nombreuses tâches qui nécessitaient de la créativité ou des connaissances tacites et difficiles à formaliser - de l'écriture au diagnostic médical en passant par la conception graphique - évitaient donc l'automatisation. Mais dans les années 2010, les économistes ont noté que les techniques émergentes d '«apprentissage en profondeur», qui formaient les ordinateurs de manière inductive sur de grands ensembles de données existants plutôt que de fournir des instructions explicites, pourraient éventuellement permettre l'automatisation de tâches même créatives ou reposant sur des connaissances tacites.

La première vague de technologies d'automatisation basées sur l'apprentissage automatique ciblait des tâches «prédictives» telles que les décisions de mise en liberté sous caution, les décisions d'embauche ou les diagnostics médicaux (Kleinberg et al. 2018, Chalfin et al. 2016, Mullainathan et Obermeyer 2022). Les algorithmes d'apprentissage automatique sont devenus de plus en plus efficaces pour faire des prédictions binaires à partir de données d'entrée de grande dimension, suscitant des inquiétudes quant à l'avenir de professions comme la radiologie. Mais les tâches créatives semblaient toujours bien isolées de la menace de l'automatisation.

Cela a changé avec la sortie publique d'impressionnants systèmes d'intelligence artificielle «générative» entre le milieu et la fin de 2022. Formés à l'aide de techniques d'apprentissage en profondeur pour générer de grands corps de texte cohérents ou des images bien produites en réponse à des invites écrites, ces systèmes étaient nettement plus capables que n'importe quel chatbot ou outil de génération d'images préexistant. Pour la première fois, il est apparu que les tâches d'écriture créative ou de conception pourraient être confrontées à une automatisation généralisée imminente.

Dans un article récent (Noy et Zhang 2023), nous rapportons les résultats d'une expérience en ligne que nous avons menée qui fournit un premier aperçu des impacts potentiels sur la productivité et le marché du travail des systèmes d'IA générative basés sur le texte, en particulier ChatGPT 3.5.

Nous avons mené l'expérience sur Prolific, une plateforme d'enquête qui est un pilier de la recherche universitaire en sciences sociales. Nous avons sélectionné des dizaines de milliers de répondants sur la plate-forme pour identifier un sous-ensemble de répondants diplômés d'université dans nos professions d'intérêt - gestionnaires, professionnels des ressources humaines, rédacteurs de subventions, spécialistes du marketing, consultants et analystes de données - qui ont été choisis en fonction de notre capacité à proposer des tâches d'écriture réalistes, spécifiques à la profession, de 20 à 30 minutes que nous pourrions administrer via un sondage en ligne. Les gestionnaires et les professionnels des ressources humaines ont été chargés de rédiger un e-mail sensible, les spécialistes du marketing de rédiger un communiqué de presse pour un produit hypothétique, les rédacteurs de subventions de rédiger une demande de subvention, les consultants de rédiger un bref rapport et les analystes de données de rédiger un plan d'analyse. Environ 85 % des participants ont qualifié les tâches d'imitations « réalistes » ou « très réalistes » de tâches réelles exécutées dans leur profession.

Les répondants prolifiques qui ont réussi notre étape de sélection ont été invités à répondre à un sondage d'une heure comprenant deux tâches d'écriture spécifiques à la profession. Les participants ont reçu un taux de base de 10 $ et ont été fortement incités à bien exécuter les tâches : leurs soumissions de tâches ont été notées par d'autres répondants prolifiques travaillant dans les mêmes professions, et ils ont reçu jusqu'à 14 $ en primes en fonction de leurs notes. Le paiement total moyen dans notre échantillon était de 17 $/heure, dépassant largement les 12 $/heure habituels sur Prolific. Notre combinaison de rémunération supérieure au marché et d'incitations puissantes a réussi à susciter des efforts substantiels de la part des participants, qui ont consacré en moyenne 27 minutes à la première tâche.

Entre la première et la deuxième tâche, les participants ont été randomisés dans un groupe de traitement ou de contrôle. Les participants traités ont été invités à s'inscrire à ChatGPT et à saisir plusieurs exemples d'invites, leur montrant comment utiliser la technologie. Les participants témoins ont été invités à s'inscrire à Overleaf (pour maintenir le temps d'enquête aussi similaire que possible entre le traitement et le contrôle et minimiser l'attrition sélective, presque aucun participant témoin n'a utilisé Overleaf pour la deuxième tâche). Les participants traités ont été informés qu'ils étaient autorisés à utiliser ChatGPT pour la deuxième tâche s'ils le trouvaient utile.

Le groupe de traitement a massivement choisi d'utiliser ChatGPT pour la deuxième tâche : 87 % de ceux qui ont réussi à ouvrir un compte l'ont utilisé. Les participants traités ont été très impressionnés par la technologie, lui attribuant un score d'utilité moyen de 4,4 sur 5,0. Presque tous les utilisateurs ont simplement collé l'invite de tâche dans ChatGPT et soumis une version non modifiée ou légèrement modifiée de sa sortie. Contrairement aux attentes, peu de participants ont choisi d'utiliser ChatGPT d'une autre manière, par exemple en l'utilisant pour modifier leur propre brouillon, pour réfléchir à des idées ou pour rédiger un brouillon avant de modifier fortement sa sortie.

Par conséquent, le temps consacré à la deuxième tâche a chuté précipitamment pour le groupe de traitement par rapport au groupe témoin sur la deuxième tâche, diminuant de 40 % (Figure 1 Panneau A). Les notes moyennes ont augmenté de 18 % (graphique 1, panneau B). L'augmentation des notes reflète en grande partie l'opinion élevée des évaluateurs sur la sortie purement ChatGPT par rapport à la sortie purement humaine, et ne semble pas avoir reflété la valeur ajoutée des participants traités eux-mêmes.

Figure 1Effets sur la productivité

Pourquoi les participants ont-ils si peu modifié la sortie de ChatGPT ? Une possibilité est qu'ils aient reconnu des lacunes évidentes dans les résultats ou des domaines d'amélioration potentielle, mais qu'ils aient voulu accélérer la tâche le plus rapidement possible. Selon cette interprétation, les participants utilisaient simplement ChatGPT comme un appareil permettant de gagner du temps et ignoraient sa qualité de sortie, réduisant la validité externe de notre expérience au monde réel à enjeux plus élevés.

Trois éléments de preuve contredisent cette interprétation. Tout d'abord, 40 % de nos participants ont été randomisés dans un système d'incitation « convexe » qui leur promettait un paiement supplémentaire substantiel pour recevoir une note élevée de 6 ou 7 sur 7. Cela a fourni une incitation supplémentaire à corriger ou à améliorer la sortie brute de ChatGPT, mais les répondants de ce groupe n'ont pas passé plus de temps à éditer en moyenne que les répondants de notre principal groupe d'incitation « linéaire » et n'ont pas reçu de notes plus élevées. Deuxièmement, les répondants qui ont choisi d'éditer (ou qui ont passé plus de temps à éditer) n'ont pas reçu de notes plus élevées que ceux qui ont soumis des résultats non édités. Troisièmement, de nombreux répondants ont clairement jugé que ChatGPT était un appareil améliorant la sortie en plus d'un appareil permettant de gagner du temps. À la fin de l'enquête, certains répondants traités ont eu la possibilité de réviser ou de remplacer leur soumission de tâche de prétraitement à l'aide de ChatGPT ; 19 % ont entièrement remplacé leur entrée par la sortie de ChatGPT et 17 % supplémentaires ont utilisé ChatGPT comme éditeur. Notre interprétation générale est que les participants ont vu la sortie de ChatGPT comme étant de haute qualité et manquant de domaines d'amélioration évidents.

En raison de l'utilisation largement uniforme de ChatGPT dans le groupe de traitement, l'inégalité de productivité entre les participants a considérablement diminué, comme le montre la figure 2. L'accès à ChatGPT a permis à presque tout le monde dans le groupe traité d'être aussi performant que les meilleurs humains du groupe témoin.

Figure 2L'inégalité des notes diminue

Comment les participants ont-ils réagi à la découverte de cette technologie étonnamment productive ? Nous avons demandé aux participants s'ils appréciaient chaque tâche ; comme le montre le panneau A de la figure 3, le plaisir a augmenté de 0,5 écart-type dans le groupe de traitement par rapport au groupe témoin. Les inquiétudes des participants concernant le fait que l'IA déplace les travailleurs dans leur profession ont augmenté dans le groupe de traitement, tout comme l'enthousiasme à propos de l'IA augmentant les travailleurs dans leur profession, tandis que l'optimisme général concernant l'IA a légèrement augmenté. Les répondants ont donc accueilli la technologie avec enthousiasme dans l'ensemble, mais non sans appréhension. Ces lacunes ont disparu lors des réarpentages ultérieurs.

figure 3Satisfaction au travail, auto-efficacité et croyances sur l'automatisation

Nous avons interrogé à nouveau les participants deux semaines puis deux mois après l'expérience pour suivre la diffusion de ChatGPT dans leurs emplois réels. Deux semaines plus tard, 34 % des répondants traités et 18 % des répondants témoins avaient utilisé ChatGPT dans leur travail au cours de la semaine précédente ; deux mois plus tard, ces chiffres étaient de 42 % et 27 %. La lente augmentation de l'utilisation et l'écart persistant entre le traitement et le contrôle suggèrent que la diffusion de ChatGPT dans les emplois du monde réel reste quelque peu lente et entravée par des frictions d'information. Les personnes interrogées n'utilisant pas ChatGPT dans leur travail principal ont fait état d'un mélange de raisons : manque de familiarité, manque d'accès au travail ou manque d'utilité de ChatGPT en raison de l'importance pour leur travail des connaissances et du style spécifiques au contexte.

ChatGPT a un impact substantiel sur la productivité dans les tâches d'écriture professionnelles de niveau intermédiaire, en augmentant la vitesse et la qualité et en réduisant l'écart entre les écrivains de capacité supérieure et inférieure. Cependant, ses impacts globaux dépendront de considérations complexes d'équilibre général dont notre expérience est incapable de parler. Comme nous en discutons dans le document, un certain nombre de facteurs - allant de l'élasticité de la demande de services pertinents pour ChatGPT, les compétences particulières que ChatGPT complète le mieux et la nature des structures de production optimales avec ChatGPT - détermineront les impacts des technologies de type ChatGPT sur l'emploi, la profession et les structures salariales.

Acemoglu, D et P Restrepo (2022), "Tâches, automatisation et augmentation de l'inégalité des salaires aux États-Unis", Econometrica 90(5).

Acemoglu, D et S Johnson (2023), Pouvoir et progrès : Notre lutte de 1000 ans sur la technologie et la prospérité, New York : Affaires publiques.

Auteur, D, F Levy et R Murnane (2003), "Le contenu des compétences du changement technologique récent : une exploration empirique", Quarterly Journal of Economics 118(4).

Auteur, D (2015), "Pourquoi y a-t-il encore tant d'emplois ? L'histoire et l'avenir de l'automatisation du lieu de travail", Journal of Economic Perspectives 29(3).

Chalfin, A, O Danieli, A Hillis, Z Jelveh, M Luca, J Ludwig et S Mullainathan (2016), "Productivité et sélection du capital humain avec l'apprentissage automatique", American Economic Review 106(5).

Kleinberg, J, H Lakkaraju, J Leskovec, J Ludwig et S Mullainathan (2018), "Human Decisions and Machine Predictions", Quarterly Journal of Economics 133(1).

Moll, B, L Rachel et P Restrepo (2022), "Croissance inégale : impact de l'automatisation sur les inégalités de revenu et de richesse", Econometrica 90(6).

Mullainathan, S et Z Obermeyer (2022), "Diagnostiquer l'erreur du médecin : une approche d'apprentissage automatique pour les soins de santé à faible valeur", Quarterly Journal of Economics 137(2).

Noy, S et W Zhang (2023), "Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence", document de travail.

Figure 1 Figure 2 Figure 3