
L’Intelligence Artificielle Générative en 2024
Cette tendance technologique a rythmé l’année 2024 tant du point de vue technique que sociétal. Ses implications sont toujours discutées à toute échelle, de l’individu et ses interactions aux sommets internationaux. Nous parlons bien entendu de l’Intelligence Artificielle Générative.
Et plutôt que de la définir une fois de plus, observons le chemin qu’elle a parcouru en 2024. Toutefois, avant de commencer, établissons les postulats suivants :
- La concurrence est tenace entre les modèles ouverts et les vendeurs fermés. Les premiers offrent une personnalisation plus avancée et peuvent être utilisés dans des contextes où la donnée doit rester privée ;
- Les modèles fermés n’ont d’autre choix que d’être proposés à marges réduites. On retrouve le même mode opératoire que le Cloud, où le coût d’un service prédit le coût d’exploitation sous-jacent de son fournisseur ;
- La concurrence est telle que les modèles de pointe se font régulièrement dépasser. La compétition s’effectue sur des critères de coût et de performance ;
- Enfin, les nouvelles modalités d’entrée et de sortie offrent des performances crédibles, là où il y a un an des vidéos générées de Will Smith mangeant des spaghetti faisaient le tour d’internet.
L’IA générative s’est démocratisée en 2024 à travers des intégrations natives dans nos systèmes d’exploitation. Microsoft Recall illustre cette tendance avec sa fonction de recherche chronologique d’activités sur PC, malgré des débuts difficiles liés à la sécurité des données – notamment la capture d’écran systématique et le stockage non sécurisé d’informations sensibles. Ces problèmes ont conduit à une refonte avec désactivation par défaut et authentification via Windows Hello.
Apple Intelligence, déployée depuis Octobre 2024, propose une approche intégrée aux systèmes iOS, iPadOS et macOS avec des outils natifs comme Writing Tools pour l’amélioration de texte, Image Playground pour la création d’images, Genmoji pour la génération d’emojis, et Clean Up pour la retouche photo. La plupart des traitements s’effectuent sur l’appareil. Les traitements ne pouvant être effectués localement sont traités de manière sécurisée par le système “Private Cloud Compute” d’Apple, ou bien par ChatGPT dans les cas les plus avancés.
Ces intégrations, bien que n’apportant pas d’innovations majeures par rapport aux solutions existantes, marquent un tournant dans l’accessibilité de l’IA générative. Les défis principaux restent la sécurité des données, la personnalisation, et l’établissement d’un équilibre entre innovation et confiance des utilisateurs.
Placer l’IA Générative dans les mains du plus grand nombre ne s’est pas fait sans difficulté. Nous avons assisté à un effort conséquent d’ingénierie à tous les niveaux : de la notion même d’entraînement et de prédiction à l’infrastructure soutenant ces tâches, des serveurs aux appareils grand public, des interactions textuelles aux intégrations dans nos applications.
Ces percées répétées se sont traduites par des réductions significatives des coûts des modèles fermés. Gemini 1.5 Flash a été l’un des exemples marquants de cette tendance avec une baisse de 70% des coûts associés à son utilisation, surenchérissant avec Gemini 1.5 Flash-8B pour des usages où le coût est la dimension la plus impactante. L’annonce de GPT 4o-mini allait dans la même direction ; bien moins cher que leur modèle équivalent GPT 3.5 Turbo pour des réponses bien plus pertinentes.
Par l’application du deuxième postulat, on déduit une amélioration significative de l’efficacité de ces services, amenant avec elle une réduction tout autant significative de son impact environnemental. En isolation seulement, car contrebalancé par une complexité d’entraînement croissante et une demande dont la courbe en L requiert des moyens accrus tels que la remise en ligne de centrales nucléaires pour Microsoft dès 2028 après une croissance continue des estimations des émissions carbone suivant leurs engagements climatiques de 2020.
Cette tendance à la réduction des coûts et à l’amélioration générale de la pertinence et des performances a été telle que les modalités d’entrée et de sortie qui appartenaient à la science-fiction ont commencé à poindre dès fin 2023 avec GPT-4 Vision et Gemini 1. Le révélateur a été GPT-4o, qui a surpris par la clarté, la fluidité et la pertinence des interactions et par la voix du modèle, très similaire à celle de Scarlett Johansson. Cette polémique a ravivé les craintes des artistes représentés par la SAG-AFTRA et la Writer’s Guild of America, dont la grève de 2023 a laissé des traces sur les calendriers des productions audiovisuelles.
Deux autres grandes nouveautés ont surpris quelques semaines plus tard. La première chez Google avec Illuminate, suivi de près par les Audio Overviews de NotebookLM dont la démo durant la Google I/O 2024 montrait les capacités de restitution et de pédagogie. La seconde chez OpenAI qui a bouleversé l’état de l’IA Générative durant 12 jours et qui a notamment amené le partage de vidéo et de captures d’écran pendant les conversations avec Advanced Voice.
Parmi ces douze jours d’annonces on notera GPT-o3, qui rebat les cartes du nouveau domaine des modèles de raisonnement en relevant avec succès le défi ARC-AGI v1, dont le but est de mesurer les capacités de raisonnement par des puzzle de logique graphique faciles à vérifier. Les modèles de raisonnement —dont l’un des premiers représentants Reflection 70B s’est révélé être une fraude— s’appuient sur l’internalisation de requêtes de type Chain-of-Thought. Les réponses significativement plus pointues de ces modèles demandent considérablement plus de ressources de calcul par nature, car le modèle découpe le raisonnement et effectue des prédictions étape par étape avant de produire une réponse cohérente pour l’utilisateur.
Enfin, les développeurs ne sont pas oubliés. Au-delà des capacités offertes pour le grand public, certains auront commencé à partager leur écran avec ChatGPT, expérimenter avec Computer Use de Anthropic ou avec des assistants de code toujours plus pertinents comme Copilot de GitHub qui est désormais gratuit pour un usage limité. Ces capacités continueront d’évoluer à mesure que leurs fondations s’améliorent, peut-être au point de nous remplacer lorsque notre famille nous présentera ses nouveaux problèmes informatiques lors des prochaines fêtes de fin d’année, qui sait.
Néanmoins, nous nous voyons obligés de couper court à l’imagination galopante de nos lecteurs. En effet, Apple a démontré qu’une variation des énoncés ou des fausses pistes peuvent sévèrement impacter la pertinence des modèles. Ajoutons à cela la difficulté d’utiliser des systèmes qui donnent avec assurance des réponses qui peuvent être catastrophiquement mauvaises. De plus, la révolution de l’IA agentique, en capacité de soutenir les usages les plus avancés, est en marche lente ; il n’existe aujourd’hui aucune définition consensuelle des “agents”. L’aspect positif de tout cela, c’est qu’on l’on comprend peu à peu où et comment placer ces outils dans notre jungle numérique ; là où de la technologie non fiable mais puissante peut accélérer les choses. Nous trouvons nécessaire de nous répéter ici : ce sont des accélérateurs, pas des remplaçants.
Terminons sur un constat : certaines communautés tendent à rejeter les modèles de langage à l’image de Hacker News dont les règles ne mentionnent pas directement ces systèmes mais qui indiquent que chaque commentaire doit être plus substantiel à mesure que les discussions avancent. Le New York Times désignait du terme “slop” les contenus aux textes fades et aux images insipides générés par des IA Génératives. Ce même terme était même en lice lors du vote du mot de l’année Oxford. Et étant donné que les organisations entraînant les modèles s’appuient sur de la donnée récupérée depuis internet, il était attendu que la performance des futurs modèles se dégrade et pourtant… cette crainte du “model collapse” ne s’est pas concrétisée, bien au contraire ! Pour preuve, le modèle Llama 3.2 de Meta a été entraîné à partir de Llama 3.1 et de données synthétiques et Llama 3.3 poursuit sur cette lancée.
2024 a été en définitive un excellent millésime d’innovation pour les IA Génératives et les usages qui gravitent autour d’elles. Il est difficile pour nous qui avons tenu la plume de cet article, parcouru documents et annonces, utilisé ces systèmes, de ne pas être enthousiastes à l’idée de ce qu’ils deviendront en 2025. Nous, qui utilisons régulièrement ces outils, avons suivi leur évolution par la compétition et été bluffés par leurs annonces successives. Ainsi, par cette rétrospective, nous espérons avoir pu vous transmettre une fraction de ce maelstrom que nous avons ressenti au cours des douze derniers mois.
~ Anjalie Murthen, Vincenzo Scalzi