L’analyse des données peut être à la fois difficile et enrichissante. Du nettoyage d’ensembles de données désordonnés à la création de modèles complexes, il y a toujours beaucoup à faire et pas assez de temps pour le faire. Mais que se passerait-il s’il existait un moyen de rationaliser et d’automatiser certaines des tâches les plus routinières, libérant ainsi plus de temps pour la réflexion stratégique et la prise de décision ? C’est là qu’interviennent les LLM.
Les grands modèles de langage (LLM) sont des modèles de langage d’IA qui peuvent aider à un large éventail de tâches de traitement du langage naturel, de la génération de texte à la réponse aux questions. Et il s’avère qu’ils peuvent également être un outil précieux pour les analystes de données. Dans cet article, nous allons explorer certaines des façons dont vous pouvez utiliser les LLM dans votre travail quotidien en tant qu’analyste de données, et vous montrer comment l’IA peut vous aider à travailler plus intelligemment, pas plus dur.
Allons droit au but.
Remarque : ces systèmes ne sont pas (encore) une solution d’analyste de bout en bout qui vous remplacera. Restez à l’écoute de l’espace cependant.
Comment les LLM peuvent aider
Les LLM peuvent agir comme des chatbots alimentés par l’IA qui peuvent aider à rationaliser et à automatiser les tâches liées à l’analyse des données. Grâce à leurs capacités avancées, les LLM peuvent vous aider dans une variété de tâches. Je les ai classés en trois grandes catégories :
- Technique : Cette catégorie comprend certaines des applications les plus courantes qui impliquent généralement du codage, notamment l’écriture de code et de documentation, le nettoyage de données, la réponse à des questions de codage, l’exécution d’analyses de données et la visualisation de données.
- Soft : Cette catégorie couvre les soft-skills qui sont souvent nécessaires pour être un bon analyste de données. L’IA peut aider à rédiger des documents pour communiquer les résultats, à collecter les exigences en matière de données auprès des partenaires et à résumer les notes de réunion.
- Stratégique : Peut-être que la partie la plus précieuse que les analystes de données peuvent offrir est leur réflexion stratégique qui peut également être améliorée avec l’IA. Celles-ci incluent le brainstorming sur les analyses à exécuter, la création de cadres de compréhension larges, l’amélioration et l’itération de votre approche analytique et en tant que partenaire de réflexion général.
Mettre tout cela en pratique peut vous faire gagner beaucoup de temps et d’efforts tout au long de votre carrière d’analyste de données.

Explorons quelques exemples de ceux-ci pour voir à quel point les outils sont puissants et flexibles aujourd’hui.
Exemples d’utilisation des LLM
Cette section contiendra des exemples d’application des LLM. Les exemples sont majoritairement indiqués avec un format différent pour mettre en valeur les réponses, sinon vous risquez de le confondre avec mon écriture !
Tout au long de cet article, lorsque nous inviterons le LLM, nous utiliserons un extrait de l’ ensemble de données de chansons Spotify et Youtube qui comprend les informations de colonne et les 20 premières lignes de l’ensemble de données. À l’avenir, un LLM pourrait avoir un accès direct à l’ensemble de données, ainsi qu’aux réponses au code qu’il exécute sur l’ensemble de données, pour supprimer les limitations d’un si petit échantillon.
Un assistant technique
Les LLM formés sur les bases de code sont des codeurs compétents. Cela signifie qu’ils peuvent facilement résoudre les tâches courantes des analystes de données techniques. Ils peuvent très bien exécuter des tâches qui nécessitent peu de contexte et les tâches techniques tombent plus souvent dans ce seau.
L’une des tâches les plus élémentaires d’un analyste de données consiste à effectuer une analyse exploratoire des données (EDA). Les LLM sont capables d’écrire du code Python capable d’explorer un ensemble de données et de générer les images correspondantes. Le texte entre guillemets suivant contient les réponses renvoyées par un LLM lorsqu’il est invité à effectuer une EDA :
- Lire dans les fichiers csv et afficher des exemples : ”
df = pd.read_csv("filename.csv")
df.head()
“ - Identifiez les colonnes d’intérêt et explorez : “Regroupez les données par artiste et vérifiez le nombre de chansons de chaque artiste.
df.groupby('Artist')['song name'].count()
” - Créez des tracés : “Créez un histogramme de la colonne de danse pour voir la distribution.
plt.hist(df['danceability'], bins=20)
”
Celles-ci sont assez basiques, mais les LLM peuvent être poussés plus loin pour fournir d’autres approches EDA. Dans ce cas, ils sont en mesure d’offrir la détection et le regroupement des valeurs aberrantes comme autres moyens d’explorer les données, entre autres.
Un exemple de la réponse donnée est ci-dessous. En lisant cela, cela pourrait certainement passer pour un travail d’analyste junior, identifiant certaines idées telles que :
“Les valeurs de danse des chansons de Gorillaz sont généralement supérieures à celles des Red Hot Chili Peppers.”
« Les données concernent les chansons de deux artistes, Gorillaz et Red Hot Chili Peppers. Gorillaz a 9 chansons dans les données fournies tandis que Red Hot Chili Peppers a 4 chansons.
Les valeurs de danse et d’énergie des chansons varient considérablement entre 0,559 et 0,938 et 0,345 et 0,938, respectivement. Les valeurs de danse des chansons de Gorillaz sont généralement supérieures à celles des Red Hot Chili Peppers. Les valeurs énergétiques des chansons de Gorillaz ont également tendance à être plus élevées que celles des Red Hot Chili Peppers.
Les tonalités des chansons vont de 1,0 à 11,0, sans motif ou tendance perceptible.
Lors de la création de tableaux, il peut être un peu ennuyeux d’écrire de bonnes descriptions pour les colonnes et le tableau global. Bien qu’il s’agisse d’une bonne pratique, elle est souvent négligée. Les LLM peuvent le faire en devinant le contexte du tableau, ou mieux encore, peuvent les écrire lorsqu’un contexte est fourni.
«Ce tableau semble montrer des informations sur diverses chansons de deux artistes différents – Gorillaz et Red Hot Chili Peppers. Chaque ligne du tableau représente une chanson différente, et il y a 10 colonnes d’informations fournies pour chaque chanson. Voici les descriptions des colonnes :
Index : il s’agit simplement d’un index entier, qui semble être un identifiant unique pour chaque chanson du tableau.
Artiste : cette colonne répertorie l’artiste qui a créé la chanson.
Lien : cette colonne fournit un lien vers la page de l’artiste sur Spotify.
Nom du morceau : cette colonne répertorie le nom du morceau.
Nom de l’album : cette colonne répertorie le nom de l’album sur lequel la chanson apparaît.
Album : cette colonne indique si la ligne représente un album ou un single.
Identifiant source : cette colonne semble être un identifiant unique pour chaque chanson, éventuellement spécifique à Spotify.
Dansabilité : Cette colonne fournit un score de 0 à 1 indiquant dans quelle mesure la chanson convient à la danse.
Énergie : Cette colonne fournit un score de 0 à 1 indiquant le niveau d’énergie de la chanson.
Clé : Cette colonne fournit un nombre de 0 à 11 indiquant la clé musicale de la chanson.
Dans l’ensemble, ce tableau semble être une collection de données sur les chansons, y compris des informations sur l’artiste, l’album et diverses caractéristiques musicales de chaque chanson.
Certaines parties impressionnantes de ces résultats sont que le LLM a examiné les échantillons de données pour déterminer que la colonne “Key” n’est pas une clé pour les lignes, mais la clé musicale de la chanson, et la colonne “Album” décrit si elle est un album ou un single. Un analyste typique ne serait pas en mesure de les deviner simplement en regardant les noms de colonne et devrait perdre du temps à faire l’EDA de base pour déterminer la valeur que la source de données peut fournir – les LLM permettent de gagner du temps.
Aujourd’hui, le principal cas d’utilisation de l’intelligence augmentée dans l’analyse de données est la réponse aux questions techniques par Stack Overflow. Cependant, les LLM sont souvent supérieurs, fournissant le code correct pour votre cas d’utilisation et vos variables spécifiques, ainsi que la possibilité de donner des réponses plus approfondies ou des tutoriels en guise de suivi.
Par exemple, tracer un Wordcloud est quelque chose qui est nécessaire de temps en temps, mais il est difficile de se souvenir de la bibliothèque et du code exacts à utiliser pour en tracer un. Vous pouvez simplement demander à un LLM, et il se fera un plaisir de vous renvoyer le code de travail. L’extrait clé de celui ci-dessous:
# Generate the wordcloud
wordcloud = WordCloud(width = 800, height = 800, background_color ='white', stopwords = set(), min_font_size = 10).generate(wordcloud_text)
J’ai réalisé que cela n’utilisait qu’une liste de mots, mais j’avais un nombre de mots, alors j’ai rapidement suivi “Puis-je utiliser des mots pondérés à la place?” et le LLM a refait le code :
# Generate the wordcloud
wordcloud = WordCloud(width = 800, height = 800, background_color ='white', stopwords = set(), min_font_size = 10).generate_from_frequencies(weighted_words)
Cela n’aurait pas été possible avec Stack Overflow et aurait permis de gagner beaucoup de temps en cherchant sur Google ou en parcourant l’ancien code.
Comme on peut le voir, les LLM sont très compétents pour les questions techniques et peuvent gagner du temps dans le flux de travail d’analyse des données, mais de quoi d’autre sont-ils capables ?
Une approche douce de l’IA
Les compétences non techniques peuvent être négligées en tant qu’exigences pour l’analyse des données, mais elles sont essentielles pour garantir que toute analyse est utile pour l’entreprise.
Tout analyste de données sait que comprendre quelles données les personnes avec qui vous travaillez veulent réellement est l’une des parties les plus difficiles . Cela peut mal tourner à bien des égards, du partenaire faisant une simple erreur dans le nom de quelque chose, à étendre ce qu’il veut dès que vous retournez la première partie, à demander les mauvaises données qui ne soutiennent pas la conclusion qu’il veut faire. En raison de leur nature conversationnelle, les LLM sont excellents pour recueillir les exigences des partenaires. Un exemple de conversation est ci-dessous.
“J’ai besoin que vous extrayiez les derniers numéros d’autocollants animés.
Super, merci pour votre demande ! Juste pour clarifier, quand vous dites “numéros d’autocollants animés”, pouvez-vous s’il vous plaît fournir plus d’informations sur ce que vous entendez exactement par là ?
Vous recherchez des données sur le nombre d’autocollants animés qui ont été créés ? Ou êtes-vous intéressé par les statistiques d’utilisation des autocollants animés, comme le nombre de fois qu’ils ont été visionnés ou téléchargés ?
De plus, pourriez-vous préciser la période qui vous intéresse ? Recherchez-vous des données sur les derniers numéros d’autocollants animés pour un jour, une semaine ou un mois spécifique ? Enfin, souhaitez-vous que je segmente les données de quelque manière que ce soit, par exemple par catégorie d’autocollants ou par groupe démographique d’utilisateurs ? »
En pratique, il peut être difficile de demander à vos partenaires d’abord de discuter avec un LLM, mais les LLM sont utiles pour déterminer s’il y a des choses que vous auriez dû clarifier davantage avant de lancer un projet, et à l’avenir seront intégrées dans solutions d’analyse directement.
Une fois les exigences recueillies et l’analyse effectuée, les résultats doivent être communiqués en retour. Les LLM ont déjà la réputation d’aider les rédacteurs à produire du contenu plus rapidement et de meilleure qualité. De la même manière, un LLM peut aider à préparer des documents résumant le travail d’analyse ou à préparer des présentations. Certaines tâches particulières pour lesquelles les LLM sont utiles sont les introductions et les conclusions de base, ainsi que le résumé du texte.
“Sur la base de cet EDA, le service de recommandation de chansons pourrait envisager d’ajouter plus de chansons Gorillaz à son algorithme de recommandation et donner la priorité aux chansons avec des valeurs de danse et d’énergie plus élevées, car elles semblent être populaires parmi leurs utilisateurs.
Quelques conseils pour utiliser les LLM, mais il y en a beaucoup d’autres et d’autres seront ajoutés au fur et à mesure que nous continuerons à travailler au mieux avec les LLM.
Nous avons maintenant vu comment les LLM peuvent résoudre des tâches techniques et aider à de nombreuses tâches “soft”. C’est déjà très bien pour améliorer le flux de travail d’un analyste, mais pouvons-nous aller plus loin ?
Le Grand Commandement
La réflexion stratégique est l’une des plus hautes valeurs qu’un analyste puisse offrir à une entreprise. Cela peut être amélioré avec des LLM. Certaines des façons d’y parvenir incluent le brainstorming sur les analyses à exécuter, la création de cadres de compréhension larges, l’amélioration et l’itération de votre approche analytique et en tant que partenaire de réflexion général.
Commençons par le remue-méninges. Vous avez peut-être été chargé de la tâche générique de « mieux comprendre vos clients ». Quel genre d’analyses pourriez-vous faire à ce sujet? À quels résultats conduiraient-ils? Idéalement, vous feriez un remue-méninges avec vos pairs, mais ce n’est pas toujours possible, vous pouvez donc faire un remue-méninges avec une IA à la place.
Lorsqu’on nous a demandé quelles analyses nous devrions effectuer pour mieux comprendre nos clients, les résultats comprenaient : “Segmentation de la clientèle, analyse RFM, analyse du panier, analyse du taux de désabonnement, valeur à vie du client”. Avec quelques résultats prévus :
« Les résultats de ces analyses dépendront des informations spécifiques que vous découvrirez. Par exemple, vous découvrirez peut-être que vos clients les plus précieux sont des femmes riches et âgées qui s’intéressent aux articles de cuisine spécialisés. Cela pourrait vous amener à développer davantage de produits ciblés sur ce groupe démographique et à investir dans des campagnes de marketing qui résonnent avec eux. »
C’est un excellent point de départ et cela peut vous assurer de couvrir toutes les lacunes, ce qui peut être difficile lorsque vous travaillez seul. Les LLM peuvent également donner des conseils sur les cadres. Vous vous demandez peut-être comment vous pouvez développer votre entreprise au cours des prochaines années, et comment vous pourriez mesurer cela, eh bien :
« Il existe plusieurs cadres de croissance qui peuvent être utilisés pour comprendre comment augmenter les ventes au cours des trois prochaines années. Voici trois frameworks populaires :
AARRR : Ce cadre signifie Acquisition, Activation, Rétention, Référence et Revenu. Il s’agit d’un cadre en cinq étapes développé par Dave McClure qui est couramment utilisé dans les cercles de démarrage. Le cadre AARRR aide les entreprises à comprendre les différentes étapes du cycle de vie du client et comment optimiser chaque étape pour stimuler la croissance.
RACE : ce cadre signifie Atteindre, Agir, Convertir, Engager. Il s’agit d’un cadre en quatre étapes développé par Smart Insights et axé sur le marketing numérique. Le cadre RACE aide les entreprises à comprendre comment optimiser leurs efforts de marketing numérique pour stimuler la croissance.
3HAG : ce cadre signifie un objectif hautement réalisable sur trois ans. Il s’agit d’un cadre de planification stratégique développé par Shannon Susko qui aide les entreprises à définir et à atteindre des objectifs de croissance ambitieux. Le cadre 3HAG consiste à définir un BHAG (Big Hairy Audacious Goal) puis à le décomposer en objectifs plus petits et réalisables sur une période de trois ans.
Lorsque vous décidez du cadre de croissance à utiliser, il est important de tenir compte de la situation et des objectifs uniques de votre entreprise. AARRR et RACE sont des cadres plus tactiques qui se concentrent sur l’optimisation d’étapes spécifiques du cycle de vie du client ou des efforts de marketing numérique, tandis que 3HAG est un cadre plus stratégique axé sur la définition d’objectifs de croissance ambitieux.
Comme vous pouvez le voir, la réponse est utile et pourrait certainement remplacer une réponse que vous attendez d’un analyste de votre équipe.
Quel LLM utiliser ?
Au moment d’écrire ces lignes, il n’y a vraiment qu’un seul LLM qui peut bien faire toutes les tâches ci-dessus, et c’est ChatGPT d’OpenAI. Il a été le premier à populariser les LLM et reste l’une des offres les plus solides du marché, et est gratuit (avec une option d’abonnement).
Avec le rythme des changements que nous constatons dans l’IA, il est très possible que cela ne soit pas vrai dans quelques mois, il convient donc de noter qu’il existe de nombreux autres concurrents. Par exemple, Google développe son produit, Bard, qui devrait fonctionner de la même manière que ChatGPT. Il existe également de nombreuses alternatives open source à considérer. Bien que ceux-ci ne soient généralement pas de la même qualité, ils devraient continuer à s’améliorer et combler l’écart entre les modèles exploités commercialement.
Conseils pour utiliser efficacement les LLM
Pour tirer le meilleur parti des LLM en tant qu’analyste de données, vous pouvez suivre quelques conseils. Tout d’abord, il est important de fournir des informations claires et spécifiques aux LLM. Cela signifie utiliser un langage approprié, éviter toute ambiguïté et fournir un contexte si nécessaire. De plus, les LLM peuvent fonctionner avec des données structurées et non structurées, il vaut donc la peine d’expérimenter différents formats d’entrée pour voir lequel fonctionne le mieux pour une tâche donnée. Enfin, il est important de se rappeler que les LLM sont un outil et non un substitut à l’analyse humaine. Bien que cela puisse aider à automatiser certaines tâches de routine, il appartient toujours à l’analyste de données d’interpréter les résultats et de prendre des décisions éclairées en fonction des données.
Il existe de nombreux articles, sur la façon de travailler avec les LLM et c’est un domaine d’étude en pleine croissance, alors continuez à apprendre !
Conclusion
En conclusion, les LLM sont un excellent outil pour améliorer l’efficacité de votre travail d’analyse et même pour grandir et apprendre de nouvelles choses. Les LLM peuvent vous aider à résoudre des problèmes techniques, développer des compétences non techniques et améliorer votre réflexion stratégique. Travailler avec l’IA est l’avenir, c’est donc le meilleur moment pour commencer à apprendre à l’intégrer dans votre flux de travail afin de ne pas être laissé pour compte.