Garbage In, Garbage Out (GIGO)

Sandrine Le Cam

Dans le contexte des technologies de l’information, « Garbage In, Garbage Out » (GIGO) est une expression qui illustre que la qualité et la pertinence des résultats d’un programme analytique dépendent essentiellement de la qualité des données d’entrée, même si la précision logique est au rendez-vous. Plus largement, l’expression s’applique à tout système de prise de décision qui se base sur des données collectées en amont.

Une brève histoire du « Garbage In, Garbage Out »…

On retrouve la première occurrence de l’expression Garbage In, Garbage Out (GIGO) dans un article de presse publié par le Times en 1957 qui documentait les applications militaires des mathématiques aux Etats-Unis pendant la Seconde guerre mondiale. « Les ordinateurs ne peuvent pas penser par eux-mêmes : les entrées mal programmées entraînent des sorties défectueuses », expliquait alors William Mellin, spécialiste de l’innovation militaire.

Cette idée rejoint le témoignage de Charles Babbage (XIXè siècle) qui a conçu le tout premier dispositif de calcul programmable : « A deux reprises, on m’a demandé : “Dites-nous M. Babbage, si vous mettez dans la machine des chiffres erronés, est-ce qu’elle peut donner de bonnes réponses ?’”… Je ne suis pas en mesure de comprendre le type de confusion d’idées qui peut mener à une telle question ». Autrement dit : question bête, réponse bête !

En 1969, un documentaire britannique d’une trentaine de minutes s’est intéressé à la manière dont les travailleurs d’une grande entreprise industrielle percevaient le matériel informatique qui venait d’être installé dans leur usine. Malgré un effet « waouh », les interviewés étaient déjà conscients que la machine ne peut pas faire de miracle si elle n’est pas correctement alimentée.

Fort de son côté simple et ludique, le concept GIGO a migré vers d’autres disciplines. La qualité d’un plat gastronomique dépend de la qualité des ingrédients utilisés, la fiabilité d’un essai clinique dépend largement de la précision des données collectées par les chercheurs… tout comme les décisions prises en entreprise !

GIGO : l’importance de l’amont dans un monde Data-Driven

La question de la qualité des données d’entrée prend de l’ampleur à mesure que la Data se démocratise dans l’entreprise. Comme l’explique Gartner, 65 % des entreprises devraient achever leur transition d’un modèle basé sur le flair et l’intuition à un processus entièrement Data-Driven à l’horizon 2026.

Et l’enjeu est de taille, car les structures qui ne justifieront pas d’un cadre efficace de Data Quality d’ici 2024 accuseront un retard de compétitivité d’au moins 2 ans.

Dans le e-commerce, l’intensité concurrentielle est telle que la brique de la « connaissance client » devient l’un des seuls avantages compétitifs. « Des grandes marques comme Procter & Gamble et Unilever investissent dans des analytics sophistiqués pour dominer le e-commerce », explique Mike Black, CMO de Profitero.

Avec la croissance exponentielle de la quantité des données générées et du poids de la Data dans le processus décisionnel, la question de la Data Quality devient cruciale.

La Data Quality pour prévenir le GIGO dans la sphère décisionnelle

Un ensemble de données peut provoquer un GIGO à cause des erreurs intrinsèques (données erronées), mais pas seulement. En effet, des données exactes mais qui ne s’appliquent pas au contexte spécifique peuvent conduire à des décisions biaisées.

Exemple : une entreprise édite un logiciel exclusivement dédié aux développeurs « .Net ». Une erreur se produit dans le processus LeadGen, et le CRM de l’entreprise est alimenté avec une base de données composée de développeurs Java. On demande au CRM d’identifier les leads les plus susceptibles de passer à l’achat sur la base de différents critères : la capacité financière des entreprises, le pouvoir décisionnaire du lead dans la décision d’achat, son besoin et son urgence (modèle « BANT »).

Dans cet exemple, le CRM fera du lead management sur une liste hors cible. L’output sera constitué de leads ayant une bonne capacité financière, ayant l’autorité de décider et affichant un besoin urgent… mais pas pour acheter ce produit en particulier. Le raisonnement est logique, mais l’hypothèse de départ est erronée. C’est un exemple typique d’un GIGO qualitatif.

En somme, il est inutile de consacrer du temps et des ressources à la rationalisation du processus décisionnel si les données d’entrée ne subissent pas une validation rigoureuse en amont. A l’ère de l’explosion du volume de données, l’entreprise devra faire des arbitrages pour identifier les données critiques qui ne « supportent » pas l’erreur.

Noyées dans la masse des données collectées, des approximations sur le nombre de visites d’un site e-commerce ne conduiront vraisemblablement pas à des décisions dramatiques. En revanche, une erreur au niveau de la prise de commande (adresse de livraison, numéro de téléphone…) peut faire perdre une vente et un client à l’entreprise :

Une erreur de 1 % sur les 300 000 clics des visiteurs quotidiens d’un site web représente 3 000 clics. C’est statistiquement insignifiant.
Une erreur de 1 % sur 1 000 commandes représente 10 commandes erronées qui déboucheront sur 10 problèmes de livraison, avec une perte sèche et des clients mécontents.

Des données irréprochables pour des décisions rationnelles

La Data Quality renvoie à l’ensemble des outils, process et techniques qui mesurent la précision et l’utilité d’un ensemble de données en fonction de règles prédéfinies :

L’exactitude des données collectées
Leur unicité (pas de données redondantes)
Leur exhaustivité : toutes les données nécessaires à la décision sont-elles disponibles ?
Leur utilité au regard de la décision attendue
Leur degré de fiabilité
Leur actualité (ou fraîcheur).

Pour aller plus loin...

Pour accompagner les entreprises dans leur transformation Data – Driven, Data Enso a développé des solutions simples et 100 % conformes au RGPD.

Objectif :

Nettoyer et corriger les données existantes grâce à des solutions de batch
Fiabiliser les données collectées et s’assurer de leur véracité (aide à la saisie, correction automatique en temps réel, vérification des emails et des numéros de téléphone)
Enrichir les bases de données
Optimiser les systèmes de collecte.

Découvrez nos solutions et faites de votre capital Data un véritable levier de performance

Secteur e-commerce – bonne pratique de la donnée

Le secteur BtoB