Garbage In, Garbage Out (GIGO)

Table des matières

Dans le contexte des technologies de l’information, « Garbage In, Garbage Out Â» (GIGO) est une expression qui illustre que la qualitĂ© et la pertinence des rĂ©sultats d’un programme analytique dĂ©pendent essentiellement de la qualitĂ© des donnĂ©es d’entrĂ©e, mĂŞme si la prĂ©cision logique est au rendez-vous. Plus largement, l’expression s’applique Ă  tout système de prise de dĂ©cision qui se base sur des donnĂ©es collectĂ©es en amont. 

Une brève histoire du « Garbage In, Garbage Out Â»â€¦

On retrouve la première occurrence de l’expression Garbage In, Garbage Out (GIGO) dans un article de presse publiĂ© par le Times en 1957 qui documentait les applications militaires des mathĂ©matiques aux Etats-Unis pendant la Seconde guerre mondiale. « Les ordinateurs ne peuvent pas penser par eux-mĂŞmes : les entrĂ©es mal programmĂ©es entraĂ®nent des sorties dĂ©fectueuses Â», expliquait alors William Mellin, spĂ©cialiste de l’innovation militaire.

Cette idĂ©e rejoint le tĂ©moignage de Charles Babbage (XIXè siècle) qui a conçu le tout premier dispositif de calcul programmable : « A deux reprises, on m’a demandĂ© : « Dites-nous M. Babbage, si vous mettez dans la machine des chiffres erronĂ©s, est-ce qu’elle peut donner de bonnes rĂ©ponses ?’ »… Je ne suis pas en mesure de comprendre le type de confusion d’idĂ©es qui peut mener Ă  une telle question Â». Autrement dit : question bĂŞte, rĂ©ponse bĂŞte !

En 1969, un documentaire britannique d’une trentaine de minutes s’est intĂ©ressĂ© Ă  la manière dont les travailleurs d’une grande entreprise industrielle percevaient le matĂ©riel informatique qui venait d’être installĂ© dans leur usine. MalgrĂ© un effet « waouh Â», les interviewĂ©s Ă©taient dĂ©jĂ  conscients que la machine ne peut pas faire de miracle si elle n’est pas correctement alimentĂ©e.

Fort de son cĂ´tĂ© simple et ludique, le concept GIGO a migrĂ© vers d’autres disciplines. La qualitĂ© d’un plat gastronomique dĂ©pend de la qualitĂ© des ingrĂ©dients utilisĂ©s, la fiabilitĂ© d’un essai clinique dĂ©pend largement de la prĂ©cision des donnĂ©es collectĂ©es par les chercheurs… tout comme les dĂ©cisions prises en entreprise !

GIGO : l’importance de l’amont dans un monde Data-Driven

La question de la qualité des données d’entrée prend de l’ampleur à mesure que la Data se démocratise dans l’entreprise. Comme l’explique Gartner, 65 % des entreprises devraient achever leur transition d’un modèle basé sur le flair et l’intuition à un processus entièrement Data-Driven à l’horizon 2026

Et l’enjeu est de taille, car les structures qui ne justifieront pas d’un cadre efficace de Data Quality d’ici 2024 accuseront un retard de compétitivité d’au moins 2 ans.

Dans le e-commerce, l’intensitĂ© concurrentielle est telle que la brique de la « connaissance client Â» devient l’un des seuls avantages compĂ©titifs. « Des grandes marques comme Procter & Gamble et Unilever investissent dans des analytics sophistiquĂ©s pour dominer le e-commerce Â», explique Mike Black, CMO de Profitero.

Avec la croissance exponentielle de la quantité des données générées et du poids de la Data dans le processus décisionnel, la question de la Data Quality devient cruciale.

La Data Quality pour prévenir le GIGO dans la sphère décisionnelle

Un ensemble de données peut provoquer un GIGO à cause des erreurs intrinsèques (données erronées), mais pas seulement. En effet, des données exactes mais qui ne s’appliquent pas au contexte spécifique peuvent conduire à des décisions biaisées.

Exemple : une entreprise Ă©dite un logiciel exclusivement dĂ©diĂ© aux dĂ©veloppeurs « .Net Â». Une erreur se produit dans le processus LeadGen, et le CRM de l’entreprise est alimentĂ© avec une base de donnĂ©es composĂ©e de dĂ©veloppeurs Java. On demande au CRM d’identifier les leads les plus susceptibles de passer Ă  l’achat sur la base de diffĂ©rents critères : la capacitĂ© financière des entreprises, le pouvoir dĂ©cisionnaire du lead dans la dĂ©cision d’achat, son besoin et son urgence (modèle « BANT Â»).

Dans cet exemple, le CRM fera du lead management sur une liste hors cible. L’output sera constitué de leads ayant une bonne capacité financière, ayant l’autorité de décider et affichant un besoin urgent… mais pas pour acheter ce produit en particulier. Le raisonnement est logique, mais l’hypothèse de départ est erronée. C’est un exemple typique d’un GIGO qualitatif.

En somme, il est inutile de consacrer du temps et des ressources Ă  la rationalisation du processus dĂ©cisionnel si les donnĂ©es d’entrĂ©e ne subissent pas une validation rigoureuse en amont. A l’ère de l’explosion du volume de donnĂ©es, l’entreprise devra faire des arbitrages pour identifier les donnĂ©es critiques qui ne « supportent Â» pas l’erreur.

NoyĂ©es dans la masse des donnĂ©es collectĂ©es, des approximations sur le nombre de visites d’un site e-commerce ne conduiront vraisemblablement pas Ă  des dĂ©cisions dramatiques. En revanche, une erreur au niveau de la prise de commande (adresse de livraison, numĂ©ro de tĂ©lĂ©phone…) peut faire perdre une vente et un client Ă  l’entreprise :

  • Une erreur de 1 % sur les 300 000 clics des visiteurs quotidiens d’un site web reprĂ©sente 3 000 clics. C’est statistiquement insignifiant.
  • Une erreur de 1 % sur 1 000 commandes reprĂ©sente 10 commandes erronĂ©es qui dĂ©boucheront sur 10 problèmes de livraison, avec une perte sèche et des clients mĂ©contents.

Des données irréprochables pour des décisions rationnelles

La Data Quality renvoie Ă  l’ensemble des outils, process et techniques qui mesurent la prĂ©cision et l’utilitĂ© d’un ensemble de donnĂ©es en fonction de règles prĂ©dĂ©finies :

  • L’exactitude des donnĂ©es collectĂ©es
  • Leur unicitĂ© (pas de donnĂ©es redondantes)
  • Leur exhaustivitĂ© : toutes les donnĂ©es nĂ©cessaires Ă  la dĂ©cision sont-elles disponibles ?
  • Leur utilitĂ© au regard de la dĂ©cision attendue
  • Leur degrĂ© de fiabilitĂ©
  • Leur actualitĂ© (ou fraĂ®cheur).
 
Sandrine Le Cam

Pour aller plus loin...

Pour accompagner les entreprises dans leur transformation Data – Driven, Data Enso a dĂ©veloppĂ© des solutions simples et 100 % conformes au RGPD. 

Objectif :

  • Nettoyer et corriger les donnĂ©es existantes grâce Ă  des solutions de batch
  • Fiabiliser les donnĂ©es collectĂ©es et s’assurer de leur vĂ©racitĂ© (aide Ă  la saisie, correction automatique en temps rĂ©el, vĂ©rification des emails et des numĂ©ros de tĂ©lĂ©phone)
  • Enrichir les bases de donnĂ©es
  • Optimiser les systèmes de collecte.
 

Découvrez nos solutions et faites de votre capital Data un véritable levier de performance