Glossaire Data Quality : les termes à connaître pour maîtriser son sujet

Table des matières

Dans ce glossaire, Data Enso revient sur les termes à maîtriser pour lancer le chantier de la Data Quality dès la rentrée !

Address Sanitizing

La vérification postale, parfois appelée Address Sanitizing, consiste à nettoyer et normaliser les bases de données de contact afin que toutes les adresses postales qu’elles contiennent soient fiables et conformes aux référentiels en vigueur. L’envoi d’un colis est à la fois plus coûteux et plus long que l’emailing, ce qui impose aux équipes de s’assurer que les adresses postales sont correctes, à jour et au bon format. En moyenne, les Plis Non Distribués (PND) constituent entre 7 et 10 % de l’ensemble des colis envoyés, avec un coût moyen d’environ 1,80 € par PND. Chaque cadeau, invitation personnalisée, bon de réduction ou produit non délivré impactera l’image de marque, le chiffre d’affaires et la satisfaction client.

Adress Scrubbing

Le nettoyage d’adresse, ou Address Scrubbing, est un process qui consiste à corriger automatiquement les entrées de type « adresse postale » dans les bases de données, que ce soit pour les mettre au format attendu ou pour les enrichir à partir de sources internes ou externes. Les erreurs et les omissions qui touchent les adresses postales présentent un coût plus élevé que les inexactitudes des adresses email pour des raisons évidentes. En règle générale, les entreprises qui réalisent des envois postaux réguliers intègrent une solution de nettoyage d’adresse en mode « back-end » pour identifier et corriger les erreurs avant que les adresses ne soient intégrées dans un process d’expédition ou de facturation, par exemple.

API

L’interface de programmation d’application, plus connue sous le sigle « API » (pour Application Programming Interface), est une interface logicielle qui jour le rôle d’intermédiaire entre deux logiciels ou services pour leur permettre d’échanger des données et des fonctionnalités. Dans le cadre du Data Cleaning, les solutions basées sur la technologie API permettent à l’utilisateur d’accéder à l’ensemble des services via des requêtes préformatées sans toucher au code. Dans certains cas, l’API de Data Cleaning agrège plusieurs services auprès de prestataires différents pour proposer à l’utilisateur une version unifiée, complète et facile à prendre en main.

Back-end adress verification

La vérification d’adresse back-end (ou vérification postale back-end) désigne le processus de correction automatique des grands volumes de données postales en temps réel et donc en amont de toute action pour prévenir les erreurs de facturation ou d’expédition. Les solutions de vérification d’adresse back-end corrigent les erreurs de saisie, signalent les adresses erronées qui ne peuvent pas être corrigées automatiquement et normalisent les adresses postales selon la réglementation locale ou internationale en vigueur. Objectif : limiter les Plis Non Distribués (PND) qui constituent entre 7 et 10 % de l’ensemble des colis envoyés, avec un coût moyen d’environ 1,80 € par PND.

Batch Processing (ou Traitement batch)

Le traitement batch ou Batch Processing désigne le traitement de données en masse ou par lots, par opposition au traitement unitaire ou « record-by-record ». Le Batch Processing est particulièrement plébiscité par les entreprises qui collectent des données massives dont elles ne contrôlent pas la saisie, notamment dans le cadre de campagnes LeadGen ou sur des bases de données de prospection achetées auprès de prestataires spécialisés. La Data Cleaning par batch est un processus automatique (ou semi-automatique) qui intervient généralement en mode curatif. Les avantages sont intéressants (gain de temps, baisse du coût de revient, prévention des erreurs) et les applications nombreuses (facturation mensuelle, données bancaires, bibliothèque d’images, prospection, etc.).

Big Data

Le Big Data, parfois traduit en mégadonnées ou données massives, désigne un ensemble très volumineux de données qui nécessite des traitements parallélisés réalisés par plusieurs machines. De par leur volume, leur vélocité, leur variété et la diversité de leurs sources, ces mégadonnées posent un défi majeur sur toute la chaîne de valeur, depuis la capture à la visualisation en passant par le stockage, la recherche, le partage et l’analyse. Les entreprises qui parviennent à rendre ces mégadonnées intelligibles développent une connaissance approfondie de leur marché et affinent leur segmentation, leur ciblage, leurs efforts publicitaires et leur offre.

Contact Database

La base de données de contact, parfois appelée base de données relationnelle, est un ensemble de coordonnées relatives aux clients actuels ou historiques et aux prospects d’une entreprise. Au cœur des efforts de marketing direct, de prospection commerciale et de Customer Success Management, la base de données de contact est un capital important qui doit être protégé et valorisé. Parce qu’elles sont généralement manipulées par plusieurs agents et/ou logiciels informatiques, les bases de données de contact peuvent présenter des doublons, des inexactitudes, des champs incomplets, des problèmes de format, etc. L’obsolescence, estimée par HubSpot à 22,5 % par an, est également un problème majeur des bases de données relationnelles. Là encore, l’implémentation d’une solution back-end permettra de garantir la fiabilité de la base de données pour déclencher les processus Sales et Marketing en toute sérénité.

Customer Centric

La Customer-Centricity, parfois traduite en centricité client, est un paradigme holistique qui consiste à placer le client au centre de l’activité de l’entreprise pour lui délivrer une expérience positive, personnalisée et satisfaisante dans l’objectif de le fidéliser et/ou d’en faire un ambassadeur de la marque. Selon une étude Bain & Company, une amélioration du taux de fidélisation de 5 % peut se traduire par une augmentation des revenus comprise entre 25 % et 95 %. La notion de centricité client semble avoir remplacé l’expression « orientation client », très courante dans les années 2000 et 2010. Pour activer le levier de la centricité, l’entreprise doit travailler la brique de la « connaissance client » en se basant sur une Data fiable et des analytics poussés.

Data Cleaning

Le Data Cleaning, ou nettoyage des données, est le processus qui consiste à corriger ou supprimer des données incorrectes, corrompues, mal formatées, dupliquées ou incomplètes dans une base de données. Dans certains cas, le Data Cleaning peut également consister à supprimer des données correctes mais inutiles pour réduire le « bruit » lors de la phase décisionnelle ou simplement pour réduire la taille des fichiers. Bien qu’il existe des « bonnes pratiques » en la matière, le Data Cleaning est généralement un processus sur mesure, construit en fonction des caractéristiques de l’ensemble de données à traiter (méthode de collecte, erreurs usuelles, possibilité de se baser sur un dictionnaire, etc.). Le nettoyage des données (suppression des données erronées ou incomplètes) ne doit pas être confondu avec la transformation des données (mappage d’un format brut à un format de stockage ou d’analyse).

Data Enrichment

L’enrichissement des données, ou Data Enrichment, est le processus qui consiste à améliorer une base de données à partir d’autres sources, généralement en complétant les entrées de nouvelles informations. Par exemple, une entrée avec le nom, le prénom et le numéro de téléphone d’un prospect pourra être complétée avec son adresse email en passant par une autre base de données interne ou une source tierce comme LinkedIn, sous réserve du respect de la réglementation en vigueur. Le Data Enrichment concerne généralement des données démographiques (âge, poste occupé, CSP…) et géographiques.

Data Governance

La gouvernance des données, ou Data Governance, englobe le cadre général et les procédures mises en place par l’entreprise pour s’assurer du respect des obligations légales et des règles internes en matière de collecte, de stockage, de partage, d’analyse et d’utilisation des données relatives à l’activité pour en maximiser la valeur business.

Data Management

La gestion des données, ou Data Management, désigne l’ensemble des procédures, techniques, pratiques et outils permettant de collecter, valider, stocker, protéger et traiter les données d’une entreprise pour rationaliser la prise de décision dans le respect de la réglementation en vigueur. La gestion des données exige la maîtrise de langages de programmation (SQL, Python, R, Hadoop, XML, Perl…), d’outils d’analyse et de Business Intelligence, de plateformes Cloud et éventuellement de techniques de Machine Learning.

Data Monitoring

Le Data Monitoring est un processus proactif et continu qui consiste à examiner et surveiller le capital Data de l’entreprise pour s’assurer de la qualité et de la fiabilité des données pour l’utilisation prévue. Le Data Monitoring se base sur un référentiel détaillant les critères de qualité attendus en matière d’exhaustivité, d’uniformité, d’exactitude et d’unicité.

Data Profiling

Le Data Profiling, ou profilage de données, est une discipline voisine de l’analyse des données qui consiste à évaluer l’intégrité des données par une ventilation complète de leurs caractéristiques statistiques comme le nombre d’erreurs, le pourcentage de doublons, les valeurs minimales et maximales, etc. Le Data Profiling est généralement utilisé dans un contexte de migration, d’intégration et de nettoyage des données. Le profilage des données cherche également à mieux comprendre la structure, le contenu, les interrelations entre les données ainsi que les différentes utilisations qui peuvent être faites du capital Data de l’entreprise.

Data Quality

La qualité des données, ou Data Quality, est un indicateur qui mesure l’état d’un ensemble de données selon des critères objectifs comme l’exactitude, la cohérence, la fiabilité, l’unicité ou encore l’exhaustivité. Après la transformation digitale, 65 % des entreprises devraient achever leur transition d’un modèle basé sur l’intuition à un processus entièrement Data-Driven à l’horizon 2026 (Gartner). Elles devront donc déployer des cadres d’opérationnalisation de la Data pour assurer la qualité des données et rationaliser la prise de décision, au risque d’accuser « un retard de compétitivité d’au moins deux ans », explique Gartner.

Déduplication des données

La déduplication des données, parfois abrégée en Dedupe, est une technique informatique qui consiste à factoriser des séquences de données identiques pour économiser l’espace utilisé et prévenir les redondances dans les actions ultérieures (double envoi d’un email ou d’un courrier à un même destinataire, erreurs statistiques, etc.). Lorsqu’elle est réalisée manuellement, la déduplication des données est une tâche répétitive, chronophage et souvent défaillante. Les meilleurs outils de déduplication prennent en charge la déduplication de données massives en fonction de critères personnalisables.

Email jetable

Comme son nom l’indique, l’email jetable fait référence à une messagerie électronique générée à la volée pour une utilisation temporaire, voire unique. Dans le cadre d’une stratégie d’Inbound Marketing, on estime qu’un email sur deux concédé en échange d’une prestation (livre blanc, inscription à un webinar…) est faux ou jetable. De par leur caractère éphémère, les emails jetables viennent polluer les bases de données et impacter la portée et le ROI de vos campagnes emailing. Pire : dans les cas extrêmes, une liste d’envoi gangrénée d’emails jetables pourra conduire votre FAI à blacklister votre nom de domaine.

Logiciel de vérification nom de domaine d’email

Il s’agit d’une solution qui assure la validité des adresses électroniques en analysant les noms de domaine incorrects, inexistants ou jetables dans l’objectif d’améliorer la délivrabilité des campagnes emailing et/ou d’assurer une communication fluide avec les leads et les clients.

Maturity Model

Le modèle de maturité Data est un cadre de référence qui permet aux entreprises d’évaluer le degré de maturité de leur stratégie de gestion des données. Dans le cadre d’un audit de gouvernance des données, le modèle de maturité permettra de visualiser et/ou de noter les process de gestion des données de l’entreprise. A titre d’exemple, le modèle de maturité Data permettra de visualiser des éléments comme l’existence ou non d’un référentiel centralisé, la pertinence des règles de gouvernance, la collaboration entre les différentes entités, la capacité de l’entreprise à générer de l’intelligence collective autour de son capital Data, etc.

Merge/Purge des données

La fonction de Merge ou fusion/purge des données est une fonction courante dans les solutions de Data Management qui consiste à fusionner des enregistrements provenant de différentes sources et d’éliminer les redondances qui peuvent résulter de cette opération. La fonction Merge/purge peut être amenée à créer des enregistrements inédits en combinant les informations contenus dans chaque enregistrement « original ». Par exemple, deux enregistrements peuvent partager le même nom et la même adresse, mais le premier peut contenir le numéro de téléphone et le second l’adresse électronique du contact. La fonction Merge/purge générera un enregistrement qui intègre l’ensemble de ces données.

Obsolescence de la donnée

L’obsolescence de la donnée traduit le phénomène par lequel une donnée perd en fiabilité et donc en valeur d’usage dans le temps, selon le caractère plus ou moins récent de sa collecte ou de sa mise à jour. Dans un contexte Sales et Marketing, la vitesse d’obsolescence de la donnée s’est largement accélérée ces dernières années pour des raisons démographiques et culturelles, notamment avec le turnover accru qui touche un large spectre de postes et de secteurs d’activité. HubSpot estime que les bases de données relationnelles « se dégradent » à hauteur de 22,5 % chaque année.

Phone Verification

La vérification téléphonique, ou Phone Verification, est une technique qui consiste à soumettre les numéros de téléphone à une série d’algorithmes pour vérifier leur existence, valider ou normaliser leur format en accord avec les règles locales et/ou internationales et générer des informations complémentaires avant de les inscrire sur une base de données. Les services de vérification téléphonique permettent de fiabiliser les bases de données à la source pour réduire les taux d’injoignabilité, enrichir l’argumentaire de prospection et optimiser le temps des commerciaux et agents du service client qui n’auront plus à faire du Data Cleaning ad hoc.

Segmentation des données

La segmentation des données est le processus qui consiste à diviser un ensemble de données et à les regrouper en segments selon des paramètres préalablement choisis pour mieux les utiliser dans un cadre marketing, commercial, RH, etc. Les données firmographiques peuvent par exemple être segmentées selon le chiffre d’affaires, l’effectif, le secteur d’activité, la localisation, etc. La segmentation des données permet de personnaliser le discours marketing à l’échelle, d’aller plus loin dans la compréhension du marché ou encore de faciliter l’analyse des données pour identifier de nouvelles opportunités.

Service web de validation d’adresses électroniques

Il s’agit d’un outil utilisé pour valider rapidement (à la volée) des adresses électroniques au point d’entrée, en amont de leur inscription dans une base de données, grâce à une série d’algorithmes qui évaluent leur conformité aux normes d’adressages et à des critères personnalisés.

Single Customer View

La vue client unique, ou Single Customer View, est une représentation consolidée, cohérente et holistique de l’ensemble des données détenues par une entreprise pour chacun de ses clients. Véritable catalyseur de performance, la Single Customer View ne peut être générée sans une politique de Data Quality Management pertinente et un parfait alignement entre les différents services de l’entreprise. Selon une étude Experian, 68 % des entreprises souhaitent mettre en place une vue client unique pour mieux appréhender les attentes de la cible et alimenter la sphère décisionnelle pour performer.