| |
|
|
| |
Comment extraire des pépites de connaissance
(« nuggets ») à partir de l’information client.
Comment fouiller, « forer » véritablement les
données (sens étymologique du mot datamining) pour essayer
de détecter selon le cas des régularités, des associations,
des relations ou des dimensions cachées au sein du gisement
de données de la base ?
Notre méga base était un embryon de
data-warehouse qui s’ignorait, et j’entrais pendant quelques
temps dans l’ivresse des algorithmes d’apprentissage (réseaux
neuronaux, cartes de Kohonen
[13] ) de classification [K-means [14] , etc.] pour « torturer »
et faire parler mes données à des fins de marketing prédictif
par exemple.
L’objectif eût été à terme non plus
de travailler sur les membres d’une communauté utilisatrice
de fonctionnalités gratuites (Chat, Webmail) mais sur
de vrais clients dans le cadre d’une offre « monétisée» :
|
|

Figure 1 : L'entonnoir de l'information
(Yann A Gourvennec, Information tracking in the information
age (revisited)
[12]
|
-
Prévention de l’attrition client (churn),
-
Développement de ventes croisées (up-selling) avec nos partenaires
commerciaux,
-
Personnalisation de programmes relationnels (Loyalty program...),
-
Exploitation / optimisation du multicanal (Webmail, web, SMS…),
-
Mesure et optimisation de la rentabilité (ROI) des actions
marketing (emailing, e-pub.
Je me rendis vite compte que s’il n’existait
pas un véritable projet datamining, une pensée de la connaissance
client, comprise, portée et expliquée aux utilisateurs par des
dirigeants convaincus et convaincants, tout cela demeurerait
très expérimental et n’avancerait pas. N’oublions pas que le
recours aux algorithmes et aux fonctionnalités des logiciels
n’est pas une fin en soi et qu’il
-
existe un cercle vertueux du datamining :
-
Identifier le domaine d’étude (Objectifs de la recherche),
-
Préparer les données (70 % du temps passé),
-
Agir sur la base de données (techniques et algorithmes),
-
Evaluer les actions et optimiser (récursivité).
La démarche est incrémentale, itérative et
récursive permettant d’affiner et d’ajuster progressivement
le système. Quant à la préparation des données elle est naturellement
chronophage car très logiquement déterminante :
-
Codage, format et cohérence des données en amont (référentiel,
dictionnaire),
-
Données manquantes (suppression ? Regroupement ?
Substitution ?),
-
Combinaison de variables, variables précalculées, etc.
On comprend donc pourquoi la notion de projet prenait tout
son sens et nécessitait à mon sens une forte mobilisation à
moyen et long terme, notion quelque peu mise de côté en ces
années de vision « court-termiste » et de pratiques
opportunistes que l’on pourrait décrire comme du « surfing
management ». C’est ainsi que nous utilisâmes une solution
logicielle au nom fruité [15] pour faire tourner
nos fameux algorithmes, l’application nous était gracieusement
prêtée à l’essai mais se révéla pour nos décideurs quelque peu
surdimensionnée eu égard à nos besoins (ce qui n’était pas ma
conviction en dehors des problèmes de coûts). Au delà de l’outil
qui peut être ou ne pas être convaincant selon des critères
très factuels et rationnels (coût, performance, technicité...)
on réalise qu’il y à là un véritable problème, presque épistémologique
de « connaissance de la connaissance », voire de culture
et de vision distanciée pour « penser » encore une
fois « la connaissance client ».
Mon doux rêve de franchir une étape supplémentaire
demeura donc à l’état de « Data Workshop ».
|
|
| |
La collecte en ligne de données,
une question d’alibis
Les données déclaratives des internautes qui s’inscrivent
sur un site deviennent pour certaines variables rapidement
obsolètes pour peu qu’on ne les actualise pas et qu’on
n’en vérifie pas la pertinence. De plus les données
les plus dynamiques et porteuses de sens demeurent les
données comportementales.
Elles peuvent faire l'objet d'indicateurs (non exhaustifs)
dont l'utilité varie selon les sites (sites de collecte
de données marketing, sites d'e-commerce, sites Corporate,
etc.) , dont l'objet est aussi de corriger les dysfonctionnements
du site.
|
|

“ Sur des sites à fort trafic
le recours à des solutions de Web datamining devient nécessaire
si l'on souhaite croiser les données de profils déclaratifs
et de comportements historisés ”
|
Ce n'était pas forcément la priorité, trois ou quatre chiffres
de bases intéressaient les décideurs, ceux qui permettaient
de se comparer aux concurrents, de s'auto-contempler dans les
« clic parades » officiels, de communiquer dans la
presse spécialisée, etc. Il s'agissait de faire du chiffre point.
On imagine donc combien les enseignements
issus des comportements clients passaient inaperçus et pourtant
les quelques indicateurs suivants étaient déjà riches d'enseignements
:
-
Origine de la visite (sites partenaires, moteurs/annuaires,
clics sur e-pub, campagne emailing, …),
-
Type de pages vues, zones visitées (notion de zones chaudes,
zones froides comme en distribution, zone de décrochage, …),
-
Exhaustivité de la visite (nombre pages vues / nombre total
de pages), couverture (zones thématiques ou rubriques visitées/total
rubriques),
-
Récence (dernière visite), fréquence des visites, montants
en volume (pages visités, temps passé), montants en valeur
(cas des sites transactionnels),
-
Taux de transformation ou taux d'abandon sur les sites comprenant
des formulaires d'informations ou de transaction,
-
Chemin critique de navigation (l'internaute suit-il un parcours-type
et récurrent),
-
Tout indicateurs (en valeur absolue, en % et en variation)
de statistiques descriptives calculables sur ces données
|
|
| |
Lire la IIIème
partie
|
|
|
|