24/11/2015

L'enjeu des Big Data pour la statistique publique

Quelles données ?

Disponibilité croissante de sources de données diverses : quelles opportunités pour la statistique publique ?

De quelles données parle-t-on ?

  • des enregistrements automatiques (tĂ©lĂ©phonie mobile, gĂ©olocalisation, compteurs intelligents, capteurs routiers…)
  • des contenus internet et de rĂ©seaux sociaux
  • des images satellite…

Peuvent Ăªtre comparĂ©es Ă  des donnĂ©es administratives mais plus grosses et/ou moins structurĂ©es et/ou plus variĂ©es.

Pourquoi s'intéresser à ces données ?

Plusieurs intĂ©rĂªts identifiĂ©s :

  • une disponibilitĂ© plus rapide voire immĂ©diate de l'information: rĂ©duction des dĂ©lais de publication
  • une information Ă  une Ă©chelle plus fine : permettrait de produire des statistiques localisĂ©es, sur des sous-populations
  • des mesures objectives pouvant complĂ©ter des dĂ©clarations (temps de transport, dĂ©penses)
  • complĂ©ter le dispositif statistique actuel (comportement sur internet, certains Ă©vènements rares)

Les limitations de ces données.

Il existe toutefois des limitations Ă  leur utilisation :

  • renverse la perspective "classique" de la construction d'un indicateur statistique / aux enquĂªtes statistiques : beaucoup d'informations peu pertinentes
  • problème de reprĂ©sentativitĂ©, donnĂ©es pauvres en caractĂ©ristiques sociodĂ©mographiques, parfois incomplètes ou bruitĂ©es
  • pas de maitrise par le statisticien du processus de gĂ©nĂ©ration des donnĂ©es (changement de format, de contenu)

  • Rq : dĂ©fauts des sources administratives, mais en pire

Les défis liés à l'exploitation de ces sources

Outre les limites propres aux diverses sources de données, leur utilisation en production soulèverait des questions d’ordre :

  • lĂ©gislatif : protection de la vie privĂ©e, accès aux donnĂ©es
  • Ă©conomique : coĂ»ts d'extraction et des traitements indispensables (agrĂ©gation, anonymisation), sensibilitĂ© des donnĂ©es (parts de marchĂ©…) et concurrence (vis-Ă -vis d’acteurs privĂ©s)
  • stabilitĂ© : les sources doivent Ăªtre pĂ©rennes

Les projets en cours en interne

Le projet le plus mature au sein de l'INSEE concerne l'amélioration des indices de prix à la consommation via l'intégration des données de caisses de la grande distribution:

IntĂ©rĂªts :

  • Fonder les publications (IPC, sous-indices, prix moyens) sur un volume d'informations considĂ©rablement accru (prĂ©cision amĂ©liorĂ©e)
  • Publier de nouvelles statistiques plus dĂ©taillĂ©es, c'est-Ă -dire selon une rĂ©solution gĂ©ographique, temporelle renforcĂ©e

Pour ce faire :

  • une convention a Ă©tĂ© Ă©tablie avec de grandes enseignes de la grande distribution (30% du marchĂ©), des flux de donnĂ©es quotidiens alimentent les bases.
  • une plateforme Big Data Ă  Metz est en cours de crĂ©ation afin de se doter des outils nĂ©cessaires pour l'exploitation de ces donnĂ©es
  • une mise en production attendue pour 2019

Les projets en cours en interne

Dans le cadre de travaux plus exploratoires, la division MAEE (département des méthodes statistiques) s'intéresse depuis un an à :

  • l'utilisation de donnĂ©es internet pour amĂ©liorer l'analyse conjoncturelle (dossier de la Note de conjoncture de mars 2015)
  • l'utilisation des donnĂ©es de tĂ©lĂ©phonie mobile pour la statistique publique, collaboration avec Orange et Eurostat (estimation de populations prĂ©sentes, qualification du territoire…)
  • l'acquisition de compĂ©tences pour le traitement de donnĂ©es de formats variĂ©s (donnĂ©es web, textuelles, rĂ©seaux)

L'engagement de l'INSEE dans la réflexion collective

  • Participation Ă  un groupe de rĂ©flexion animĂ© par Eurostat (Task Force Big Data), l'Europe cherchant Ă  :

    • dĂ©velopper une ligne de conduite commune sur ce sujet,
    • dĂ©montrer la faisabilitĂ© de la production d'indicateurs classiques ou nouveaux Ă  l'aide de ces donnĂ©es,
    • faciliter le partage d'information, de connaissance, d'outils et mĂ©thodes entre les instituts.
  • Participation au projet " Big Data " collaboratif organisĂ© par l'UNECE depuis 2014, visant notamment Ă  Ă©valuer le potentiel des sources de donnĂ©es et des logiciels Ă  l'aide d'une plateforme Big Data dĂ©diĂ©e Ă  l'expĂ©rimentation.

Les Big Data, de quoi parle-t-on ?

Datascience et Big Data

Les diffĂ©rents projets Ă©voquĂ©s rĂ©lèvent d'un intĂ©rĂªt rĂ©cent pour des sources de donnĂ©es non utilisĂ©es jusque lĂ . Celles-ci peuvent Ăªtre de nature variĂ©e, structurĂ©es ou non, volumineuses ou non.

Le terme science des données se réfère à l'ensemble des techniques et technologies visant à acquérir des données, les stocker, les traiter, les visualiser et les modéliser.

Au sein de ce champ, les Big Data tiennent une place particulière. En effet, caractérisées par des volumes trop importants pour les logiciels usuels, leur utilisation repose sur un modèle significativement différent.

La transition Big Data

Pour les utiliser, il est donc nécessaire d'adapter son architecture informatique tant matérielle que logicielle, et d'acquérir les compétences nécessaires pour l'utilisation par le statisticien de ces logiciels

Le choix d'intégrer ces données dans un process n'est donc pas neutre.

La manipulation des Big Data impliquant des adaptations en termes organisationnels significatifs, une telle transition de doit Ăªtre motivĂ©e que par des donnĂ©es suffisamment grosses ou dont l'Ă©chantillonnage entraĂ®nerait une perte d'information dommageable

Quand doit-on "passer au Big Data" ?

  • les donnĂ©es sont en grand volume (ce volume continue de croĂ®tre) et/ou toute l'information est utile (classement des pages internet par exemple)
  • les donnĂ©es correspondent Ă  un très grand nombre d'enregistrements et on cherche Ă  calculer des indicateurs par agrĂ©gation ou autres opĂ©rations classiques de requĂªtage de base de donnĂ©es (exemple : indicateurs de mobilitĂ© ou de prĂ©sence calculĂ©s par Orange)
  • les donnĂ©es sont individuelles et dĂ©taillĂ©es et l'on cherche Ă  Ă©tudier des phĂ©nomènes Ă  une granularitĂ© plus fine : frĂ©quence temporelle plus Ă©levĂ©e, prĂ©cision gĂ©ographique plus fine, caractĂ©ristiques individuelles faiblement reprĂ©sentĂ©es (applications en marketing, dĂ©tection des fraudes)

Les technologies du Big Data

Un environnement informatique dédié

En raison de son développement récent (une dizaine d'années), l'écosystème Big Data est encore très largement dominé par les informaticiens.

Un environnement informatique adapté est en effet essentiel à la manipulation de Big Data :

  • une architecture matĂ©rielle sous forme de serveurs/clusters pour gĂ©rer le stockage des fichiers distribuĂ©s (et assurer une rĂ©sistance Ă  la panne)
  • une couche de logiciels pour requĂ©ter ces donnĂ©es en parallèle sur les diffĂ©rents serveurs
  • des librairies d'algorithmes capables d'opĂ©rer des calculs complexes, sur de larges volumes de donnĂ©es, dans un temps raisonnable.

Des clusters

Le passage à l'échelle

Le concept Ă  la base du traitement des Big Data est la distribution des fichiers qui sont trop volumineux pour Ăªtre centralisĂ©s sur une mĂªme machine.

On parle de passage à l'échelle, quand l'ajout de nouveaux serveurs ne remet pas en cause toute l'architecture de stockage ni les implémentations des traitements.

Typiquement, si on veut faire des comptages, on peut distribuer les opérations de comptage sur chaque serveur et ensuite agréger les résulats. L'ajout d'un serveur n'aura pas d'impact significatif. Cette opération passe bien à l'échelle.

Map Reduce

Pour généraliser ce principe à des traitements plus complexe, un mécanisme d'exécution/modèle de programmation simple et relativement générique a été proposé : MapReduce.

Il est implémenté dans plusieurs frameworks (dont le framework open source Hadoop).

MapReduce propose de dĂ©composer l'ensemble des opĂ©rations Ă  rĂ©aliser en deux types de tĂ¢ches Ă©lĂ©mentaires et uniformes, les Map et les Reduce.

Chaque donnĂ©e passe d'abord par une tĂ¢che Map et ensuite, transformĂ©e par celle-ci, Ă©ventuellement par une tĂ¢che Reduce.

Map Reduce

Par exemple, la multiplication d'une grande matrice x vecteur \(y=M \times x\) oĂ¹ \(y_i=\sum^n_{j=1} m_{ij}x_j\)

Limites

Ce mécanisme est assez contraignant.

  • Le mĂ©canisme de reprise sur panne impose le stockage des rĂ©sultats des opĂ©rations Reduce, mĂªme lorsqu'ils ne sont qu'intermĂ©diaires.

  • En particulier, lorsque les algorithmes rencontrĂ©s sont itĂ©ratifs, les opĂ©rations des Map et Reduce doivent Ăªtre dĂ©finies dans le cadre d'une mĂªme itĂ©ration, et les rĂ©sultats doivent Ăªtre stockĂ©s pour Ăªtre repris dans l'itĂ©ration suivante.

    • Ces nombreuses Ă©critures et lectures engendrent un ralentissement significatif.

Spark

La solution de Spark (2009) est de conserver les rĂ©sultats intermĂ©diaires dans la mĂ©moire vive des nÅ“uds de calcul et de garder l'historique des opĂ©rations ayant permis d'obtenir ces donnĂ©es. En cas de panne, l'historique permet de recalculer les donnĂ©es perdues.

L'impact sur les algorithmes itĂ©ratifs est très sigificatif, une accĂ©lĂ©ration de 10 fois peut Ăªtre observĂ©e.

Des formats de données hétérogènes

La gestion de données sans format prédéfini ou avec des formats très spécifiques fait également appel à des briques technologiques ou services dédiés.

SGBD Cassandra, MongoDB, bases de donnĂ©es orientĂ©es graphe, moteur de recherche Elasticsearch, logiciels de visualisation…

Les statisticiens doivent-ils devenir informaticiens ?

  • Il est vrai qu'aujourd'hui ces technologies ne sont pas matures :

    • des traitements statistiques basiques ne sont pas encore implĂ©mentĂ©s et nĂ©cessitent donc d'Ăªtre reprogrammĂ©s (ex rhadoop)…

    • Certains logiciels ont encore des interfaces peu conviviales pour certains nĂ©cessitant l'apprentissage de langages (java, scala),

    • les logiciels tournent en gĂ©nĂ©ral sur des serveurs dont le système d'exploitation est Linux,

  • Mais, de nouvelles versions sortent très rĂ©gulièrement et des connections avec Python, et R se dĂ©veloppent. Il est probable que d'ici quelques temps, l'utilisation de ces logiciels soit transparente pour le statisticien.

Maîtriser son environnement

Le sujet n'est donc pas tant la formation du statisticien Ă  de nouveaux langages de programmation, mais sa familiarisation avec son outillage informatique :

  • l'Ă©cosystème des logiciels : de nombreuses solutions concurrentes se dĂ©veloppent avec leurs forces et leurs faiblesses, en fonction des besoins, il faut pouvoir s'adapter
  • le stockage distribuĂ© (par exemple pour les sĂ©ries temporelles) et la parallĂ©lisation d'un traitement statistique en termes d'approximation (calcul de mĂ©diane, recours plus frĂ©quent Ă  l'optimisation numĂ©rique…)
  • les limites des outils (mĂªme une architecture Big Data peut prĂ©senter des limites dans l'application d'algorithmes en termes de temps de calcul et tous les algorithmes ne passent pas Ă  l'Ă©chelle)

En résumé

La manipulation des Big Data, ou de nombreuses sources de données diverses et variées, doit finalement requérir :

  • que le statisticien et l'informaticien travaillent en bonne intelligence, ce dernier pouvant Ă©galement aider le premier Ă  s'approprier un logiciel rapidement, Ă  acquĂ©rir des donnĂ©es de format variĂ© et hĂ©tĂ©rogène, Ă  se familiariser avec des technologies web si besoin…

  • que le statisticien soit flexible : capable d'Ă©largir sa boĂ®te Ă  outils (nouveaux langages Ă©ventuellement, nouveaux logiciels, optimisation numĂ©rique et machine learning peuvent Ăªtre un plus si non dĂ©ja maĂ®trisĂ©s…)

Statistiques et Big Data

Quel impact sur les méthodes statistiques

Les grosses données peuvent générer des difficultés pour la modélisation, la prédiction, l'interprétation, la visualisation..

Des problèmes classiques comme l'inversion de matrices nĂ©cessaires au calcul d'estimateurs, l'Ă©chantillonnage… doivent Ăªtre repensĂ©s en prenant en compte la prĂ©cision statistique et le temps de calcul (parfois au niveau de l'algorithme, parfois au niveau mĂ©thodologique par exemple les random projections).

Inversement, la présence de nombreuses observations et/ou variables donne l'opportunité d'explorer plus avant des techniques non paramétriques, non linéaires, avec une meilleure prise en compte de l'hétérogénéité.

S'agissant des techniques de prédiction, Big Data et machine learning sont souvent associés, pourquoi ?

Le machine learning, qu'est-ce que c'est ?

Une discipline qui n'est pourtant pas nouvelle, mais qui revient en avant avec les progrès technologiques permettant de manipuler un grand nombre de données dans un temps raisonnable.

On parle en gĂ©nĂ©ral des algorithmes suivants : rĂ©gression pĂ©nalisĂ©e, arbres de classification et ensemble d'arbres (forĂªts alĂ©atoires, bagging, boosting), rĂ©seaux de neurones, svm, classifieurs bayĂ©siens naĂ¯fs…

Ces techniques sont surtout utilisées en prédiction et reposent sur l'automatisation la sélection de modèles, ce qui est particulièrement intéressant lorsque l'on dispose d'un grand nombre d'observations mais surtout de nombreuses variables.

Le machine learning, qu'est-ce que c'est ?

L'apprentissage automatique ou Machine Learning se distingue de l'Ă©conomĂ©trie traditionnelle dans le sens oĂ¹ son application est plus systĂ©matique et repose sur la minimisation d'un critère.

Elle s'embarrasse assez peu de formalisation thĂ©orique : - ni en amont avec des hypothèses - ni en aval avec des tests, calcul d'intervalles de confiance…

Les limites de l'automatisation

Le principal risque provient de l'interprĂ©tabilitĂ© limitĂ©e de ces approches…

  • on parle souvent de boĂ®te noire, certaines mĂ©thodes n'offrent aucun moyen de mesurer l'influence des variables

  • Lorsqu'on peut les calculer, les pvalue ne sont pas forcĂ©ment interprĂ©tables, les variables peuvent Ăªtre plus facilement significatives compte tenu du nombre Ă©levĂ© d'observations.

  • les mĂ©thodes ne gèrent pas systĂ©matiquement les problèmes d'endogĂ©nĂ©itĂ©, de multicolinĂ©aritĂ©, la significativitĂ© d'une variable n'implique pas la causalitĂ©….

Les limites de l'automatisation

… pouvant entraĂ®ner une mauvaise spĂ©cification des modèles.

  • Le fait de disposer d'un grand nombre de variables peut gĂ©nĂ©rer un bruit dans la modĂ©lisation, surtout si on pense qu'en rĂ©alitĂ© seul un petit nombre d'entre elles jouent un rĂ´le (parcimonie)

  • Plus on prend en compte de variables ou de paramètres, plus on est capable de produire un ajustement parfait du phĂ©nomène Ă©tudiĂ©, sans que cela n'assure de bonnes performances en prĂ©vision (surapprentissage)

  • mĂªme lorsque l'on sĂ©lectionne des variables pour rĂ©duire la dimension, il y a des risques Ă  l'automatisation complète (exemple d'une procĂ©dure automatique de variables sur la base de corrĂ©lations empiriques : il est probable d'observer des corrĂ©lations artificielles/fortuites d'autant plus qu'on dispose d'un très grand nombre de variables)…

Exemple : les régressions polynomiales

Quelques solutions

  • La pĂ©nalisation de la complexitĂ© du modèle (exemple : le degrĂ© du polynĂ´me)
  • l'utilisation de jeux de donnĂ©es distinct pour l'estimation et la validation (voire de la validation croisĂ©e)

Google Flu, prĂ©voir la grippe grĂ¢ce aux fans de basket

Mais ces solutions ne suffisent pas à évacuer complètement des questions standards comme celle de la causalité et du rôle joué par les variables dans les modèles : exemple avec Google Flu.

En 2008, Google produit un indicateur avancĂ© de l'Ă©pidĂ©mie de grippe Ă  partir des requĂªtes des utilisateurs du moteurs de recherche.

Intuitivement, il est crĂ©dible de penser que les requĂªtes du moteur de recherche Google peuvent Ăªtre porteuses d'information (comportement d'achats par exemple, recherche d'emploi).

De plus, ces données sont séduisantes car disponibles quasiment en temps réel.

Google Flu, prĂ©voir la grippe grĂ¢ce aux fans de basket

A l'origine, cet indicateur s'avère assez performant.

Cependant, parmi les milliers de variables intégrées dans la construction de cet indicateur en raison de leur forte corrélation avec l'indicateur officiel, un certain nombre l'ont été de façon abusive et ont, par conséquent, participé à détériorer les performances de l'indicateur.

En résumé

En dépit de leur médiatisation actuelle, ces techniques ne constituent pas des solutions miracle, pertinentes pour tous les problèmes.

Elles n'en restent pas moins très populaires dans certains secteurs tels que le marketing (système de recommandation), le web (classement des pages, identification des images, reconnaissance faciale…), gĂ©nĂ©tique…

… elle peuvent s'avĂ©rer intĂ©ressantes pour nous dans des domaines d'application ciblĂ©s (classification, prĂ©vision macroĂ©conomique, imputation, outlier detection…).

Mais une utilisation plus large de ces mĂ©thodes en lien avec l'Ă©conomĂ©trie et l'infĂ©rence causale devra Ăªtre davantage encadrĂ©e (recherche active sur ces sujets).

Conclusion

En conclusion

Il n'y a pas de définition claire des Big Data mais ce sont d'abord des données massives, ou plus largement de nature variée plus ou moins structurée.

Lorsqu'elles sont vraiment volumineuse, la manipulation de ces donnĂ©es peut nĂ©cessiter un environnement informatique, une organisation et des compĂ©tences multiples. Investir ce champ n'est donc pas toujours neutre et doit Ăªtre bien pesĂ© dans un environnement en Ă©volution permanente.

Sur le plan statistique, un certain nombre de reflexes doivent Ăªtre repensĂ©s, mais l'abondance de variables ou d'observations ne doit pas encourager l'utilisation systĂ©matique de protocoles complètement automatisĂ©s.

Des questions ?