Computer Museum
Musée de l'Informatique Pionnière en Belgique

▲ NAM-IP/Infos

NAM-IP Infos 2017/3 – Recherche
Big data ou Mégadonnées. Une introduction à ce concept

 Une petite histoire pour mieux faire comprendre le concept

 - Allo ? Pizza Domino’s ?

 - Non Monsieur, Google-Pizza à votre service!

- Oh, excusez-moi, j’ai dû former un mauvais numéro.

 - Pas du tout, Monsieur, mais nous avons racheté Domino’s Pizza!? 

- …bon ben, pouvez-vous prendre ma commande?

- Certainement!

- Une quatre saisons comme d’habitude?

- Ah ? vous savez cela, bon, ben…

- Avec le supplément petite salade joint? Vous aviez essayé.

- Oui, j’avais une fois essayé. Mais je n’aime pas fort les légumes.

- C’est vraiment dommage: votre taux de cholestérol est assez élevé.

- Milliards! Comment savez-vous cela?

- Simple, Monsieur: le Dossier Médical Généralisé.

- Mais c’est réservé aux médecins et aux cliniques, cela!

- Vous avez raison. Mais nous avons installé une Google Kliniek; une clinique dans le “cloud”, ne le saviez-vous pas? C’est visible sur tous les médias numériques.

- Allez, ça va, mais je n’ai pas besoin de votre complément alimentaire.

- A votre service, Monsieur. Nous vous signalons toutefois que vous n’avez plus commandé de vitamine C depuis 6 mois dans aucune pharmacie.

- Hé ho! Vous avez racheté toutes les pharmacies de Belgique?

- Non, non, du moins pas encore, cher Monsieur! Mais nous sommes partenaires avec votre société de cartes de crédit et cartes bancaires! Simple analyse de vos achats, pour votre santé et votre bien-être!

- Là c’est raté, j’ai payé cash!

- Excusez-moi, d’après vos relevés de compte bancaires, vous n’avez plus tiré du cash depuis 6 mois.

- Ben non, pas besoin, j’ai une autre source de cash!

- Nous allons rester discrets là-dessus, cher Monsieur. N’oubliez cependant pas que toutes les informations financières sont transmises au SPF Finance.

- Bande de Bachibouzouks! On est espionné de partout dans nos pays avec toutes ces technologies de m…! Alors, c’est décidé, je prends demain un avion pour une île du Pacifique! Tranquille!

- Comme vous voulez, Monsieur. Attention, la date de validité de votre visa pour l’espace hors Schengen a expiré. Je vous fais livrer la pizza à quelle heure?

On peut maintenant passer à une définition

Big data ou Mégadonnées désignent des très importants ensembles de données, terriblement vastes, de nature très variée et souvent redondants. Ces ensembles ne peuvent plus être traités par les outils classiques de gestion des bases de données.

Par données, on entend ici tout ce qui est ou peut être numérisé, quel que soit sa nature: textes, images, tableaux, cartes, sons et musiques, vidéos. On y trouve bien sûr des mesures de tout type, dont toutes celles transmises par satellite, etc.

Un jour pas si lointain, des fragrances et des odeurs s’y retrouveront.

On ne peut plus séparer les Mégadonnées de leur mode d’exploitation: l’Intelligence Artificielle. Leur combinaison ouvre chaque jour de nouveaux champs d’application.

Graphique de l’évolution historique

Le concept de “Big Data” est né avec l’apparition de possibilités de stockage dépassant largement l’exaoctet (le milliard de milliards d’octets). Les premières applications qui ont touché le grand public furent les moteurs de recherche multicritères au service des internautes mais aussi du marketing (ciblage des profils des internautes et des consommateurs). Mais depuis 2002, d’autres applications ne cessent de naître et de s’étendre à un rythme exponentiel.

Des applications en plein développement

• Les services météorologiques qui exploitent les données transmises par les stations de mesure et les satellites.

• Les services de renseignements et de sécurité qui exploitent des données transmises par tous les objets connectés: lecteurs de cartes à puces, lecteurs de données biométriques, scanners, vidéos de surveillance.

• Les industries: aéronautiques et de l’espace pour l’analyse de masses de données de mesure.

 • La gestion des entreprises par l’exploitation des données à des fins de recherche ou pour réaliser des prévisions basées sur l’analyse du passé, souvent à travers des stockages de données dans le “cloud”!.

• La recherche scientifique dans un très large spectre d’applications: physique des particules, astronomie, biologie, etc.

Les problèmes

J’en souligne quatre types, mais il y en a d’autres:

• La croissance exponentielle des bases de données, due au fait que tout s’accumule et rien ou très peu ne s’efface. On voit apparaître la barre des zetaoctets (Mille milliards de milliards d’octets) pour avant 2020! Ceci entraîne une multiplication de méga-centres informatiques.

• La véracité des données stockées, ou des conclusions (qui peuvent être biaisées par des interrogations tendancieuses déduites de ces données).

• Une atteinte indiscutable à la vie privée des personnes.

• La puissance des ordinateurs. Les algorithmes de recherche, quoique devenus extrêmement performants, ne suffisent parfois pas encore à donner des temps de réponse courts lors de recherches multicritères dans d’immenses bases de données.

Le futur

Depuis le début des années 2010, d’intenses recherches sont menées pour obtenir des superordinateurs qui vont atteindre les 1.000 Pétaflops (un million de milliards d’instructions par seconde), contre une centaine de Peta maximum en 2016.

Des recherches sont aussi menées pour mettre au point des calculateurs quantiques d’une taille suffisante. Sans entrer dans les explications, ces ordinateurs permettent d’utiliser de nouveaux algorithmes. En effet, ces calculateurs ne fonctionnent plus sur base de bits, mais de Qubits. Un Qubit peut prendre en compte un ensemble de valeurs statistiques.

Sur base de cela, ces calculateurs sont particulièrement bien adaptés à la recherche d’un élément dans une base de données non structurée. Un exemple ou deux caractéristiques: recherche des données d’un abonné du téléphone dans un annuaire sur base du seul n° de téléphone; ou le décryptage d’un ADN.

 Du côté des réseaux Internet, le flux de données ne fait qu’augmenter. De nouvelles normes existent pour accélérer le flux d’information dans les réseaux. Mais ces normes sont incompatibles avec les normes actuelles. D’où la lenteur de leur mise en œuvre, et le risque accru de saturation des réseaux.

Gilbert Natan

Pour en savoir plus
(liens valables au moment de la publication de cet article)

fr.wikipedia.org/wiki/Big_data
www.futura-sciences.com/tech/definitions/informatique-big-data-15028/
cercle.institut-pandore.com/physique-quantique/informatique-ordinateur-quantique/
documents.epfl.ch/groups/i/ip/ipg/www/2011-2012/Traitement_Quantique_de_l_Information_II/algorithme_de_grover.pdf