Comment le web de données change-t-il la nature de la toile ?

Caroline Goulard, le 24 novembre 2010 à 15:16

En rendant les contenus du web lisibles par les machines, le web sémantique bouleverse notre univers informationnel et ouvre de nouvelles opportunités propres à redéfinir la nature du Web : d’un web de document à un web de données.

(ce billet est issue d’une note de synthèse, réalisée dans le cadre de mes activités universitaires. Il s’agit d’un bilan de lecture autour du web de données. Il m’a semblé intéressant de le republier ici pour solliciter l’avis des connaisseurs de ce sujet, et ouvrir le débat)


1. Croissance exponentielle du volume et de la valeur des données : le terreau d’éclosion du web de données

A peine avons-nous commencé à explorer les nouveaux modèles d’affaires du Web 2.0 que déjà se profile un nouveau paradigme prometteur : le web de données.

Les applications du Web 2.0 reposent de plus en plus sur la gestion, l’analyse et l’exploitation des massives quantités de données issues des UGC. Les données sont devenues de  nouveaux vecteurs d’avantages concurrentiel, le nouvel « Intel Inside » selon  l’expression de Tim O’Reilly.

Avec l’évolution des usages numériques - internet des objets, internet mobile, temps réel, informatique ubiquitaire – les données ne sont désormais plus uniquement collectées par les internautes mais aussi par les capteurs, en temps réel : les puces RFID de nos objets, les caméras urbaines, les fonctionnalités sensitives de nos smartphones, etc. Nos téléphones savent par exemple où nous sommes et à quel moment. Ils deviennent ainsi capables d’automatiser certaines opérations :  étiqueter des photos ou des messages, par exemple, en y associant automatiquement des métadonnées.

Nos historiques de navigation sont enregistrés, tous comme nos requêtes sur des applications tierces, et l’immense champ des flux de données plus ou moins bien structurés. Cette hypermnésie du numérique génère des ombres informationnelles de plus en plus longues, procurant toujours plus de matière à l’analyse statistique.

Les croisements de ces masses de valeurs génèrent également de nouvelles données, souvent dynamiques, injectant ainsi de l’intelligence dans nos objets et applications numériques. Les données transforment notre rapport à l’information en rendant le monde et notre quotidien, traçables et appréhensibles par des données de plus en plus riches. Hubert Guillaud sur InternetActu désigne ce phénomène comme l’ « intelligence des données » : un univers de données abondantes et accessibles, qu’il est possible de reconfigurer et de recombiner de plus en plus facilement pour en dégager de nouvelles analyses, de l’information à la granularité infinie, des mashups ou des services innovants.  L’intelligence des données n’annonce pas seulement de nouveaux outils, mais change nos pratiques et notre rapport au monde.

2. A quoi sert le web de données ? A faire face au déluge informationnel en connectant les données

Notre capacité à générer des données croit beaucoup plus vite que notre capacité à appréhender ces données, alimentant ainsi des phénomènes d’infobésité. Nous avons de plus en plus de difficultés à trouver l’information que nous cherchons. Voilà pourquoi nous devons enseigner aux machines un niveau supérieur de compréhension, afin qu’elles nous aident à traiter la masse colossale de données à laquelle nous sommes confrontés.

Pour le moment, les machines n’accèdent pas au sens des contenus, d’un tweet, d’une photo, d’une critique de restaurant ou d’un statut Facebook. Elles peinent nous renvoyer l’information située croisement de ces sources. Par exemple, les ordinateurs ne peuvent actuellement pas répondre à la question : « où partir pour les vacances, si j’ai 3 000 euros de budget, un enfant de 11 ans et souhaite voyager dans un endroit chaud ? ». Les données nécessaires pour résoudre l’équation sont dispersées entre plusieurs bases fermées qui ne communiquent pas entre elles.

Certains services web (comme Twitter ou Facebook) autorisent aujourd’hui l’accès à leurs données fermées via des API, mais cette manière d’interroger une base de données manque d’universalité. En effet, chaque site possède ses propres API, qu’il peut faire évoluer à son gré, précarisant ainsi la construction d’applications autour de ses données.

Le web de données entend répondre à ce besoin d’information structurée, ouverte et sémantisée : il permet de relier de façon stable les données enfouies dans des sources distantes. Le web de données accompagne la transition d’un  web de documents liés, à un web de données liées. Il rend l’information véhiculée sur le web aussi aisément lisible et exploitable par les machines que par les humains. Il transforme notre univers de recherche en permettant aux machines d’accomplir des tâches de requête, de croisement et de partage de l’information sans se heurter aux spécificités de structuration de chaque base de données. En créant des réseaux d’information à partir de données fragmentées, il produit de la connaissance et aide à filtrer l’ « information overload ».

information overload ("seven months" by dylanroscover)

3. Web sémantique et données liées : les deux piliers du web de données

Pour favoriser l’émergence de ce web de données, le W3C a promu deux initiatives facilitant l’exploitation de données structurées : le web sémantique et les données liées (ou linked data).

Le web sémantique a été proposé en 2001 par Tim Berners Lee. Il désigne un ensemble de standards pour ajouter des métadonnées aux ressources existantes afin de décrire chaque brique d’information et de formaliser les relations entre elles.

En effet, dans le web ordinaire, les ressources peuvent être liées par des liens hypertextes, mais ces liens ne sont pas typés, ils n’expriment pas la nature de la relation entre les deux ressources.  Le web sémantique permet de relier des ressources typées (par exemple : un être humain, une ville, une date, etc.), par des relations elles aussi typées (par exemple : est né le, est le fils de, est la ville de naissance de, etc.). Pour cela il s’appuie sur des taxonomies, des listes de valeurs hiérarchisées servant à décrire des ressources, et des ontologies, des définitions des relations pouvant exister entre deux ressources. En philosophie, le terme ontologie désigne l’étude de qu’est l’être, son essence, ce qui le définit. En informatique, l’ontologie présente la structuration des concepts donnant du sens à un champ d’information. FOAF (friend of a friend) est ainsi une ontologie décrivant les personnes et leurs relations sociales ; Dublin Core est l’ontologie orchestrant la description de documents. Le W3C recommande l’usage du langage OWL, un vocabulaire XML basé sur RDF, pour décrire les ontologies.

Le web semantique présente l’information sous forme de triplets constitués d’un sujet, d’un prédicat et d’un objet. Par exemple, « Marcel Proust est né à Auteuil » est un triplet où « Marcel Proust » est le sujet, « est né à » est le prédicat, et « Auteuil » est l’objet. Le RDF est un ensemble de spécifications permettant de formaliser les ressources et leurs relations via des  métadonnées, de façon à ce qu’elles soient lisibles par les machines. Présenter l’information par triplet fait partie des consignes RDF.

Enfin, chaque ressource et chaque triplet doivent être identifiés par une adresse URI propre, un identifiant permanent.

Les technologies du web sémantique permettent ainsi de restituer, en même temps que les données, la structure des données, sous forme de ressources associées entre elles. L’architecture d’une base de données est ainsi maintenue lorsque les données sont réutilisées.

En s’appuyant sur les bonnes pratiques promues par le web sémantique, l’initiative des données liées (Linked Data) sort les données de leurs silos et encourage  la construction d’un réseau global de données. Le mouvement Linked Data s’est formé autour des mêmes principes que le Word Wide Web : simplicité, ouverture, tolérance et décentralisation. Il a pour objectif de créer de la valeur en liant des données provenant de différents horizons.

Chaque données enrichit ainsi les autres et déculpe la valeur du tout. Fabrice Epelboin sur Read Write Web France utilise la métaphore suivante :

« Les données étaient autrefois enfermées, comme des fleurs dans des serres. Ce que l’on propose ici, c’est de les faire pousser en plein air, de façon à ce qu’une multitude d’abeilles non seulement se chargent de la pollinisation pour le compte des fleuristes, mais qu’on puisse créer du miel et la profession d’apiculteur. Les abeilles sont prête, il suffit d’ouvrir les serres».

Les données liées construisent et interconnectent les ontologies, reliant ainsi entre eux des jeux de données (data sets) qui n’auraient pas pu communiquer auparavant. Il devient alors possible de rebondir d’une base de données à autre, et d’explorer les données dans une multitude de directions.

Les technologies du web sémantique ne sont pas encore grand public, même si de nombreux projets prometteurs ont adopté ses standards et produisent des données liées. Le schéma ci-dessous représente les sources de données liées existantes, et leurs relations.

Linked data cloud – Mars 2009


Au cœur de ce nuage de sources de données trône DBpedia, qui structure les contenus de Wikipedia en triplet, pour rendre les informations de l’encyclopédie réutilisables.

Google a acquis cet été Metaweb, la société détentrice de Freebase, une base de données sociale liant des millions d’items grâce aux technologies du web sémantique.

4. Les questions évacuées par le web sémantique : qui est en charge de la sémantisation ? et à quel moment ?

En proposant des formats normés pour structurer les données, le web sémantique ne résout que la question du « comment » sémantiser l’information, et ne définit ni le « qui », ni le « quand ».

Qui doit se charger de créer les ontologies et les métadonnées ? Deux visions s’opposent : confier cette mission aux humains, ou la déléguer aux machines.

Les ontologies garantissent une grande souplesse : elles peuvent se référer à des concepts standardisés au niveau mondial, tout autant qu’à des définition internes à un groupe. Des communautés de centres d’intérêt ou d’usages peuvent définir les ontologies correspondant à leur champ de connaissance. Freebase fonctionne ainsi de façon communautaire : il permet à ses contributeurs de créer une base de connaissances commune, structurée et interrogeable, un espace public des données (« data commons »). Pour cela, Freebase s’appuie sur ses utilisateurs, qui remplissent eux même les champs de description des ressources, et y accolent des métadonnées. La définition et le taggage des ressources sont ici socialisés.

De plus en plus, le taggage s’automatise pour des métadonnées non ambiguës. Certaines données telles que la date ou le lieu sont ainsi devenus implicites pour de nombreux appareils numériques. Les appareils photos, par exemple, associent automatiquement un grand nombre de métadonnées à nos clichés, sans intervention de l’usager.

L’étape suivante consiste à automatiser non seulement le taggage mais aussi la définition des métadonnées, grâce à des machines auto-apprenantes. Ces systèmes mettent en place des boucles de rétroaction capables de définir des métadonnées par recoupement. Un logiciel de reconnaissance d’image faciale va, par exemple, identifier une même personne dans de gros volumes de photos à partir de deux ou trois clichés initiaux.

Enfin, que faire des milliards de pages contenant des données non structurées ? La sémantisation ne peut-elle intervenir qu’au moment de la création d’une ressource ? Comment sémantiser après-coup ? Le web semble trop riche et trop complexe pour être entièrement structuré « à la base ». Dès lors, un des facteurs du développement du mouvement Linked réside dans la création d’outils de structuration « à la volée » des ressources numériques. Ces outils peuvent s’appuyer sur les communautés d’utilisateurs et le crowdsourcing ou sur des algorithmes particulièrement intelligent, à l’image d’Open Calais. Développé par Thomson Reuteurs, cette plateforme transforme des données non structurées en données liées. Grâce à un traitement en langage naturel sophistiqué, elle repère les noms de lieux, ou de personne, elle identifie des événements ou des comptes rendus.

Une plus grande analogie entre données en ligne et cerveau humain (Neurons in the brain by Hljod.Huskona)

5. Information, innovation et externalités positives : les promesses du web de données

Les données liées constituent aujourd’hui un des terreaux les plus fertiles du Web. L’interconnexion des données grâce aux standards ouverts est et sera une source importante d’innovation.

En rendant les bases de données communicantes et entrelacées, le web de donnés rend l’information intelligente. Il devient possible de rebondir d’une base de données à l’autre au gré des interconnexions, ce qui ouvre la porte à l’aléatoire et à la sérendipidité. L’architecture de l’information sur le web s’approche ainsi de celle des synapses, autorisant une analogie bien plus grande entre la façon de rechercher sur le web et le fonctionnement de notre cerveau.

Transformer les données en information devient la nouvelle source de jaillissement de valeur. Grâce à Open Calais, Thomson Reuteurs a pu améliorer ses outils d’analyse et de surveillance des marchés financiers. L’avantage compétitif entre services web ne repose plus uniquement sur le volume de leurs bases de données, mais également sur leur capacités à enrichir et visualiser leurs données ; par exemple, en créant des cartes en temps réel ou des visualisation interactives pour réduire le bruit informationnel, faciliter l’appréhension de l’information et rendre accessible une mémoire des données. Le web de données autorise une navigation plus ludique et plus graphique dans les contenus, entraînant des expériences d’information disruptives et suscitant des innovations dans les interfaces hommes-machines. Le web de données porte aussi de nouveaux modes de rapprochement entre les contenus, entre les utilisateurs et les contenus ou entre les utilisateurs eux-même.

L’ouverture des données et l’universalisation de leurs structures favorisent la création d’applications tierces, pouvant tirer partie de différentes bases de données pour générer de nouveaux services, non envisagés par les créateurs des bases de données initiales. Ainsi, des acteurs se positionnent à tous les niveaux de la chaîne d’exploitation des données : collecte, structuration, traitement, visualisation, etc., laissant entrevoir une redistribution des cartes et des positions dans ce secteur.

De nombreux obstacles se dressent néanmoins devant cet horizon radieux. La dispersion des initiatives de linked data, l’investissement en temps et en moyens financiers ou la qualité variable des indexations assombrissent la vision d’un web de données parfaitement harmonisé. L’ouverture des données  – qu’elles soient liées ou non – reste problématique pour de nombreuses entreprises et institutions publiques, frileuses à l’idée de divulguer leurs informations. Le flou juridique demeure autour des droits d’auteurs et de la propriété des bases de données, même si des licences apparaissent sur le modèle des Creative Commons, telles qu’Open Data Commons. D’abord standard technologique, le web de données se révèle ainsi fortement dépendant d’initiatives plus sociétales que techniques, telles que le mouvements de l’Opendata.

6. Bibliographie

Toutes les ressources consultées pour la réalisation de cette note sont disponibles et structurées sur ce Pearltrees (petite dédicace à @Pedaviet ;)



Partager ce billet :
|


Un commentaire sur “Comment le web de données change-t-il la nature de la toile ?”

  1. [...] Ce billet était mentionné sur Twitter par Léo Gourven et Alain Joannès, actuvisu. actuvisu a dit: Sur le blog : Comment le web de données change-t-il la nature de la toile ? http://t.co/zY9wce4 by @ActuVisu #linkeddata [...]

Laisser une réponse

XHTML : Vous pouvez utiliser ces balises : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>