Que les données ne soient plus cachées dans des bases de données côté serveur mais interrogeables de manière standardisée par tout un chacun, voici le vieux rêve de Tim Berners-Lee. Le chemin est encore long, mais il faudrait être bien aveugle pour ne pas voir ce changement de paradigme.
A l’exception des API offrant leurs données au format XML ou JSON, les données que nous pouvons obtenir aujourd’hui sur le web, sont sous la forme de pages web, de documents HTML liés entre eux par des hyperliens. Le mouvement Linked Data (données liées) travaille à stocker ces données dans un format lisible par l’ordinateur et à les lier entre elles en autorisant la description de leurs relations via les URI (Uniform Ressource Identifier). Cet essor permit par les technologies du web sémantique (RDF, OWL, SIOC…) amènera petit à petit vers un web des données, « web of data », promettant ainsi d’ouvrir un nouveau champ des possibles.
Pour bien comprendre les différences entre Open Data, Linked Data, Linked Open Data et Semantic Web, Paul Walk a proposé la définition suivante :
- Les données peuvent être ouvertes (Open Data), mais pas forcément liées (Linked Data).
- Les données peuvent être liées, mais pas forcément ouvertes.
- Les données, qui sont à la fois ouvertes et liées (Linked Open Data), sont de plus en plus viables.
- Le web sémantique ne peut fonctionner qu’avec des données ouvertes et liées.
Prenons un exemple concret
Un magazine liste et classe depuis des années les plus de 4500 lycées français. Ce magazine décide de mettre en ligne ces données de manière ouverte et selon le principe du Linked Data. Un autre magazine liste, lui, les villes les plus « vertes », les plus agréables à vivre selon des critères statistiques. Il met lui aussi ses données en ligne de manière « propre ». Requêtes SPARQL sur l’un, requêtes SPARQL sur l’autre et zou ; on peut réaliser une petite carte interactive des endroits les plus sains pour élever ses enfants. Aux États-Unis, on aurait même pu ajouter les données concernant la localisation des pédophiles.
Ce qu’il faut retenir de cet exemple, c’est qu’une analyse peut être affinée : lorsqu’elles sont « propres », les données peuvent être recoupées, « matchées », croisées. La seule limite se borne à votre imagination (et aux données, un peu). Remix, mashup, enrichissement : les médias doivent participer à l’éco-système Internet, que cela soit en fournissant les données ou en les « éditorialisant ». Il en va de leur survie.
« The future belongs to companies that can turn data into data products. » @mikeloukides
Actuellement, il est complexe de recontextualiser un contenu conçu à d’autres fins, d’extraire des données sous-jacentes pour les visualiser d’une manière nouvelle, différente, car les données ne sont pas structurées et ne sont pas présentées dans un format standard. Les données liées devraient lever en partie ces obstacles.
À ceux qui pensent encore au mirage iPad, sauveur de la presse, j’aimerais rappeler que ce n’est pas un « device », un appareil, qui a réellement révolutionné l’industrie des contenus mais bel et bien le simple usage des hyperliens. Pas seulement parce que l’hyperlien relie des contenus entre eux, mais aussi parce que de ces liaisons transpirent la compréhension des pages web et de leurs contenus, ce qui rend possible la recherche sur le web. La puissance des technologies du web sémantique, des URI, promettent un aussi grand impact.
Les médias français à la traîne
Il est important que les médias s’emparent du web sémantique et comprennent l’avantage du médium Internet dans toute sa dynamique. Quand le New-York Times investit dans le Linked Open Data, ce n’est pas par altruisme. Comme tous les journaux, il essaie de trouver sa place sur le net. Sa stratégie : devenir une source de données, « La » source. Le New-York Times a plus de 150 ans de contenus derrière lui. Tout le savoir accumulé depuis tant d’années, leur expertise de la politique, leur base de connaissance des conflits internationaux etc, disponibles sur data.nytimes.com et developer.nytimes.com, excitant non ? La marque New-York Times devient ici leader dans le monde éditorial, elle fait figure d’autorité, et impose sa marque.
Les sites de la BBC sont un autre exemple des avantages des technologies du web sémantique. WildLife Finder présente les différentes espèces et d’autres rangs biologiques. La BBC ne produit pas de contenus, ou peu, elle les agrège depuis les sites de la WWF, de l’Université du Michigan, de la société zoologique de Londres (ZSL), de l’Union International pour la Conservation de la Nature et des Ressources Naturelles (IUCN) et enfin de DBpedia (Wikipedia structuré avec les technologies du web sémantique). Rien que ça. La maintenance de ces contenus coûte très peu : en dépendant de données « externes », la BBC s’epargne ainsi la collecte, la construction et la structuration de toutes ces données. Leur CMS s’appelle le web. Last but not least, les pages sont très performantes en terme de SEO, battant même Wikipedia dans Google lorsque qu’une requête porte sur un nom d’animal. Cela est dû en partie à la stratégie de la BBC : une très forte densité de liens internes accompagnées d’ancre pertinentes.
Avec BBC Music, la BBC offre une richesse de contenu équivalente, grâce aux données de MusicBrainz et de Wikipedia. Leur travail sur l’expérience utilisateur est remarquable, c’est un réel plaisir de naviguer à travers toute cette information mise dans un contexte propre à la marque BBC, comme on peut le voir sur cette page.
L’expérience utilisateur est une dimension importante pour comprendre l’intérêt des données liées, notamment lorsqu’il s’agit de construire une plateforme de services. L’objectif de la BBC est d’être capable d’agréger du contenu facilement et de construire dynamiquement, à partir de relations simples, des sites d’une richesse incroyable. Leur processus de production éditoriale s’en trouve bouleversé. La BBC ne se contente pas d’agréger des données extérieures, elle propose aussi leurs données et permettent ainsi la construction d’autres services. On peut citer FanHubz, site expérimental permettant de construire des communautés autour des émissions de télévision et des programmes radio de la BBC.
Dernier exemple avec l’agence de presse Reuters et sa technologie OpenCalais, qui permet de passer d’une page HTML basique à des données structurées. Elle repère dans le contenu lorsqu’il est fait mention de noms de personnes, d’endroits, d’entreprise etc. Content to Data, le contenu devient données. Et lorsqu’il y a data, de nouvelles utilisations sont possibles : croisement, mashup, géocodage, nouveaux services, etc. Reuters fait fort.
Et en France ? Rien.
On peut comparer le Linked Data pour le web à la technologie RDS pour la radio ou encore aux mesures standards des imprimantes pour le papier, qui ont ainsi créées des formats standards de publicités. Comme le dit Nick Piggott, Head of Creative Technology à Global Radio : « Agree on technology, compete on content », mettons nous d’accord sur la technologie et concurrençons nous sur les contenus.
Pour une approche Linked Data
Au-delà de ces exemples tirés des médias, il ne faut pas oublier que la « hype data », le coup de projecteur sur les données, a été réellement engagé par data.gov du gouvernement Obama. Les données sont remplies d’histoires qui n’attendent qu’à être découvertes. Il est aujourd’hui impossible pour le grand public d’explorer ces données, la tâche revient aux médias, leur expertise du story-telling et à leurs savoir-faire en « éditorialisation », d’expliquer le contexte et les conséquences et de mettre en valeur les données.
Ce n’est pas seulement un mouvement technologique, c’est aussi une approche Linked Data qu’il faut inculquer à tous les pratiquants du web, et qui laisse entrevoir de meilleurs outils pour les journalistes, de meilleurs services pour les partenaires commerciaux et, dans l’idéal, un meilleur story-telling pour l’audience. Certes le journaliste est assis devant son ordinateur, mais son potentiel créatif renouvellera le journalisme total :)








[...] Ce billet était mentionné sur Twitter par Pierre Tran, Espritblog , Richard Wallis, Benoit Vidal, LiberTIC et des autres. LiberTIC a dit: RT @actuvisu Linked Data & Médias: http://bit.ly/dlibmb #opendata [...]