Quelles technologies générant un important flux de données publiques ?

digital-personal-files-concept-illustration_114360-5288

Les données publiques sont des informations diffusées ouvertement et dont l’accès est libre de droit. L’open data représente donc l’ensemble des données dont l’exploitation et la réutilisation sont libres de droit.

En France, de nombreuses plateformes diffusent ce genre de données pour ouvrir le chemin de l’accès à l’information et de la création de services et de produits de meilleure qualité. Il s’agit des données provenant du gouvernement et des organismes publiques. Dans un souci de transparence, de nombreuses technologies sont utilisées pour déployer et faciliter la réutilisation des données publiques.

On vous explique tout sur ce sujet !

La définition de l’open data ou la donnée publique

OPENDATA

L’Open Knowledge Foundation, une association britannique à but non lucratif et défendant la culture libre et l’open data, définit cette dernière comme étant les données auxquelles tout le monde peut accéder, réutiliser ou diffuser. Les principaux critères de la donnée publique sont :

  • Sa disponibilité :

La donnée publique est disponible et accessible, de préférence, sur internet. Elle doit être consultable de partout dans le monde.

  • Sa réutilisation :

Les ensembles de données publiques doivent être réutilisables ou redistribuables librement.

  • Sa participation universelle :

L’open data doit être réutilisable et distribuable par tout le monde. Aucune restriction son l’usage ou la distribution ne doit être appliquée.

Dans tous les cas, les données publiques ne doivent jamais être des données à caractère personnel pour protéger, bien évidemment, la vie privée.

Toutes ses caractéristiques de la donnée publique constituent le principe même de l’interopérabilité de ces données.

L’interopérabilité : le principal objectif de la donnée publique

Intéropérabilité

L’interopérabilité est à la fois une caractéristique et un objectif de la donnée publique. Il s’agit de la possibilité de mélanger les données et de créer des systèmes et des ensembles de données plus larges et plus complexes.

L’interopérabilité permet donc de mieux utiliser les données publiques pour développer des solutions et des services plus adaptés.

Pour qu’elles soient interopérables, les données publiques doivent respecter des standards de publication pour permettre leur reproduction et leur mélange. L’utilisation d’un langage web sémantique définissant les métadonnées de l’open data. En plus, ces standards préconisent la certification de provenance des données, leur qualité et leur auteur.

Qui génère de la donnée publique ?

Bien que la définition de l’open data suggère que tout le monde peut générer des données publiques et les proposer en libre droit, certains secteurs sont plus concernés par la génération des flux de données publiques.

Les gouvernements et le secteur public représentent les deux principales sources d’open data, mais il peut également s’agir de :

  • Les sociétés
  • Les établissements éducatifs
  • Les ONG, les fondations caritatives et les associations
  • Les entreprises innovantes et les startups
  • Les communautés
  • Les individus

Les droits d’exploitation et de modification des données publiques

donnée publique

Les données publiques sont légalement ouvertes et accessibles par tout le monde. L’accès à ces données est ainsi gratifié gratuitement au titre d’exploitation, de partage et de modification. Le placement des données au domaine public les attribue une licence de libre accès.

En plus, il ne doit y avoir aucune barrière technique à la réutilisation, l’exploitation et la modification des données. C’est la raison pour laquelle les données publiques sont publiées sur des sites web où l’on pourrait les extraire automatiquement en vue de les réutiliser via des APIs.

La réutilisation des données publiques est donc autorisée même pour des fins commerciales et aucune condition ou restriction financière ne doit être imposée sur l’exploitation des données publiques.

Les principales plateformes de données publiques sur les entreprises en France

Data.gouv.fr

Il s’agit d’une plateforme d’open data développée et gérée par l’Etat français par le moyen de l’Etalab (une administration publique française qui a pour objectif de gérer et diffuser les données de l’Etat).

Ce portail a vu le jour en décembre 2011 avant de faire l’objet d’une refonte menée par l’Etalab en 2013. Il est développé en utilisant le logiciel CKAN (Comprehensive Knowledge Archive Network) créé par l’Open Knowledge Foundation citée ci-haut.

La plateforme reste ouverte aux contributions externes qu’elles parviennent d’individus ou d’organismes pour ajouter des jeux de données ou créer de nouvelles applications d’exploitation des données.

L’INSEE

La base SIRENE (Système national d’Identification et du Répertoire des Entreprises et de leurs Etablissements) est devenue accessible à tout le monde depuis le 1er janvier 2017. Ses données sont ainsi consultables et réutilisables gratuitement.

Ce système représente un répertoire des entreprises françaises géré par l’INSEE. Son fonctionnement consiste à attribuer un numéro SIREN aux entreprises, organisations et associations et un SIRET à leurs établissements.

Le SIRENE a été créé en 1973 et entré en vigueur en 1975. Il permet d’identifier les entreprises françaises avec un identifiant unique et non modifiable. Ce dernier est utilisé dans toutes les interactions de l’entreprise avec l’administration française. Ce code, qui est le SIREN devient obligatoire en 1997 et concerne :

  • Les entreprises publiques
  • Les entreprises privées
  • Les organismes, les institutions et les collectivités territoriales

Le numéro SIREN

Le SIREN est le code unique permettant d’identifier les entreprises et les associations actives en France. Il est géré par l’INSEE et conservé dans le SIRENE.

Ce code unique est utilisé par ces organismes pour toutes leurs interactions avec l’administration française. Il représente également l’un des constituants du numéro d’inscription au RCS, au répertoire des métiers et du numéro de TVA intracommunautaire.

Le SIRET

Le SIRET est un numéro d’identification des établissements généré par l’INSEE. Il se compose du numéro SIREN et d’autres chiffres permettant l’identification unique de l’établissement.

L’INPI

L’Institut National de Propriété Industrielle est un établissement public qui gère les données publiques relatives aux marques, brevets, dessins et modèles.

Le Registre National du Commerce et des Sociétés est un registre centralisant les informations juridiques des entreprises françaises à partir des greffes des tribunaux à compétence commerciale.

La plateforme DATA INPI donne un accès gratuit aux statuts et actes des entreprises ainsi qu’à leurs comptes annuels non confidentiels.

Toutes les données contenues dans le RNCS sont réutilisables par des APIs permettant de les extraire facilement, les mélanger et les diffuser.

Societe.com

Il s’agit d’un portail de diffusion d’informations légales, juridiques et financières sur les établissements français. Il collecte et redistribue les informations de provenance de :

  • L’INPI : L’Institut National de Propriété Industrielle
  • L’INSEE : L’Institut National de la Statistique et des Etudes Economiques
  • Le RCS : Le Registre national du Commerce et des Sociétés

Le site a été lancé en 1999 par la société Iliad avant d’être racheté par Adverline en 2006 qui a été rachetée en 2012 par Mediapost qui est une filiale du groupe La Poste. Il est désormais édité par sa filiale Societe SAS.

BODACC

Le BODACC ou Bulletin Officiel des Annonces Civiles et Commerciales est une publication éditée par la DILA (Direction de l’Information Légale et Administrative). Il s’agit d’un bulletin national qui a pour but d’assurer la transparence des informations officielles en assurant la publicité des actes enregistrés au RCS (registre du commerce et des sociétés). Il contient ainsi les avis d’immatriculations et de création, de ventes, des cessions, les modifications et les radiations des personnes physiques et morales en France.

Le BODACC contient également des publications des informations juridiques comme la liquidation ou le redressement judiciaire, les procédures de sauvegarde, les avis de dépôt des comptes, etc.

Open Data VS Big Data

La Big Data signifie, comme l’indique son nom, des données massives et de grands volumes. Cette grande volumétrie fait qu’il soit impossible de les traiter par les technologies et les systèmes classiques. Ainsi, le stockage et le traitement de la Big Data nécessite de nouvelles technologies adaptées.

Les données publiques ne sont pas toujours de grands volumes et le Big Data n’étant pas toujours ouvert au public. Cependant, ces deux termes se croisent lorsqu’il s’agit des données publiques publiées par les organismes gouvernementaux et qui sont accessibles par tout le monde. En réalité, la notion de république numérique suggère la génération de plus en plus de données publiques dans un souci de transparence.

Finalement, l’Open Data n’est qu’une partie du Big Data qu’on souhaite qu’elle prenne de plus en plus de volume et d’importance.

Les technologies de stockage et la distribution de l’open data

Le stockage et le traitement de l’Open Data fait appel à des technologies utilisées en Big Data. Elles permettent de traiter de plus grands volumes de données et de faciliter leur accès ainsi que leur exploitation.

CKAN

Le CKAN ou Comprehensive Knowledge Archive Network est une application web créée spécialement pour assurer le stockage et la distribution des données publiques pour qu’elles soient exploitables et réutilisables.

Le logiciel est utilisé par de nombreux gouvernements, à l’instar du gouvernement français, allemand et britannique, pour diffuser les jeux de données publiques et faciliter leur réutilisation.

Apache Hadoop

Apache Hadoop est l’une des solutions techniques les plus utilisées pour le traitement des gros volumes de données. Les données publiques pouvant être générées en de gros volumes, elles nécessitent des infrastructures et des frameworks adaptés.

L’Apache Hadoop est fait de nombreux composants :

  • Un système de stockage : HDFS
  • Un système de planification des traitements : YARN
  • Un framework de traitement : MapReduce

Les bases de données

Les bases de données sont l’une des principales composantes d’un système de stockage et de distribution des données publiques. Les bases de données NoSQL (Not Only SQL) sont parmi les technologies les plus adaptées au stockage et au traitement des grands volumes de données comme l’open data.

Elles sont plus flexibles et évolutives que les bases de données SQL classiques. Elles permettent donc de charger en temps réel de gros volumes de données et tolèrent d’importantes mises-à-jour de différents jeux de données. Il faut également noter que les bases de données NoSQL sont plus robustes face aux interruptions des systèmes.

Cassandra et Hbase sont les systèmes de gestion de bases de données les plus adaptés aux grands volumes de traitements. Ils assurent le traitement de grands volumes de requêtes permettant l’accès et la modification des données en toute simplicité.

Le Cloud Computing comme méthode de déploiement

Les technologies de Cloud Computing représentent la meilleure solution pour déployer de gros volumes de données et les stocker en toute sécurité. Elles permettent de stocker d’énormes volumes de données et sont évolutives en capacité, ce qui les rend parfaitement adaptées au big data et à l’open data.

Les APIs

Les APIs (Application Programming Interface) sont des connecteurs utilisés pour extraire et échanger des données en temps réel entre deux systèmes informatiques. La nature des données publiques exigent qu’elles soient réutilisables par tout le monde et c’est en utilisant des APIs qu’on pourrait extraire les données dont on a besoin en temps réel.

Les plus grands sites générant des données publiques au monde

data.gov : le made in USA

Avec un grand volume de plus de 300 000 de jeux de données exposées dans son catalogue, le site de la donnée publique du gouvernement américain est l’une des références en matière d’Open Data.

Son catalogue contient des jeux de données accessibles sous différents formats (XML, Excel, CSV, HTML, JSON,  etc.) et concernant des sujets allant des données locales jusqu’aux données fédérales.

data.gouv.fr : le made in France

DATAGOUV.FR

Citée ci-haut, cette plateforme gouvernementale française contient plus de 38 000 jeux de données réutilisables. Elle diffuse des données provenant de différentes sources (gouvernement, INSEE, INPI, etc.). Un moteur de recherche innovant permet de rechercher les données souhaitées en toute facilité.

ouvert.canada.ca : le made in Canada

Le Canada est l’un des pays qui prennent le plus au sérieux les enjeux des données publiques. Cette plateforme contient plus que 80 000 jeux de données. Les informations exposées sont d’une grande variété et peuvent aller des données concernant les ressources naturelles canadiennes jusqu’aux données géo localisées.

data.gov.uk : le made in UK

DATA.GOV.UK

Cette plateforme gouvernementale britannique contient plus que 45 000 jeux de données diverses. Il embarque un moteur de recherche à la pointe de la technologie pour faciliter la recherche et l’accès aux données.

data.europa.eu : le made in Europe

Il s’agit de la plateforme de diffusion des données publiques de l’Union Européenne avec plus de 13 000 jeux de données. Il embarque également des moteurs de recherche facilitant l’accès aux informations.

Conclusion

Les données publiques sont diffusées par des technologies permettant leur réutilisation, leur partage et leur modification sans aucune contrainte. Il s’agit généralement de technologies empruntées au Big Data pour faciliter le traitement des gros volumes de données générées.

Contrôlemaboite vous permet d’accéder aux informations publiques sur les sociétés françaises en exploitant l’Open Data mise à disposition par les organismes officiels.

N’hésitez pas à nous contacter pour tout renseignement complémentaire.