Plusieurs sources de données sont téléchargées et exploitées.
Les entreprises déclarent chaque semestre les conventions, avantages et rémunérations :
Les déclarations correspondant au 2ème semestre doivent être transmises au plus tard le 1er mars de l'année suivante.
À noter que le système permet aussi de déclarer et de faire des corrections au fil de l'eau.
Les déclarations sont ensuite traitées et vérifiées, avant d'être intégrées dans Transparence Santé. Certaines déclarations sont rejetées en erreur, et doivent être corrigées par l'industriel (ces vérifications sont trop laxistes). In fine, toutes les déclarations doivent être mises en ligne au plus tard le 1er octobre pour le premier semestre, et 1er avril de l'année suivante pour le second semestre.
Chaque nuit, une archive reprenant les données de la base est publiée sur le site data.gouv.fr.
Cette archive comprend 4 tables de données au format csv :
Certaines filiales d'un même groupe déclarent séparément dans Transparence-Santé, ce qui complexifie les analyses.
Nous utilisons un tableur collaboratif pour indiquer les regroupements de filiales au sein d'un groupe.
L'annuaire santé (RPPS) est également téléchargé et nettoyé (essentiellement pour supprimer les doublons).
Il permet d'obtenir des informations fiables sur les professionnels bénéficiaires. Il n'est pas utilisé par EurosForDocs pour nettoyer la base Transparence Santé, bien que cela fut un objectif par le passé.
Chaque nuit, EurosForDocs réalise un nettoyage des données.
Le code informatique utilisé est disponible sur Gitlab. Nous en détaillons les principales fonctions ci-dessous.
Un identifiant unique est créé pour chaque déclaration. Cet identifiant combine la catégorie de déclaration, l'identifiant de l'entreprise déclarante et l'identifiant de ligne de déclaration.
Cet identifiant est utilisé pour les traitements ultérieurs, et pour supprimer les quelques déclarations en doublon dans la base Transparence Santé.
Les déclarations de rémunérations et d'avantages ont un champ permettant d'indiquer le numéro d'une convention à laquelle elles sont liées.
Le remplissage de ce champ est obligatoire pour les rémunérations, et facultatif pour les avantages. Ce qui correspond au fait que toute rémunération doit se faire dans le cadre d'un contrat, tandis qu'un avantage peut être offert sans cadre contractuel.
Une convention peut ainsi être associée à 0, 1 ou plusieurs rémunérations et avantages.
Par exemple, si un médecin est payé pour présenter à un congrès, l'industriel pourra déclarer
Toute les rémunérations et avantages indiquent un montant. Les conventions peuvent - ou non - indiquer un montant global, a priori le total des rémunérations et avantages liés.
Ce point est une difficulté majeure dans l'utilisation de la base Transparence-Santé, qui empêche a priori de sommer les montants des conventions avec ceux des rémunérations et avantages, au risque de compter certains montants deux fois.
Pour résoudre ce problème et faciliter l'usage des données, EurosForDocs met rattache les rémunérations et avantages avec la convention liée
montant
pour chaque convention est le montant déclaré pour la convention, moins le montant des avantages et rémunérations liés, avec un résultat minimum à zéro. Ces transformations permettent de sommer les montants des déclarations toutes catégories confondues, sans double compte, à l'exception des erreurs indiquées plus bas.
Pour information lorsque l'on étudie une convention
A contrario, certaines conventions ont un montant déclaré nul (ou vide), sans que l'on ne retrouve de rémunération ni d'avantages liés.
On ne peut donc pas connaître le montant de ces conventions, alors qu'il est obligatoire depuis 2017 de déclarer les rémunérations liées aux conventions (cf fin de la partie sur la qualité des données); et rien ne justifie qu'une entreprise déclare des conventions sans montant - fut-il prévisionnel.
Ces conventions sont indentifiées par la valeur True
dans la colonne indicatrice montant_masque
.
Cette colonne permet de calculer un nombre de contrat sans montant traçable.
Les avantages pointent souvent vers des conventions dont le numéro n'existe pas dans Transparence-Santé, car l'existence de ces conventions n'est pas vérifiée avant d'intégrer les avantages à la base.
D'après la FAQ du site internet : 62. A quoi correspond le champ « AVANT_CONVENTION_LIE » ? Cette information doit permettre de retrouver facilement la convention liée. Ce champ n'est pas contrôlé, vous pouvez donc choisir ce qui semble le plus pertinent pour retrouver la convention.
Par conséquent
À noter que ce problème technique n'existe (presque) pas pour les rémunérations, car l'existence des conventions liées est vérifiée de façon stricte avant d'intégrer les rémunérations à la base..
Les filiales des entreprises d'un même groupe sont regroupées sous un même nom pour faciliter la recherche (cf fichier d'association décrit dans les sources).
Une colonne entreprise_émmetrice
est créée, avec le nom du groupe, ou le nom d'origine si elle n'a pas été regroupée.
La base Transparence Santé ne contient pas de catégorisation des déclarations, ce qui empêche de nombreuses analyses.
EurosForDocs cherche à recréer de telles catégories en s'appuyant sur la colonne qui donne la nature de l'avantage ou l'objet de la convention.
Ce travail a été réalisé pour les avantages, mais sans vraiment le finaliser et sans relecture qualitative. Il n'a pas (encore) été réalisé sur les conventions, par manque de temps. Pour les rémunérations il suffira de s'appuyer sur le liens avec les conventions.
La nomenclature de catégories utilisée s'appuie sur la nomenclature du code de déclaration de l'EFPIA.
Nous avons ajouté des catégories correspondants à des liens déclarés en France, mais exclu de ce code d'autorégulation (au rabais) de l'industrie. Nous avons également ajouté des sous-catégories plus fines, en fonction de ce qui était observé dans les données.
Au final nous obtenons cet arbre de catégorie (code source),
avec une étoile *
devant les catégories existantes dans le code EFPIA.
* Lien d'intérêt ├── * Dons et Subventions │ ├── Dons │ │ ├── Dons de sommes d'argent │ │ └── Don en nature │ └── Subventions ├── * Contribution au coût d'événements promotionnels, scientifique ou professionnel │ ├── * Mécénat │ ├── * Frais d'inscriptions │ └── * Transport et Hospitalité │ ├── Transport │ └── Hospitalité │ ├── Hébergement │ └── Restauration ├── * Service et Conseil │ ├── * Honoraires │ └── * Dépenses liées ├── * Recherche et Développement ├── Repas et Boissons en dehors d'un événement ├── Cadeaux ├── Formation └── Sans classe ├── Vide, Autre └── Association à une catégorie non réussie
L'association des avantages aux catégories se fait en s'appuyant sur une liste de mots clés, puis par des stratégies de distance textuelles.
Sont restitués 2 niveaux de catégories :
D'autres petits nettoyages de forme sont réalisés
Les fichiers nettoyés sont téléchargeables en suivant les liens suivants :
Ils sont soumis aux mêmes restrictions d'usage que les fichiers sources (voir la page d'avertissements).
Chacun de ces fichiers est nettoyé, puis ingéré dans une table d'une PostgreSQL, respectivement appelées :
Une vue declaration reprend les colonnes communes des 3 tables de déclarations, pour simplifier des analyses communes. Cette vue est la base des tableaux de bord exposés sur Metabase.