Skip to content
Snippets Groups Projects

Backup des bases de données des services

Cet outil orchestre le backup des différents services de Picasoft.

Il est capable de gérer les bases de données postgres, mysql ou mongo pour le moment.

Il est flexible et se configure via un fichier JSON.

Configuration

Le fichier dans config/backup_config.json recensent les informations sur les différentes bases de données qui doivent être backupées.

Ce fichier est utilisé en production. Il ne doit pas être modifié sur les machines sans être synchronisé avec le dépôt Git.

Ce service est destiné à être lancé sur l'ensemble des machines : de cette manière peu importe que Mattermost tourne sous pica01 ou pica02, elle aura des backups. Si une base de données n'est pas accessible, elle est simplement ignorée, ce qui permet d'utiliser le même fichier de configuration pour l'ensemble des machines.

Attention : si la base de donnée tourne dans un réseau Docker isolé, comme pica-etherpad, il faudra ajouter db-backup à ce réseau dans le docker-compose.yml.

Structure

  • Nom du service : Contient une structure de données contenant les informations relatives au service telles qu'indiquées ci-dessous
  • Host : Indique l'hôte de la base de données
  • Port : Indique le port pour se connecter au service
  • Database : Indique le nom de la base de données
  • User : Nom d'utilisateur ou nom d'une variable d'environnement (optionnel)
  • Password : Mot de passe ou nom d'une variable d'environnement (optionnel)
  • Folder : Indique le nom du dossier de backup utilisé par le script de backup et de rotation
  • Cron : Indique la fréquence de temps à laquelle les backups sont effectués par le script de rotation au format cron
  • Init-Backup : Indique si un backup doit être effectué au démarrage du service, en plus de la programmation du cron

Gestion des secrets

Afin de pouvoir versionner le fichier de configuration sans exposer les identifiants aux bases de données, on utilise le système suivant :

  • Dans le JSON, on utilise un nom de variable d'environnement à la place de l'identifant, sans le $, e.g. ETHERPAD_DB_USER.
  • Dans le fichier db.secrets, on renseigne la valeur de cette variable d'environnement.

La substitution est effectué automatiquement par l'outil.

Exemple

Cet exemple montre trois possibilités : le backup d'une base MySQL, Postgresql et MongoDB.

{
  "mattermost":
    {
      "Host": "mattermost-db",
      "Port": "5432",
      "User": "MATTERMOST_DB_USER",
      "Password": "MATTERMOST_DB_PASSWORD",
      "Database": "mattermost",
      "Type": "postgres",
      "Folder": "mattermost",
      "Cron" : "0 * * * *",
      "Init-Backup" : "1",
    },
  "etherpad":
    {
      "Host": "etherpad-db",
      "Port": "3306",
      "User": "ETHERPAD_DB_USER",
      "Password": "ETHERPAD_DB_PASSWORD",
      "Database": "--all-databases",
      "Type": "mysql",
      "Folder": "etherpad",
      "Cron" : "0 */6 * * *",
      "Options" : "--single-transaction",
      "Init-Backup" : "1",
    },
    "wekan":
    {
      "Host": "wekan-db",
      "Port": "27017",
      "Database": "wekan",
      "Type": "mongo",
      "Folder": "wekan",
      "Cron" : "0 */12 * * *",
      "Init-Backup" : "1",
    }
}

Lancement

On se synchronise simplement avec le dépôt et on copie secrets/db.secrets.example dans secrets/db.secrets et on renseigne les secrets (voir Gestion des secrets).

On lance ensuite le Docker Compose :

$ docker-compose up -d

Notes diverses

Backup des BDD PostgreSQL

Initialement, postgres-run.sh réalisait un dump de la base de données en plain text avec pg_dump -w -c qui était ensuite compressé par tar. Ceci a été changé par eb54ac21 et 6828cfa5 pour utiliser le format "custom" de pg_dump.

Le temps pour réaliser un backup et sa taille restent quasiment les mêmes:

-rw-r--r-- 1 root root 133694555 avril  2 04:00 2020.04.02.020001.tar.gz
-rw-r--r-- 1 root root 133700591 avril  2 05:00 2020.04.02.030001.tar.gz
-rw-r--r-- 1 root root 133704227 avril  2 06:00 2020.04.02.040001.tar.gz
-rw-r--r-- 1 root root 133002366 avril  2 06:28 2020.04.02.042736.dump
-rw-r--r-- 1 root root 133005154 avril  2 07:00 2020.04.02.050001.dump
-rw-r--r-- 1 root root 133019511 avril  2 08:00 2020.04.02.060001.dump

(Les heures dans les noms des fichiers à droite sont incorrectes, il faut ajouter 2h pour avoir l'heure correcte, les backups sont quasi instantanés)

Cependant, utiliser le format "custom" permet de:

  • Ne pas avoir des fichiers temporaires (les fichiers *.sql avant compression) qui prennent beaucoup de place pendant quelques instants. On a ainsi un élément de risque en moins (ces fichiers auraient pu être à l'origine d'un disque plein et donc casser tous les services d'une VM).
  • Avoir un dump dans un format plus souple, qui permet de sélectionner manuellement et réorganiser les items archivés pendant la restauration