Collecter et sauvegarder ses données numériques

https://files.dbeley.ovh/slides

Introduction

  • Constat : nos données numériques sont fragiles
  • Il est important de créer une archive de données personnelle
    • Moyens techniques

Périmètre des “données”

“Mémoire numérique” :

  • Données personnelles
  • Photos de vacances sur Facebook
  • Conversations sur un forum
  • Vidéos youtube
  • Articles de blog

Link rot

  • Link rot : perte de données inévitable

Source : perma.cc

Fermeture de services

  • Réseaux Sociaux
    • Google+
    • Vine
  • Services de stockage
    • Rapidshare
    • Megaupload
  • Plateformes abandonnées
    • Windows Phone
    • Blackberry
    • Jeux Flash
  • Tous les vieux services internet
    • AltaVista
    • AIM

REX

  • XFire

Source : reddit.com

  • Forum Last.fm

Qui sera le suivant ?

Modération de contenu

Youtube

https://www.youtube.com/watch?v=0aHkSy3twBQ&list=abcdefJO2nk8FHmbO5WWPFoTn_MGloGZSw&index=33

Twitter

  • Suspension du compte de Donald Trump

Piratage

Pirate sur youtube : vkgoeswild

Piratage sur youtube : zorsy

D’autres raisons

  • Redesign
  • Changement de CMS
  • Panne matériel
    • Incendie OVH

Heureusement certaines initiatives existent

Source : web.archive.org 2007-10-11

Se créer une archive personnelle

  • Approche différente des initiatives globales telles qu’archive.org
  • Archive personnelle :
    • Différents types de données
    • Plus granulaire
    • Plus personnelle

Moyens techniques

Deux types d’outils :

  • Outils de collecte de données
    • Permet de collecter/créer des données à partir d’une source pour les avoir en local
  • Outils de sauvegarde de données
    • Permet de rendre les données résilientes

Collecte de données

Faire au plus simple

  • Faire un tri dans ses données déjà existantes
  • Avoir une copie locale des données en ligne
  • Éviter d’avoir des données sur un seul support (photos uniquement sur son téléphone)

Données personnelles de services externes

  • La plupart permettent de faire une demande de ses données
  • Google, Apple, Microsoft, Facebook, etc.
  • Services plus anciens : Myspace, Skyblog, etc.
  • Malheureusement tous les sites ne proposent pas de moyen simple d’exporter ses données

Captures d’écran

  • Windows
win + impression écran # Capture de tout l'écran
win + shift + impression écran # Capture de la fenêtre active
  • Mac
cmd + shift + 3 # Capture de tout l'écran
cmd + shift + 4 # Capture d'une partie de l'écran
  • Firefox

  • Linux
maim ~/Images/$(date +%s).png # Capture de tout l'écran
maim -s -o ~/Images/$(date +%s)_cropped.png # Capture d'une sélection

Captures d’écran à intervalle régulier

  • “Frise chronologique” de notre activité numérique (échantillonnée)
  • PoC
    • autoscreen (bash + systemd)
    • Capture d’écran aléatoire toutes les heures
    • 23 jours / 370 Mo
    • 365 jours / ~5,7 Go

Pour archiver des médias

youtube-dl

  • Permet de télécharger audio/vidéo
  • Compatible avec youtube, dailymotion, vimeo, twitch, arte/francetv, etc.

      youtube_dl VIDEO_URL
      youtube_dl PLAYLIST_URL
      youtube_dl CHANNEL_URL
    
      youtube_dl --batch-file "urls.txt"
    
  • youtube-archiver : mes propres scripts pour archiver du contenu vidéo

Pour archiver des sites internet

Wallabag

Alternatives à Wallabag

Conifer

Autres

Et pour le reste ?

  • Données que l’on cherche à extraire sont structurées
    • Données numériques
    • Texte délimité
  • Sites qui ne proposent pas de fonctions d’export de données

Webscraping

Exemple senscritiquescraper

import pandas as pd
from senscritiquescraper import Senscritique

user_collection = Senscritique.get_user_collection("34nUBqnQvCSkt")
df = pd.DataFrame(user_collection)
print(df[["Title", "Year", "Category", "User Rating", "Number of Ratings", "Average Rating"]])
                                Title  Year    Category User Rating Number of Ratings Average Rating
0                     Symphonie no. 9  1984       Music          10              1057            9.1
1                    Berserk, tome 13  1997      Comics          10               904            9.1
2  The Legend of Zelda : Breath of...  2017  Video Game          10             11541            8.8
3                          Sur écoute  2002      Series          10             21851            9.1
4                 12 hommes en colère  1957       Movie          10             45192            8.7
5                                1984  1949        Book          10             81139            8.4

Sauvegarde

Bonnes pratiques de sauvegarde

Sauvegarde: retour d’expérience

  • Copie locale + synchronisation Nextcloud
  • Sauvegarde sur DDE avec borg (+ borgmatic)
  • Sauvegarde sur Scaleway S3 (75 Go gratuit) avec rclone

    Nom Chiffrement Snapshots Compression Déduplication Compat. S3
    borg/borgmatic Oui Oui Oui Oui Non
    rclone Oui Non Non Oui Oui

Pour aller plus loin