Suivi des incidents et maintenances majeures

Dimanche 29 novembre 14:45 - Instabilités sur sans-nuage.fr

Certains services comme les pads étaient instables, du fait de la grande consommation de notre service synapse (matrix). Pour le moment, nous avons ajouté un peu de swap, et nous verront si c’est passager ou si nous pouvons optimiser les choses.

Dimanche 3 janvier 2021 au soir - Maintenance sur l’IPv6

Je ferais de nouvelles tentatives sur l’histoire du routage IPv6 mixte entre Cogent et HE pour permettre aux utilisateurs et utilisatrices Free de nous joindre correctement. Ceci implique que la connexion IPv6 va probablement être en dent de scie pendant la nuit.

Vous pourrez suivre les coupures avec ça: https://smokeping.illyse.org/?target=ISP.FFDN.ARN_v6

Voir message précédent pour plus d’info: https://forum.arn-fai.net/t/suivi-des-incidents-et-maintenances-majeures/371/40?u=ljf

Dimanche 31 janvier 2021 à partir de 11:00 UTC - Problème de réception d’email sur sans-nuage.fr

La liste noire spamcop que nous utilisons a oublié de renouveler son nom de domaine entraînant de nombreux mails refusés pour spam dans la journée de dimanche. Le problème a impacté des dizaines de milliers de serveurs mails.

Les choses sont désormais rentrées dans l’ordre. On va peut être faire un petit script pour que chacun et chacune reçoivent la liste des adresse d’envois qui le ou la concerne.

Du 08/02/2021 au 17/02/2021 - Problème pour créer de nouveaux VPS

On a eu un bug sur notre infra qui empêchait la création de nouveau VPS.

On a finit par le résoudre en modifiant la façon dont le grub était update au premier démarrage.

Mardi 23 février - Indisponibilité de forum.arn-fai.net

Forum indisponible durant ~10min (19h00) durant la mise à jour. Les mises à jour de Discourse nécessitent parfois d’intervenir sur la machine pour relancer la construction des dockers.

Jeudi 25 mars - Certificat expiré pour adherents⋅arn-fai.net

L’espace membre était inaccessible ce matin à cause d’un certificat expiré. La génération du certificat a été relancé sans problème particulier.

Samedi 17 avril 2021 - Visite au Datacenter

Installation d’un abonné Housing + récupération de disque dur sur un autre serveur.

Dimanche 18 au 25 avril 2021 - Attaques DNS

Nous subissons depuis 1 semaine des attaques DNS (ou un usage intensif de notre serveur DNS ouvert).

Le 25 avril 2021 à 1h00 : Mise à jour des paquets pour voir si il y a un correctif de unbbound qui résout le soucis.

Vendredi 23 avril 2021 - Incident de stockage sur sans-nuage.fr

Suite à un bug de lufi__3, le disque de sans-nuage.fr était plein. Le problème a été corrigé samedi à 1h du matin. Plusieurs services comme Nextcloud ou Wekan étaient touchés.

1 « J'aime »

Jeudi 06 mai - Maintenance

Ce soir on fait une soirée de maintenance, on a prévu de toucher à ces éléments:

  • Sans-nuage.fr :
    • Vérification des sauvegardes
    • Optimisation etherpad / libreto
    • Maj bridge whatsapp / matrix
    • Création d’un compte association
    • Ajout de ram (si pas déjà fait)
    • Ajout de disque dur
  • Création d’une VM yunohost pour arn-fai.net pour y déplacer :
    • Mail en @arn-fai.net
    • Siteweb en @arn-fai.net
    • Espace membre (COIN)

Nous y gagnerons la possibilité d’avoir des boites mail en @arn-fai.net avecSPF et dkim, la réparation du problème de certificat, le backup/monitoring intégré de yunohost

  • Création de VPS
  • Test accès aux PDU (prise électrique manipulable à distance)

EDIT 21:30: Sans-nuage est injoignable, des services vont être coupés pour permettre la fin de la mise à jour
EDIT 22:30: De la ram a été rajouté à la VM sans-nuage
EDIT 00:47: On a récupérer les accès aux PDU :slight_smile: On est en train d’ajouter 250G de disque à sans-nuage.fr (préalable pour le compte asso) . La création de la VM arn-fai.net et celles des VPS en commande a été repoussée. La séance s’arrête ici pour ce soir on reprendra peut être demain soir.

2 « J'aime »

Dimanche 16 Mai - Fix sur un VPN

Correction d’un bug sur le renouvellement/création de VPN avec une ip terminant par un seul chiffre.

1 « J'aime »

Mardi 25 mai à 23:20 - Sans-nuage.fr Maintenance

On finit le setup du disque dur
Nextcloud, Framaforms, Matrix, Les mails seront éteint pendant quelques minutes.

Jeudi 27 mai - Panne sur le mécanisme de mise en relation du bridge whatsapp/matrix

Suite à une mise à jour de notre bridge il apparaît que notre mécanisme de mise en relation est en panne. Les conversations déjà configurées continuent de fonctionner.
On éditera ce post dés que c’est rentré dans l’ordre.

EDIT 5 juin 2021: le bridge est toujours en panne, nous sommes peut être blacklisté (ou alors nous devons revalider le qrcode) - affaire à suivre

Samedi 5 juin 2021 - Maintenance sur le provisionnement des comptes sans-nuage.fr

Comme annoncé précédemment, nous avons mis en place une nouvelle offre sur sans-nuage. Il y avait un petit bug avec le programme chargé de créer les comptes, c’est désormais résolu.

Ci-dessous, les infos sur les nouvelles offres:

  • Les comptes sans-nuage individuels passent de 2G à 5G (répartis par défaut à 2G pour le mail et 3G pour le nextcloud). Vous pouvez demander par mail à changer la répartitions de vos 5G.
  • Il est possible d’avoir un compte individuels supplémentaire pour 12€/an (par exemple pour un membre de votre famille qui ne tient pas spécialement à adhérer à ARN)
  • Un compte spécial pour les petites associations a été créé, il coûte 35€/an (en plus de l’adhésion à 15€). Il permet d’avoir 15G répartit par défaut à 5G pour le mail et 10G pour nextcloud. Ce compte permet de créer jusqu’à 10 comptes supplémentaires (sans coûts supplémentaires) avec 1G de mail et 0 pour nextcloud. Les 10 comptes ainsi créé se retrouvent dans un groupe YunoHost au nom de l’utilisateur créé sur l’espace adhérent. Il est alors possible de partager les 10G de nextcloud entre tout ces comptes.

Lundi 5 Juillet - Mises à jour de Matrix et Mumble

  • arn-messager - A tester
  • Element - OK
  • Synapse - OK
  • Mumble - OK
  • Installation de Mumble Web - A tester

Edit 8/7 Re-mise en place de l’extinction du bridge whatsapp la nuit entre 1H et 7H.

Mardi 20 juillet - Mises à jour Nextcloud + réparation de la remontée des statuts pour les VPS

Pour des raisons de sécurité nous allons procéder à la mise à jour de Nextcloud.

Le script de remontée des statuts de vos VPS a également été mis à jour pour que la pastille associée à ce service dans l’interface adhérents (COIN) soit de la bonne couleur selon le statuts.

2 « J'aime »

Samedi 24 juillet - Mise à jour de plusieurs apps sans-nuage.fr

Plusieurs apps sans-nuage.fr ont été mises à jour.

L’app opensondage et l’interface adhérents étaient injoignable ce dimanche. Le problème vient d’être résolu.

Mercredi 8 septembre 2021 à 9h - Mise à jour Nextcloud

Nextcloud va être mis à jour pendant les heures ouvrés (d’ici quelques minutes) pour des raisons de sécurité.
Désolé pour le dérangement.
EDIT: Malgré un petit incident avec mariadb, Nextcloud est de nouveau disponible en version 22.1 :slight_smile:

2 « J'aime »

Mardi 14 septembre 2021 à 9h - Mise à Jour Element

Element a été mis à jour rapidement pour corriger une faille de sécurité.

1 « J'aime »

Lundi 27 septembre 2021 à 12h40 - Perturbations des services

Suite à une maintenance sur un nœud du cluster consistant à ajouter un disque SSD à la grappe raid5 en vue de la création de nouveaux VPS, nous constatons que certains services des VM d’ARN se sont éteint pour une raison qui reste à déterminer.
Il est probable que des VPS d’adhérent⋅es aient aussi été impactés. N’hésitez pas à nous le signaler sur le support.
Le forum et l’interface adhérent⋅e étaient injoignables pendant 20 minutes, les pads ne sont pas encore relancés.

Il reste environ 9h avant que la grappe soient totalement reconstruites, des perturbations pourraient encore avoir lieu d’ici là.
EDIT 21:00 : le redimensionnement à chaud de la grappe raid5 est finie, au final il semble que cette opération n’est pas la cause des problèmes rencontrés aujourd’hui !

1 « J'aime »

Lundi 27 septembre 2021 à 12h20 - Perturbations des services

Mise à jour de Discourse et du serveur.

Dans le détail :
Mise à jour plantée via l’interface d’administration web.
En direct sur le serveur il n’y avait pas assez de place pour telecharger/decompresser (1.7Go libre).

Pour arriver à ~5Go de libre j’ai du :

  • supprimer les containers inactifs,
  • supprimer les sauvegardes du forum /var/discourse/shared/standalone/backups/default

Puis relancer la création du container en désactivant les vérifications d’espace disponible (/var/discourse/launcher rebuild app --skip-prereqs). Voila :slight_smile:

Maintenant il affiche ~6Go de libre (mais les sauvegardes vont en prendre 4).
Je conseille très vivement de rajouter de l’espace disque sur la machine (5 ou 10Go).
Ca seraplus confortable pour les mise a jours et ca évitera les interruptions de service.

EDIT ljf: bon bah l’interprétation de mon message précédent est peut être fausse alors…

Lundi 27 septembre 2021 à 15h00 - Panne sur sans-nuage.fr

Une analyse plus fine du problème de ce matin montre qu’en réalité:

  • la panne du forum est dû à l’opération de maintenance décrite par gyom
  • la panne sur sans-nuage est liée à un manque d’espace suite à la croissance rapide de la base de données des pads. Cette croissance rapide peut potentiellement avoir été déclenchée par l’augmentation du cluster.

Les pads et les services utilisant postgresql (comme mobilizon, matrix) sont en pannes. On va tenter de restaurer la base de données des pads dans son état de cette nuit.

EDIT 20:00: matrix et mobilizon sont de retour, mais les apps mysql sont à l’arrêt le temps de réparer la table store de notre pad. Work in progress…
EDIT 23:00: afin de ne pas pénaliser plus longtemps les usager⋅es du cloud et du webmail, nous avons réactivé la base mysql mais la base etherpad reste corrompue. Du fait de sa taille, nous ne sommes pour l’instant pas en mesure de la restaurer dans un état stable, les pads sont donc indisponibles pour une durée non déterminée. Nous sommes désolé de cet incident et réfléchissons aux solutions possibles. SI vous avez un travail urgent, nous pouvons toutefois probablement réussir à extraire le texte de votre pad si vous nous donnez l’URL exacte.
EDIT 13:00: A ce stade, ~400 pads édités les plus récemment ont étés récupérés par notre script (sans mise en forme). SI vous utilisez libreto, et que le menu de votre libreto n’a pas encore été restauré, vous pouvez essayer: de retrouver les pads en faisant https://pad.sans-nuage.fr/p/libreto+NOM-LIBRETO_EN_MINUSCULE+NOM-PAD-EN-MINUSCULE
EDIT 03/10/2021: Nous avons finalement restauré 3600 pads sur 4800. Parmis les 1200 restants il y a principalement des pads sans contenu, avec le texte par défaut ou avec moins de 100 changements. Bien que nous avons la mise en forme de plus de 2000 pads, celle-ci ne sera pas restauré car l’opération est trop complexe du fait de la façon de fonctionner d’etherpad.

4 « J'aime »