Suivi des incidents et maintenances majeures

Samedi 17 avril 2021 - Visite au Datacenter

Installation d’un abonné Housing + récupération de disque dur sur un autre serveur.

Dimanche 18 au 25 avril 2021 - Attaques DNS

Nous subissons depuis 1 semaine des attaques DNS (ou un usage intensif de notre serveur DNS ouvert).

Le 25 avril 2021 à 1h00 : Mise à jour des paquets pour voir si il y a un correctif de unbbound qui résout le soucis.

Vendredi 23 avril 2021 - Incident de stockage sur sans-nuage.fr

Suite à un bug de lufi__3, le disque de sans-nuage.fr était plein. Le problème a été corrigé samedi à 1h du matin. Plusieurs services comme Nextcloud ou Wekan étaient touchés.

1 « J'aime »

Jeudi 06 mai - Maintenance

Ce soir on fait une soirée de maintenance, on a prévu de toucher à ces éléments:

  • Sans-nuage.fr :
    • Vérification des sauvegardes
    • Optimisation etherpad / libreto
    • Maj bridge whatsapp / matrix
    • Création d’un compte association
    • Ajout de ram (si pas déjà fait)
    • Ajout de disque dur
  • Création d’une VM yunohost pour arn-fai.net pour y déplacer :
    • Mail en @arn-fai.net
    • Siteweb en @arn-fai.net
    • Espace membre (COIN)

Nous y gagnerons la possibilité d’avoir des boites mail en @arn-fai.net avecSPF et dkim, la réparation du problème de certificat, le backup/monitoring intégré de yunohost

  • Création de VPS
  • Test accès aux PDU (prise électrique manipulable à distance)

EDIT 21:30: Sans-nuage est injoignable, des services vont être coupés pour permettre la fin de la mise à jour
EDIT 22:30: De la ram a été rajouté à la VM sans-nuage
EDIT 00:47: On a récupérer les accès aux PDU :slight_smile: On est en train d’ajouter 250G de disque à sans-nuage.fr (préalable pour le compte asso) . La création de la VM arn-fai.net et celles des VPS en commande a été repoussée. La séance s’arrête ici pour ce soir on reprendra peut être demain soir.

2 « J'aime »

Dimanche 16 Mai - Fix sur un VPN

Correction d’un bug sur le renouvellement/création de VPN avec une ip terminant par un seul chiffre.

1 « J'aime »

Mardi 25 mai à 23:20 - Sans-nuage.fr Maintenance

On finit le setup du disque dur
Nextcloud, Framaforms, Matrix, Les mails seront éteint pendant quelques minutes.

Jeudi 27 mai - Panne sur le mécanisme de mise en relation du bridge whatsapp/matrix

Suite à une mise à jour de notre bridge il apparaît que notre mécanisme de mise en relation est en panne. Les conversations déjà configurées continuent de fonctionner.
On éditera ce post dés que c’est rentré dans l’ordre.

EDIT 5 juin 2021: le bridge est toujours en panne, nous sommes peut être blacklisté (ou alors nous devons revalider le qrcode) - affaire à suivre

Samedi 5 juin 2021 - Maintenance sur le provisionnement des comptes sans-nuage.fr

Comme annoncé précédemment, nous avons mis en place une nouvelle offre sur sans-nuage. Il y avait un petit bug avec le programme chargé de créer les comptes, c’est désormais résolu.

Ci-dessous, les infos sur les nouvelles offres:

  • Les comptes sans-nuage individuels passent de 2G à 5G (répartis par défaut à 2G pour le mail et 3G pour le nextcloud). Vous pouvez demander par mail à changer la répartitions de vos 5G.
  • Il est possible d’avoir un compte individuels supplémentaire pour 12€/an (par exemple pour un membre de votre famille qui ne tient pas spécialement à adhérer à ARN)
  • Un compte spécial pour les petites associations a été créé, il coûte 35€/an (en plus de l’adhésion à 15€). Il permet d’avoir 15G répartit par défaut à 5G pour le mail et 10G pour nextcloud. Ce compte permet de créer jusqu’à 10 comptes supplémentaires (sans coûts supplémentaires) avec 1G de mail et 0 pour nextcloud. Les 10 comptes ainsi créé se retrouvent dans un groupe YunoHost au nom de l’utilisateur créé sur l’espace adhérent. Il est alors possible de partager les 10G de nextcloud entre tout ces comptes.

Lundi 5 Juillet - Mises à jour de Matrix et Mumble

  • arn-messager - A tester
  • Element - OK
  • Synapse - OK
  • Mumble - OK
  • Installation de Mumble Web - A tester

Edit 8/7 Re-mise en place de l’extinction du bridge whatsapp la nuit entre 1H et 7H.

Mardi 20 juillet - Mises à jour Nextcloud + réparation de la remontée des statuts pour les VPS

Pour des raisons de sécurité nous allons procéder à la mise à jour de Nextcloud.

Le script de remontée des statuts de vos VPS a également été mis à jour pour que la pastille associée à ce service dans l’interface adhérents (COIN) soit de la bonne couleur selon le statuts.

2 « J'aime »

Samedi 24 juillet - Mise à jour de plusieurs apps sans-nuage.fr

Plusieurs apps sans-nuage.fr ont été mises à jour.

L’app opensondage et l’interface adhérents étaient injoignable ce dimanche. Le problème vient d’être résolu.

Mercredi 8 septembre 2021 à 9h - Mise à jour Nextcloud

Nextcloud va être mis à jour pendant les heures ouvrés (d’ici quelques minutes) pour des raisons de sécurité.
Désolé pour le dérangement.
EDIT: Malgré un petit incident avec mariadb, Nextcloud est de nouveau disponible en version 22.1 :slight_smile:

2 « J'aime »

Mardi 14 septembre 2021 à 9h - Mise à Jour Element

Element a été mis à jour rapidement pour corriger une faille de sécurité.

1 « J'aime »

Lundi 27 septembre 2021 à 12h40 - Perturbations des services

Suite à une maintenance sur un nœud du cluster consistant à ajouter un disque SSD à la grappe raid5 en vue de la création de nouveaux VPS, nous constatons que certains services des VM d’ARN se sont éteint pour une raison qui reste à déterminer.
Il est probable que des VPS d’adhérent⋅es aient aussi été impactés. N’hésitez pas à nous le signaler sur le support.
Le forum et l’interface adhérent⋅e étaient injoignables pendant 20 minutes, les pads ne sont pas encore relancés.

Il reste environ 9h avant que la grappe soient totalement reconstruites, des perturbations pourraient encore avoir lieu d’ici là.
EDIT 21:00 : le redimensionnement à chaud de la grappe raid5 est finie, au final il semble que cette opération n’est pas la cause des problèmes rencontrés aujourd’hui !

1 « J'aime »

Lundi 27 septembre 2021 à 12h20 - Perturbations des services

Mise à jour de Discourse et du serveur.

Dans le détail :
Mise à jour plantée via l’interface d’administration web.
En direct sur le serveur il n’y avait pas assez de place pour telecharger/decompresser (1.7Go libre).

Pour arriver à ~5Go de libre j’ai du :

  • supprimer les containers inactifs,
  • supprimer les sauvegardes du forum /var/discourse/shared/standalone/backups/default

Puis relancer la création du container en désactivant les vérifications d’espace disponible (/var/discourse/launcher rebuild app --skip-prereqs). Voila :slight_smile:

Maintenant il affiche ~6Go de libre (mais les sauvegardes vont en prendre 4).
Je conseille très vivement de rajouter de l’espace disque sur la machine (5 ou 10Go).
Ca seraplus confortable pour les mise a jours et ca évitera les interruptions de service.

EDIT ljf: bon bah l’interprétation de mon message précédent est peut être fausse alors…

Lundi 27 septembre 2021 à 15h00 - Panne sur sans-nuage.fr

Une analyse plus fine du problème de ce matin montre qu’en réalité:

  • la panne du forum est dû à l’opération de maintenance décrite par gyom
  • la panne sur sans-nuage est liée à un manque d’espace suite à la croissance rapide de la base de données des pads. Cette croissance rapide peut potentiellement avoir été déclenchée par l’augmentation du cluster.

Les pads et les services utilisant postgresql (comme mobilizon, matrix) sont en pannes. On va tenter de restaurer la base de données des pads dans son état de cette nuit.

EDIT 20:00: matrix et mobilizon sont de retour, mais les apps mysql sont à l’arrêt le temps de réparer la table store de notre pad. Work in progress…
EDIT 23:00: afin de ne pas pénaliser plus longtemps les usager⋅es du cloud et du webmail, nous avons réactivé la base mysql mais la base etherpad reste corrompue. Du fait de sa taille, nous ne sommes pour l’instant pas en mesure de la restaurer dans un état stable, les pads sont donc indisponibles pour une durée non déterminée. Nous sommes désolé de cet incident et réfléchissons aux solutions possibles. SI vous avez un travail urgent, nous pouvons toutefois probablement réussir à extraire le texte de votre pad si vous nous donnez l’URL exacte.
EDIT 13:00: A ce stade, ~400 pads édités les plus récemment ont étés récupérés par notre script (sans mise en forme). SI vous utilisez libreto, et que le menu de votre libreto n’a pas encore été restauré, vous pouvez essayer: de retrouver les pads en faisant https://pad.sans-nuage.fr/p/libreto+NOM-LIBRETO_EN_MINUSCULE+NOM-PAD-EN-MINUSCULE
EDIT 03/10/2021: Nous avons finalement restauré 3600 pads sur 4800. Parmis les 1200 restants il y a principalement des pads sans contenu, avec le texte par défaut ou avec moins de 100 changements. Bien que nous avons la mise en forme de plus de 2000 pads, celle-ci ne sera pas restauré car l’opération est trop complexe du fait de la façon de fonctionner d’etherpad.

4 « J'aime »

Mardi 06 Octobre 2021 à 00h00 - Mise-à-jour Matrix

  • Màj de notre serveur synapse en version 1.42 avec support des espaces
  • Màj du bridge whatsapp en version 0.1.8
  • Màj des applis de la VM lineageOS

Jeudi 7 / 14 / 21 / 28 octobre 2021 - Maintenance générale de l’infra

Dans le but de bichonner l’infrastructure (vérification sauvegardes, mise à jour, migration, ouvertures de services…), nous organisons des réunions de maintenance tous les jeudi soir d’octobre 2021 à partir de 20h. Il est donc possible que des coupures puissent avoir lieux les jeudis en fin de soirée.

1 « J'aime »

Vendredi 8 octobre 2021 - Mail en @arn-fai.net vers le forum non fonctionnels

Nous avons identifié que nos mails de support ne sont plus opérationnels. Un bénévole va chercher une solution ce soir.
En attendant vous pouvez nous contacter par chat ou via message privé sur le forum en écrivant à @CA-ARN .

Vendredi 8 octobre 2021 - Mail en @arn-fai.net vers le forum non fonctionnel

D’après mes tests la réponse par mail est de nouveau opérationnelle.
Intervention : https://meta.discourse.org/t/lets-encrypt-x3-nightmare/204918/11

docker pull discourse/mail-receiver:release
cd /var/discourse
./launcher rebuild mail-receiver

Désolé pour le derangement.

2 « J'aime »

Jeudi 4 novembre 2021 - Passerelle Matrix-Whatsapp réparée par mise-à-jour

Depuis le début de la semaine une mise-à-jour de Whatsapp rendait notre passerelle inopérante.
Edit: La passerelle a été mise-à-jour à la version 0.1.10

3 « J'aime »

Jeudi 4 novembre 2021 - Bascule des mails @arn-fai.net sur le nouveau sur le serveur mail

Nous avons basculé ce soir les mails en @arn-fai.net vers le nouveau serveur mail géré via un yunohost.

2 « J'aime »