Suivi des incidents et maintenances majeures

Samedi 24 juillet - Mise à jour de plusieurs apps sans-nuage.fr

Plusieurs apps sans-nuage.fr ont été mises à jour.

L’app opensondage et l’interface adhérents étaient injoignable ce dimanche. Le problème vient d’être résolu.

Mercredi 8 septembre 2021 à 9h - Mise à jour Nextcloud

Nextcloud va être mis à jour pendant les heures ouvrés (d’ici quelques minutes) pour des raisons de sécurité.
Désolé pour le dérangement.
EDIT: Malgré un petit incident avec mariadb, Nextcloud est de nouveau disponible en version 22.1 :slight_smile:

2 « J'aime »

Mardi 14 septembre 2021 à 9h - Mise à Jour Element

Element a été mis à jour rapidement pour corriger une faille de sécurité.

1 « J'aime »

Lundi 27 septembre 2021 à 12h40 - Perturbations des services

Suite à une maintenance sur un nœud du cluster consistant à ajouter un disque SSD à la grappe raid5 en vue de la création de nouveaux VPS, nous constatons que certains services des VM d’ARN se sont éteint pour une raison qui reste à déterminer.
Il est probable que des VPS d’adhérent⋅es aient aussi été impactés. N’hésitez pas à nous le signaler sur le support.
Le forum et l’interface adhérent⋅e étaient injoignables pendant 20 minutes, les pads ne sont pas encore relancés.

Il reste environ 9h avant que la grappe soient totalement reconstruites, des perturbations pourraient encore avoir lieu d’ici là.
EDIT 21:00 : le redimensionnement à chaud de la grappe raid5 est finie, au final il semble que cette opération n’est pas la cause des problèmes rencontrés aujourd’hui !

1 « J'aime »

Lundi 27 septembre 2021 à 12h20 - Perturbations des services

Mise à jour de Discourse et du serveur.

Dans le détail :
Mise à jour plantée via l’interface d’administration web.
En direct sur le serveur il n’y avait pas assez de place pour telecharger/decompresser (1.7Go libre).

Pour arriver à ~5Go de libre j’ai du :

  • supprimer les containers inactifs,
  • supprimer les sauvegardes du forum /var/discourse/shared/standalone/backups/default

Puis relancer la création du container en désactivant les vérifications d’espace disponible (/var/discourse/launcher rebuild app --skip-prereqs). Voila :slight_smile:

Maintenant il affiche ~6Go de libre (mais les sauvegardes vont en prendre 4).
Je conseille très vivement de rajouter de l’espace disque sur la machine (5 ou 10Go).
Ca seraplus confortable pour les mise a jours et ca évitera les interruptions de service.

EDIT ljf: bon bah l’interprétation de mon message précédent est peut être fausse alors…

Lundi 27 septembre 2021 à 15h00 - Panne sur sans-nuage.fr

Une analyse plus fine du problème de ce matin montre qu’en réalité:

  • la panne du forum est dû à l’opération de maintenance décrite par gyom
  • la panne sur sans-nuage est liée à un manque d’espace suite à la croissance rapide de la base de données des pads. Cette croissance rapide peut potentiellement avoir été déclenchée par l’augmentation du cluster.

Les pads et les services utilisant postgresql (comme mobilizon, matrix) sont en pannes. On va tenter de restaurer la base de données des pads dans son état de cette nuit.

EDIT 20:00: matrix et mobilizon sont de retour, mais les apps mysql sont à l’arrêt le temps de réparer la table store de notre pad. Work in progress…
EDIT 23:00: afin de ne pas pénaliser plus longtemps les usager⋅es du cloud et du webmail, nous avons réactivé la base mysql mais la base etherpad reste corrompue. Du fait de sa taille, nous ne sommes pour l’instant pas en mesure de la restaurer dans un état stable, les pads sont donc indisponibles pour une durée non déterminée. Nous sommes désolé de cet incident et réfléchissons aux solutions possibles. SI vous avez un travail urgent, nous pouvons toutefois probablement réussir à extraire le texte de votre pad si vous nous donnez l’URL exacte.
EDIT 13:00: A ce stade, ~400 pads édités les plus récemment ont étés récupérés par notre script (sans mise en forme). SI vous utilisez libreto, et que le menu de votre libreto n’a pas encore été restauré, vous pouvez essayer: de retrouver les pads en faisant https://pad.sans-nuage.fr/p/libreto+NOM-LIBRETO_EN_MINUSCULE+NOM-PAD-EN-MINUSCULE
EDIT 03/10/2021: Nous avons finalement restauré 3600 pads sur 4800. Parmis les 1200 restants il y a principalement des pads sans contenu, avec le texte par défaut ou avec moins de 100 changements. Bien que nous avons la mise en forme de plus de 2000 pads, celle-ci ne sera pas restauré car l’opération est trop complexe du fait de la façon de fonctionner d’etherpad.

4 « J'aime »

Mardi 06 Octobre 2021 à 00h00 - Mise-à-jour Matrix

  • Màj de notre serveur synapse en version 1.42 avec support des espaces
  • Màj du bridge whatsapp en version 0.1.8
  • Màj des applis de la VM lineageOS

Jeudi 7 / 14 / 21 / 28 octobre 2021 - Maintenance générale de l’infra

Dans le but de bichonner l’infrastructure (vérification sauvegardes, mise à jour, migration, ouvertures de services…), nous organisons des réunions de maintenance tous les jeudi soir d’octobre 2021 à partir de 20h. Il est donc possible que des coupures puissent avoir lieux les jeudis en fin de soirée.

1 « J'aime »

Vendredi 8 octobre 2021 - Mail en @arn-fai.net vers le forum non fonctionnels

Nous avons identifié que nos mails de support ne sont plus opérationnels. Un bénévole va chercher une solution ce soir.
En attendant vous pouvez nous contacter par chat ou via message privé sur le forum en écrivant à @CA-ARN .

Vendredi 8 octobre 2021 - Mail en @arn-fai.net vers le forum non fonctionnel

D’après mes tests la réponse par mail est de nouveau opérationnelle.
Intervention : https://meta.discourse.org/t/lets-encrypt-x3-nightmare/204918/11

docker pull discourse/mail-receiver:release
cd /var/discourse
./launcher rebuild mail-receiver

Désolé pour le derangement.

2 « J'aime »

Jeudi 4 novembre 2021 - Passerelle Matrix-Whatsapp réparée par mise-à-jour

Depuis le début de la semaine une mise-à-jour de Whatsapp rendait notre passerelle inopérante.
Edit: La passerelle a été mise-à-jour à la version 0.1.10

3 « J'aime »

Jeudi 4 novembre 2021 - Bascule des mails @arn-fai.net sur le nouveau sur le serveur mail

Nous avons basculé ce soir les mails en @arn-fai.net vers le nouveau serveur mail géré via un yunohost.

2 « J'aime »

Mardi 4 janvier 2022 - Nettoyage sur sans-nuage

Une tache cron de nettoyage était en panne, ce qui remplissait petit à petit notre sans-nuage.fr. Le problème est corrigé, le serveur a failli atteindre sa capacité mais nous sommes a priori intervenu à temps.

2 « J'aime »

Vendredi 7 Janvier 2022 - Réparation et Màj OnlyOffice

OnlyOffice màj et intégration avec Nextcloud réparée. Au passage on a repéré que le paquet Yunohost était pas trop qualitatif et commencé à l’améliorer https://github.com/YunoHost-Apps/onlyoffice_ynh/pull/73/files.
On a contourné des problèmes qui peuvent venir du paquet upstream. On va clarifier tout ca et prendre plus notre temps avant une màj d’app Nextcloud pour éviter de se retrouver dans cette situation…

1 « J'aime »

Samedi 5 Février 2022 - INTERVENTION MAJEURE: Ajout de RAM et Redémarrage des serveurs

Prière de vérifier ou FAIRE VOS SAUVEGARDES!!! On n’est jamais à l’abri d’une perte de service longue, voire de pertes de données lors d’une opération de redémarrage d’un cluster de serveurs. Nous nous sommes assurés que les services d’ARN sont correctement sauvegardés.
Nous rappelons aux heureux propriétaires de VPS que ceux-ci ne sont pas sauvegardés par ARN. Vous êtes entièrement responsables de vos données. Voir nos CGU.

1 « J'aime »

Précision: les VPS sont redondés (sur 2 serveurs physiques), on va logiquement migrer à chaud les VM d’un nœud du cluster à l’autre pour éviter le downtime trop long. Mais on craint tout de même des problèmes réseaux imprévus car nos nœuds de cluster sont aussi nos routeurs BGP. Donc attendez-vous à ce que la journée du samedi soit en pointillés et pensez à vérifier que vos serveurs sont en mesure de redémarrer correctement cette semaine.
ET surtout vérifier/faites vos sauvegardes.

1 « J'aime »

Mardi 9 Février 2022 - Mise-à-jour du bridge WhatsApp

Il se peut que la passerelle et le serveur Matrix connaisse quelques coupures. De plus la mise en place de salon miroirs ne sera pas possible pendant quelques temps.

  • FAIT: mise à jour de la VM whatsapp et de l’application vers la version de WhatsApp multi-appareil.
  • FAIT: mise à jour de la passerelle
  • EN COURS: mise à jour du robot arn-messager de mise en relation depuis Matrix vers Whatsapp (peut durer quelques jours/semaines)

EDIT: on a bien avancé mercredi. Les groupes bridgés avant la màj le sont de nouveau. Il nous reste à tester, fignoler et documenter le nouveau mécanisme de mise-en-relation.

1 « J'aime »

Mardi 15 Février 2022 à 21h30 - Serveur matrix non joignable

Le serveur matrix n’est plus joignable. On cherche pourquoi.

EDIT 16/02/2022 à 00:30: C’est réparé (les bases de données postgresql et mongod étaient éteintes).

Mercredi 16 février - Nextcloud, Lufi et Framaforms down

L’incident vient d’être découvert, recherche en cours.
EDIT 15:33: Problème résolu via une mise à jour d’une librairie PHP et relancement des services. Merci @Tom et @Irina pour le signalement

1 « J'aime »

Dimanche 20 février à 18:40 - Maintenance COIN

On met à jour COIN vers la nouvelle version

PS: Au fait on a réparé le bridge Matrix/whatsapp https://wiki.arn-fai.net/documentation:sans-nuage:whatsapp

EDIT 20:30: La maintenance est finie (mais on recommencera peut être tout à l’heure