Samedi 24 juillet - Mise à jour de plusieurs apps sans-nuage.fr
Plusieurs apps sans-nuage.fr ont été mises à jour.
L’app opensondage et l’interface adhérents étaient injoignable ce dimanche. Le problème vient d’être résolu.
Plusieurs apps sans-nuage.fr ont été mises à jour.
L’app opensondage et l’interface adhérents étaient injoignable ce dimanche. Le problème vient d’être résolu.
Nextcloud va être mis à jour pendant les heures ouvrés (d’ici quelques minutes) pour des raisons de sécurité.
Désolé pour le dérangement.
EDIT: Malgré un petit incident avec mariadb, Nextcloud est de nouveau disponible en version 22.1
Element a été mis à jour rapidement pour corriger une faille de sécurité.
Suite à une maintenance sur un nœud du cluster consistant à ajouter un disque SSD à la grappe raid5 en vue de la création de nouveaux VPS, nous constatons que certains services des VM d’ARN se sont éteint pour une raison qui reste à déterminer.
Il est probable que des VPS d’adhérent⋅es aient aussi été impactés. N’hésitez pas à nous le signaler sur le support.
Le forum et l’interface adhérent⋅e étaient injoignables pendant 20 minutes, les pads ne sont pas encore relancés.
Il reste environ 9h avant que la grappe soient totalement reconstruites, des perturbations pourraient encore avoir lieu d’ici là.
EDIT 21:00 : le redimensionnement à chaud de la grappe raid5 est finie, au final il semble que cette opération n’est pas la cause des problèmes rencontrés aujourd’hui !
Mise à jour de Discourse et du serveur.
Dans le détail :
Mise à jour plantée via l’interface d’administration web.
En direct sur le serveur il n’y avait pas assez de place pour telecharger/decompresser (1.7Go libre).
Pour arriver à ~5Go de libre j’ai du :
Puis relancer la création du container en désactivant les vérifications d’espace disponible (/var/discourse/launcher rebuild app --skip-prereqs). Voila
Maintenant il affiche ~6Go de libre (mais les sauvegardes vont en prendre 4).
Je conseille très vivement de rajouter de l’espace disque sur la machine (5 ou 10Go).
Ca seraplus confortable pour les mise a jours et ca évitera les interruptions de service.
EDIT ljf: bon bah l’interprétation de mon message précédent est peut être fausse alors…
Une analyse plus fine du problème de ce matin montre qu’en réalité:
Les pads et les services utilisant postgresql (comme mobilizon, matrix) sont en pannes. On va tenter de restaurer la base de données des pads dans son état de cette nuit.
EDIT 20:00: matrix et mobilizon sont de retour, mais les apps mysql sont à l’arrêt le temps de réparer la table store de notre pad. Work in progress…
EDIT 23:00: afin de ne pas pénaliser plus longtemps les usager⋅es du cloud et du webmail, nous avons réactivé la base mysql mais la base etherpad reste corrompue. Du fait de sa taille, nous ne sommes pour l’instant pas en mesure de la restaurer dans un état stable, les pads sont donc indisponibles pour une durée non déterminée. Nous sommes désolé de cet incident et réfléchissons aux solutions possibles. SI vous avez un travail urgent, nous pouvons toutefois probablement réussir à extraire le texte de votre pad si vous nous donnez l’URL exacte.
EDIT 13:00: A ce stade, ~400 pads édités les plus récemment ont étés récupérés par notre script (sans mise en forme). SI vous utilisez libreto, et que le menu de votre libreto n’a pas encore été restauré, vous pouvez essayer: de retrouver les pads en faisant https://pad.sans-nuage.fr/p/libreto+NOM-LIBRETO_EN_MINUSCULE+NOM-PAD-EN-MINUSCULE
EDIT 03/10/2021: Nous avons finalement restauré 3600 pads sur 4800. Parmis les 1200 restants il y a principalement des pads sans contenu, avec le texte par défaut ou avec moins de 100 changements. Bien que nous avons la mise en forme de plus de 2000 pads, celle-ci ne sera pas restauré car l’opération est trop complexe du fait de la façon de fonctionner d’etherpad.
Dans le but de bichonner l’infrastructure (vérification sauvegardes, mise à jour, migration, ouvertures de services…), nous organisons des réunions de maintenance tous les jeudi soir d’octobre 2021 à partir de 20h. Il est donc possible que des coupures puissent avoir lieux les jeudis en fin de soirée.
Nous avons identifié que nos mails de support ne sont plus opérationnels. Un bénévole va chercher une solution ce soir.
En attendant vous pouvez nous contacter par chat ou via message privé sur le forum en écrivant à @CA-ARN .
D’après mes tests la réponse par mail est de nouveau opérationnelle.
Intervention : https://meta.discourse.org/t/lets-encrypt-x3-nightmare/204918/11
docker pull discourse/mail-receiver:release
cd /var/discourse
./launcher rebuild mail-receiver
Désolé pour le derangement.
Depuis le début de la semaine une mise-à-jour de Whatsapp rendait notre passerelle inopérante.
Edit: La passerelle a été mise-à-jour à la version 0.1.10
Nous avons basculé ce soir les mails en @arn-fai.net vers le nouveau serveur mail géré via un yunohost.
Une tache cron de nettoyage était en panne, ce qui remplissait petit à petit notre sans-nuage.fr. Le problème est corrigé, le serveur a failli atteindre sa capacité mais nous sommes a priori intervenu à temps.
OnlyOffice màj et intégration avec Nextcloud réparée. Au passage on a repéré que le paquet Yunohost était pas trop qualitatif et commencé à l’améliorer https://github.com/YunoHost-Apps/onlyoffice_ynh/pull/73/files.
On a contourné des problèmes qui peuvent venir du paquet upstream. On va clarifier tout ca et prendre plus notre temps avant une màj d’app Nextcloud pour éviter de se retrouver dans cette situation…
Prière de vérifier ou FAIRE VOS SAUVEGARDES!!! On n’est jamais à l’abri d’une perte de service longue, voire de pertes de données lors d’une opération de redémarrage d’un cluster de serveurs. Nous nous sommes assurés que les services d’ARN sont correctement sauvegardés.
Nous rappelons aux heureux propriétaires de VPS que ceux-ci ne sont pas sauvegardés par ARN. Vous êtes entièrement responsables de vos données. Voir nos CGU.
Précision: les VPS sont redondés (sur 2 serveurs physiques), on va logiquement migrer à chaud les VM d’un nœud du cluster à l’autre pour éviter le downtime trop long. Mais on craint tout de même des problèmes réseaux imprévus car nos nœuds de cluster sont aussi nos routeurs BGP. Donc attendez-vous à ce que la journée du samedi soit en pointillés et pensez à vérifier que vos serveurs sont en mesure de redémarrer correctement cette semaine.
ET surtout vérifier/faites vos sauvegardes.
Il se peut que la passerelle et le serveur Matrix connaisse quelques coupures. De plus la mise en place de salon miroirs ne sera pas possible pendant quelques temps.
EDIT: on a bien avancé mercredi. Les groupes bridgés avant la màj le sont de nouveau. Il nous reste à tester, fignoler et documenter le nouveau mécanisme de mise-en-relation.
Le serveur matrix n’est plus joignable. On cherche pourquoi.
EDIT 16/02/2022 à 00:30: C’est réparé (les bases de données postgresql et mongod étaient éteintes).
L’incident vient d’être découvert, recherche en cours.
EDIT 15:33: Problème résolu via une mise à jour d’une librairie PHP et relancement des services. Merci @Tom et @Irina pour le signalement
On met à jour COIN vers la nouvelle version
PS: Au fait on a réparé le bridge Matrix/whatsapp https://wiki.arn-fai.net/documentation:sans-nuage:whatsapp
EDIT 20:30: La maintenance est finie (mais on recommencera peut être tout à l’heure