Mardi 06 Octobre 2021 à 00h00 - Mise-à-jour Matrix
- Màj de notre serveur synapse en version 1.42 avec support des espaces
- Màj du bridge whatsapp en version 0.1.8
- Màj des applis de la VM lineageOS
Dans le but de bichonner l’infrastructure (vérification sauvegardes, mise à jour, migration, ouvertures de services…), nous organisons des réunions de maintenance tous les jeudi soir d’octobre 2021 à partir de 20h. Il est donc possible que des coupures puissent avoir lieux les jeudis en fin de soirée.
Nous avons identifié que nos mails de support ne sont plus opérationnels. Un bénévole va chercher une solution ce soir.
En attendant vous pouvez nous contacter par chat ou via message privé sur le forum en écrivant à @CA-ARN .
D’après mes tests la réponse par mail est de nouveau opérationnelle.
Intervention : https://meta.discourse.org/t/lets-encrypt-x3-nightmare/204918/11
docker pull discourse/mail-receiver:release
cd /var/discourse
./launcher rebuild mail-receiver
Désolé pour le derangement.
Depuis le début de la semaine une mise-à-jour de Whatsapp rendait notre passerelle inopérante.
Edit: La passerelle a été mise-à-jour à la version 0.1.10
Nous avons basculé ce soir les mails en @arn-fai.net vers le nouveau serveur mail géré via un yunohost.
Une tache cron de nettoyage était en panne, ce qui remplissait petit à petit notre sans-nuage.fr. Le problème est corrigé, le serveur a failli atteindre sa capacité mais nous sommes a priori intervenu à temps.
OnlyOffice màj et intégration avec Nextcloud réparée. Au passage on a repéré que le paquet Yunohost était pas trop qualitatif et commencé à l’améliorer https://github.com/YunoHost-Apps/onlyoffice_ynh/pull/73/files.
On a contourné des problèmes qui peuvent venir du paquet upstream. On va clarifier tout ca et prendre plus notre temps avant une màj d’app Nextcloud pour éviter de se retrouver dans cette situation…
Prière de vérifier ou FAIRE VOS SAUVEGARDES!!! On n’est jamais à l’abri d’une perte de service longue, voire de pertes de données lors d’une opération de redémarrage d’un cluster de serveurs. Nous nous sommes assurés que les services d’ARN sont correctement sauvegardés.
Nous rappelons aux heureux propriétaires de VPS que ceux-ci ne sont pas sauvegardés par ARN. Vous êtes entièrement responsables de vos données. Voir nos CGU.
Précision: les VPS sont redondés (sur 2 serveurs physiques), on va logiquement migrer à chaud les VM d’un nœud du cluster à l’autre pour éviter le downtime trop long. Mais on craint tout de même des problèmes réseaux imprévus car nos nœuds de cluster sont aussi nos routeurs BGP. Donc attendez-vous à ce que la journée du samedi soit en pointillés et pensez à vérifier que vos serveurs sont en mesure de redémarrer correctement cette semaine.
ET surtout vérifier/faites vos sauvegardes.
Il se peut que la passerelle et le serveur Matrix connaisse quelques coupures. De plus la mise en place de salon miroirs ne sera pas possible pendant quelques temps.
EDIT: on a bien avancé mercredi. Les groupes bridgés avant la màj le sont de nouveau. Il nous reste à tester, fignoler et documenter le nouveau mécanisme de mise-en-relation.
Le serveur matrix n’est plus joignable. On cherche pourquoi.
EDIT 16/02/2022 à 00:30: C’est réparé (les bases de données postgresql et mongod étaient éteintes).
L’incident vient d’être découvert, recherche en cours.
EDIT 15:33: Problème résolu via une mise à jour d’une librairie PHP et relancement des services. Merci @Tom et @Irina pour le signalement
On met à jour COIN vers la nouvelle version
PS: Au fait on a réparé le bridge Matrix/whatsapp https://wiki.arn-fai.net/documentation:sans-nuage:whatsapp
EDIT 20:30: La maintenance est finie (mais on recommencera peut être tout à l’heure
Pour une mystérieuse raison le SSD de sans-nuage était full ce qui a fait tomber plein de services.
On est entrain de redémarrer et d’identifier la cause du remplissage.
EDIT: etherpad et matrix sont repartis: Faites signe si vous avez un pb
La mise à jour à pris un peu de temps. Du coup petite interruption de service au niveau du forum mais tout devraient être de nouveau disponible.
Le disque était de nouveau plein. Après un examen approfondis c’est lié en réalité à un point de montage qui a sauté lors d’une mise à jour remplissant notre SSD au lieu de la partie HDD.
Une maintenance est à prévoir ce week end (avec 5/10min de downtime)
Plusieurs services du serveur sans-nuage.fr ont été mis à jour. Nous avons aussi ajouté des hooks pour appliquer plus proprement des modifications sur des configurations internes.
Le bandeau étant à refaire et présentant des incompatibilités évidentes avec certaines applications il a été désactivé le temps de trouver une solution.
Les pads étaient impactés de façon importantes depuis la mise à jour de mardi (et nextcloud dans une moindre mesure).
Suite à une mise à jour Mardi qui n’a pas bien fonctionnée, le service wekan est toujours en panne. Au vu de la complexité pour réparer, nous avons choisis d’attendre des plaintes à ce sujet car nous n’étions pas sûr de la réelle utilisation du service. A ce jour, seulement 2 personnes ont signalé l’utiliser.
Nous souhaiterions migrer vers Nextcloud Desk qui comporte des fonctionnalités en moins mais également d’autres en plus. Nous allons évaluer avec les 2 personnes concernées la difficulté pour elles de migrer le contenu de leur tableau wekan et décider si ça vaut le coup de passer une dizaine d’heures bénévoles pour réparer wekan.
EDIT 17/03/2022: Ce soir, nous allons réessayer de déployer notre wekan avec les données pour les 3 personnes qui en ont fait la demande. J’ai produis un comparatif rapide Wekan / Nextcloud Deck.
EDIT 22/03/2022: J’ai finalement trouvé un peu de temps pour réparer ça. C’est de nouveau UP, mais l’avenir du service est remis en question.