Jeudi 4 novembre 2021 - Passerelle Matrix-Whatsapp réparée par mise-à-jour
Depuis le début de la semaine une mise-à-jour de Whatsapp rendait notre passerelle inopérante.
Edit: La passerelle a été mise-à-jour à la version 0.1.10
Depuis le début de la semaine une mise-à-jour de Whatsapp rendait notre passerelle inopérante.
Edit: La passerelle a été mise-à-jour à la version 0.1.10
Nous avons basculé ce soir les mails en @arn-fai.net vers le nouveau serveur mail géré via un yunohost.
Une tache cron de nettoyage était en panne, ce qui remplissait petit à petit notre sans-nuage.fr. Le problème est corrigé, le serveur a failli atteindre sa capacité mais nous sommes a priori intervenu à temps.
OnlyOffice màj et intégration avec Nextcloud réparée. Au passage on a repéré que le paquet Yunohost était pas trop qualitatif et commencé à l’améliorer https://github.com/YunoHost-Apps/onlyoffice_ynh/pull/73/files.
On a contourné des problèmes qui peuvent venir du paquet upstream. On va clarifier tout ca et prendre plus notre temps avant une màj d’app Nextcloud pour éviter de se retrouver dans cette situation…
Prière de vérifier ou FAIRE VOS SAUVEGARDES!!! On n’est jamais à l’abri d’une perte de service longue, voire de pertes de données lors d’une opération de redémarrage d’un cluster de serveurs. Nous nous sommes assurés que les services d’ARN sont correctement sauvegardés.
Nous rappelons aux heureux propriétaires de VPS que ceux-ci ne sont pas sauvegardés par ARN. Vous êtes entièrement responsables de vos données. Voir nos CGU.
Précision: les VPS sont redondés (sur 2 serveurs physiques), on va logiquement migrer à chaud les VM d’un nœud du cluster à l’autre pour éviter le downtime trop long. Mais on craint tout de même des problèmes réseaux imprévus car nos nœuds de cluster sont aussi nos routeurs BGP. Donc attendez-vous à ce que la journée du samedi soit en pointillés et pensez à vérifier que vos serveurs sont en mesure de redémarrer correctement cette semaine.
ET surtout vérifier/faites vos sauvegardes.
Il se peut que la passerelle et le serveur Matrix connaisse quelques coupures. De plus la mise en place de salon miroirs ne sera pas possible pendant quelques temps.
EDIT: on a bien avancé mercredi. Les groupes bridgés avant la màj le sont de nouveau. Il nous reste à tester, fignoler et documenter le nouveau mécanisme de mise-en-relation.
Le serveur matrix n’est plus joignable. On cherche pourquoi.
EDIT 16/02/2022 à 00:30: C’est réparé (les bases de données postgresql et mongod étaient éteintes).
L’incident vient d’être découvert, recherche en cours.
EDIT 15:33: Problème résolu via une mise à jour d’une librairie PHP et relancement des services. Merci @Tom et @Irina pour le signalement
On met à jour COIN vers la nouvelle version
PS: Au fait on a réparé le bridge Matrix/whatsapp https://wiki.arn-fai.net/documentation:sans-nuage:whatsapp
EDIT 20:30: La maintenance est finie (mais on recommencera peut être tout à l’heure
Pour une mystérieuse raison le SSD de sans-nuage était full ce qui a fait tomber plein de services.
On est entrain de redémarrer et d’identifier la cause du remplissage.
EDIT: etherpad et matrix sont repartis: Faites signe si vous avez un pb
La mise à jour à pris un peu de temps. Du coup petite interruption de service au niveau du forum mais tout devraient être de nouveau disponible.
Le disque était de nouveau plein. Après un examen approfondis c’est lié en réalité à un point de montage qui a sauté lors d’une mise à jour remplissant notre SSD au lieu de la partie HDD.
Une maintenance est à prévoir ce week end (avec 5/10min de downtime)
Plusieurs services du serveur sans-nuage.fr ont été mis à jour. Nous avons aussi ajouté des hooks pour appliquer plus proprement des modifications sur des configurations internes.
Le bandeau étant à refaire et présentant des incompatibilités évidentes avec certaines applications il a été désactivé le temps de trouver une solution.
Les pads étaient impactés de façon importantes depuis la mise à jour de mardi (et nextcloud dans une moindre mesure).
Suite à une mise à jour Mardi qui n’a pas bien fonctionnée, le service wekan est toujours en panne. Au vu de la complexité pour réparer, nous avons choisis d’attendre des plaintes à ce sujet car nous n’étions pas sûr de la réelle utilisation du service. A ce jour, seulement 2 personnes ont signalé l’utiliser.
Nous souhaiterions migrer vers Nextcloud Desk qui comporte des fonctionnalités en moins mais également d’autres en plus. Nous allons évaluer avec les 2 personnes concernées la difficulté pour elles de migrer le contenu de leur tableau wekan et décider si ça vaut le coup de passer une dizaine d’heures bénévoles pour réparer wekan.
EDIT 17/03/2022: Ce soir, nous allons réessayer de déployer notre wekan avec les données pour les 3 personnes qui en ont fait la demande. J’ai produis un comparatif rapide Wekan / Nextcloud Deck.
EDIT 22/03/2022: J’ai finalement trouvé un peu de temps pour réparer ça. C’est de nouveau UP, mais l’avenir du service est remis en question.
Pour une raison inconnue le bridge était down (service debian) et le bridge était logout avec un message d’erreur apparaissant dans l’application whatsapp du type « pour une raison inconnue votre session a été déconnectée ».
Après redémarrage du bridge et login ça semble etre à nouveau fonctionnel. La panne a pu durer plusieurs jours, elle est résolue. Malheureusement les messages passés entre-temps ne sont pas récupérés. Il faudrait voir si on peut améliorer ça via les paramètres du bridge #backfill .
Il y avait un soucis de synchronisation entre les 2 applications. Les fichiers potentiellement impactés ont été copié à côté avec un suffixe _backup ou _conflict en plus. Il est probable qu’il n’y ait pas de différence entre les fichiers, mais nous avons préféré cette solution plutôt que de prendre le risque que vous ne remarquiez pas les différences entre vos fichiers. Les fichiers originaux sont à consulter dans OnlyOffice.
Le détail du dépannage est ici: https://forum.yunohost.org/t/how-to-fix-differencies-between-onlyoffice-files-and-nextcloud-files/19195
EDIT 27/03/2022: les fichiers « _backup » ne pouvaient pas être supprimé, ils le sont désormais.
RAS tout s’est bien passé et était up en 15min.
Cogent va faire une vérification sur un groupe électrogène. A priori, aucune coupure à prévoir, mais vu que notre switch n’a qu’une seule arrivée électrique (au contraire du reste de l’infra) on se tiendra prêt à y faire un saut au cas où c’est nécessaire.