Suivi des incidents et maintenances majeures

Jeudi 4 novembre 2021 - Passerelle Matrix-Whatsapp réparée par mise-à-jour

Depuis le début de la semaine une mise-à-jour de Whatsapp rendait notre passerelle inopérante.
Edit: La passerelle a été mise-à-jour à la version 0.1.10

3 « J'aime »

Jeudi 4 novembre 2021 - Bascule des mails @arn-fai.net sur le nouveau sur le serveur mail

Nous avons basculé ce soir les mails en @arn-fai.net vers le nouveau serveur mail géré via un yunohost.

2 « J'aime »

Mardi 4 janvier 2022 - Nettoyage sur sans-nuage

Une tache cron de nettoyage était en panne, ce qui remplissait petit à petit notre sans-nuage.fr. Le problème est corrigé, le serveur a failli atteindre sa capacité mais nous sommes a priori intervenu à temps.

2 « J'aime »

Vendredi 7 Janvier 2022 - Réparation et Màj OnlyOffice

OnlyOffice màj et intégration avec Nextcloud réparée. Au passage on a repéré que le paquet Yunohost était pas trop qualitatif et commencé à l’améliorer https://github.com/YunoHost-Apps/onlyoffice_ynh/pull/73/files.
On a contourné des problèmes qui peuvent venir du paquet upstream. On va clarifier tout ca et prendre plus notre temps avant une màj d’app Nextcloud pour éviter de se retrouver dans cette situation…

1 « J'aime »

Samedi 5 Février 2022 - INTERVENTION MAJEURE: Ajout de RAM et Redémarrage des serveurs

Prière de vérifier ou FAIRE VOS SAUVEGARDES!!! On n’est jamais à l’abri d’une perte de service longue, voire de pertes de données lors d’une opération de redémarrage d’un cluster de serveurs. Nous nous sommes assurés que les services d’ARN sont correctement sauvegardés.
Nous rappelons aux heureux propriétaires de VPS que ceux-ci ne sont pas sauvegardés par ARN. Vous êtes entièrement responsables de vos données. Voir nos CGU.

1 « J'aime »

Précision: les VPS sont redondés (sur 2 serveurs physiques), on va logiquement migrer à chaud les VM d’un nœud du cluster à l’autre pour éviter le downtime trop long. Mais on craint tout de même des problèmes réseaux imprévus car nos nœuds de cluster sont aussi nos routeurs BGP. Donc attendez-vous à ce que la journée du samedi soit en pointillés et pensez à vérifier que vos serveurs sont en mesure de redémarrer correctement cette semaine.
ET surtout vérifier/faites vos sauvegardes.

1 « J'aime »

Mardi 9 Février 2022 - Mise-à-jour du bridge WhatsApp

Il se peut que la passerelle et le serveur Matrix connaisse quelques coupures. De plus la mise en place de salon miroirs ne sera pas possible pendant quelques temps.

  • FAIT: mise à jour de la VM whatsapp et de l’application vers la version de WhatsApp multi-appareil.
  • FAIT: mise à jour de la passerelle
  • EN COURS: mise à jour du robot arn-messager de mise en relation depuis Matrix vers Whatsapp (peut durer quelques jours/semaines)

EDIT: on a bien avancé mercredi. Les groupes bridgés avant la màj le sont de nouveau. Il nous reste à tester, fignoler et documenter le nouveau mécanisme de mise-en-relation.

1 « J'aime »

Mardi 15 Février 2022 à 21h30 - Serveur matrix non joignable

Le serveur matrix n’est plus joignable. On cherche pourquoi.

EDIT 16/02/2022 à 00:30: C’est réparé (les bases de données postgresql et mongod étaient éteintes).

Mercredi 16 février - Nextcloud, Lufi et Framaforms down

L’incident vient d’être découvert, recherche en cours.
EDIT 15:33: Problème résolu via une mise à jour d’une librairie PHP et relancement des services. Merci @Tom et @Irina pour le signalement

1 « J'aime »

Dimanche 20 février à 18:40 - Maintenance COIN

On met à jour COIN vers la nouvelle version

PS: Au fait on a réparé le bridge Matrix/whatsapp https://wiki.arn-fai.net/documentation:sans-nuage:whatsapp

EDIT 20:30: La maintenance est finie (mais on recommencera peut être tout à l’heure

Samedi 26 février à 4H - Panne etherpad, Matrix,…

Pour une mystérieuse raison le SSD de sans-nuage était full ce qui a fait tomber plein de services.
On est entrain de redémarrer et d’identifier la cause du remplissage.

EDIT: etherpad et matrix sont repartis: Faites signe si vous avez un pb

2 « J'aime »

Lundi 28 février : Mise à jour Discourse

La mise à jour à pris un peu de temps. Du coup petite interruption de service au niveau du forum mais tout devraient être de nouveau disponible.

1 « J'aime »

Vendredi 5 mars - bis repetita pour sans-nuage

Le disque était de nouveau plein. Après un examen approfondis c’est lié en réalité à un point de montage qui a sauté lors d’une mise à jour remplissant notre SSD au lieu de la partie HDD.
Une maintenance est à prévoir ce week end (avec 5/10min de downtime)

Mardi 8 mars - Mise à jour sans-nuage.fr

Plusieurs services du serveur sans-nuage.fr ont été mis à jour. Nous avons aussi ajouté des hooks pour appliquer plus proprement des modifications sur des configurations internes.

Jeudi 10 mars - Suppression du bandeau ARN sur sans-nuage.fr

Le bandeau étant à refaire et présentant des incompatibilités évidentes avec certaines applications il a été désactivé le temps de trouver une solution.
Les pads étaient impactés de façon importantes depuis la mise à jour de mardi (et nextcloud dans une moindre mesure).

1 « J'aime »

Dimanche 13 mars - A propos de Wekan

Suite à une mise à jour Mardi qui n’a pas bien fonctionnée, le service wekan est toujours en panne. Au vu de la complexité pour réparer, nous avons choisis d’attendre des plaintes à ce sujet car nous n’étions pas sûr de la réelle utilisation du service. A ce jour, seulement 2 personnes ont signalé l’utiliser.

Nous souhaiterions migrer vers Nextcloud Desk qui comporte des fonctionnalités en moins mais également d’autres en plus. Nous allons évaluer avec les 2 personnes concernées la difficulté pour elles de migrer le contenu de leur tableau wekan et décider si ça vaut le coup de passer une dizaine d’heures bénévoles pour réparer wekan.

https://sans-nuage.fr/task/

EDIT 17/03/2022: Ce soir, nous allons réessayer de déployer notre wekan avec les données pour les 3 personnes qui en ont fait la demande. J’ai produis un comparatif rapide Wekan / Nextcloud Deck.
EDIT 22/03/2022: J’ai finalement trouvé un peu de temps pour réparer ça. C’est de nouveau UP, mais l’avenir du service est remis en question.

Lundi 14 Mars - Panne du bridge Whatsapp

Pour une raison inconnue le bridge était down (service debian) et le bridge était logout avec un message d’erreur apparaissant dans l’application whatsapp du type « pour une raison inconnue votre session a été déconnectée ».
Après redémarrage du bridge et login ça semble etre à nouveau fonctionnel. La panne a pu durer plusieurs jours, elle est résolue. Malheureusement les messages passés entre-temps ne sont pas récupérés. Il faudrait voir si on peut améliorer ça via les paramètres du bridge #backfill .

1 « J'aime »

Mercredi 23 Mars - Résolution d’un bug entre OnlyOffice et Nextcloud

Il y avait un soucis de synchronisation entre les 2 applications. Les fichiers potentiellement impactés ont été copié à côté avec un suffixe _backup ou _conflict en plus. Il est probable qu’il n’y ait pas de différence entre les fichiers, mais nous avons préféré cette solution plutôt que de prendre le risque que vous ne remarquiez pas les différences entre vos fichiers. Les fichiers originaux sont à consulter dans OnlyOffice.

Le détail du dépannage est ici: https://forum.yunohost.org/t/how-to-fix-differencies-between-onlyoffice-files-and-nextcloud-files/19195

EDIT 27/03/2022: les fichiers « _backup » ne pouvaient pas être supprimé, ils le sont désormais.

1 « J'aime »

Dimanche 1 mai à 23h45 - Mise à jour de sécurité Nextcloud vers 22.2.7

RAS tout s’est bien passé et était up en 15min.

2 « J'aime »

Jeudi 12 mai de 9h à 14h30 - Maintenance chez Cogent

Cogent va faire une vérification sur un groupe électrogène. A priori, aucune coupure à prévoir, mais vu que notre switch n’a qu’une seule arrivée électrique (au contraire du reste de l’infra) on se tiendra prêt à y faire un saut au cas où c’est nécessaire.

1 « J'aime »