Suivi des incidents et maintenances majeures

GautGaut · Octobre 5, 2021, 11:55

Mardi 06 Octobre 2021 à 00h00 - Mise-à-jour Matrix

Màj de notre serveur synapse en version 1.42 avec support des espaces
Màj du bridge whatsapp en version 0.1.8
Màj des applis de la VM lineageOS

ljf · Octobre 7, 2021, 1:34

Jeudi 7 / 14 / 21 / 28 octobre 2021 - Maintenance générale de l’infra

Dans le but de bichonner l’infrastructure (vérification sauvegardes, mise à jour, migration, ouvertures de services…), nous organisons des réunions de maintenance tous les jeudi soir d’octobre 2021 à partir de 20h. Il est donc possible que des coupures puissent avoir lieux les jeudis en fin de soirée.

ljf · Octobre 8, 2021, 11:43

Vendredi 8 octobre 2021 - Mail en @arn-fai.net vers le forum non fonctionnels

Nous avons identifié que nos mails de support ne sont plus opérationnels. Un bénévole va chercher une solution ce soir.
En attendant vous pouvez nous contacter par chat ou via message privé sur le forum en écrivant à @CA-ARN .

Gyom · Octobre 8, 2021, 10:01

Vendredi 8 octobre 2021 - Mail en @arn-fai.net vers le forum non fonctionnel

D’après mes tests la réponse par mail est de nouveau opérationnelle.
Intervention : https://meta.discourse.org/t/lets-encrypt-x3-nightmare/204918/11

docker pull discourse/mail-receiver:release
cd /var/discourse
./launcher rebuild mail-receiver

Désolé pour le derangement.

GautGaut · Novembre 4, 2021, 12:43

Jeudi 4 novembre 2021 - Passerelle Matrix-Whatsapp réparée par mise-à-jour

Depuis le début de la semaine une mise-à-jour de Whatsapp rendait notre passerelle inopérante.
Edit: La passerelle a été mise-à-jour à la version 0.1.10

ljf · Novembre 5, 2021, 12:00

Jeudi 4 novembre 2021 - Bascule des mails @arn-fai.net sur le nouveau sur le serveur mail

Nous avons basculé ce soir les mails en @arn-fai.net vers le nouveau serveur mail géré via un yunohost.

ljf · Janvier 4, 2022, 8:13

Mardi 4 janvier 2022 - Nettoyage sur sans-nuage

Une tache cron de nettoyage était en panne, ce qui remplissait petit à petit notre sans-nuage.fr. Le problème est corrigé, le serveur a failli atteindre sa capacité mais nous sommes a priori intervenu à temps.

GautGaut · Janvier 8, 2022, 1:56

Vendredi 7 Janvier 2022 - Réparation et Màj OnlyOffice

OnlyOffice màj et intégration avec Nextcloud réparée. Au passage on a repéré que le paquet Yunohost était pas trop qualitatif et commencé à l’améliorer https://github.com/YunoHost-Apps/onlyoffice_ynh/pull/73/files.
On a contourné des problèmes qui peuvent venir du paquet upstream. On va clarifier tout ca et prendre plus notre temps avant une màj d’app Nextcloud pour éviter de se retrouver dans cette situation..

GautGaut · Janvier 29, 2022, 10:05

Samedi 5 Février 2022 - INTERVENTION MAJEURE: Ajout de RAM et Redémarrage des serveurs

Prière de vérifier ou FAIRE VOS SAUVEGARDES!!! On n’est jamais à l’abri d’une perte de service longue, voire de pertes de données lors d’une opération de redémarrage d’un cluster de serveurs. Nous nous sommes assurés que les services d’ARN sont correctement sauvegardés.
Nous rappelons aux heureux propriétaires de VPS que ceux-ci ne sont pas sauvegardés par ARN. Vous êtes entièrement responsables de vos données. Voir nos CGU.

ljf · Janvier 29, 2022, 1:21

Précision: les VPS sont redondés (sur 2 serveurs physiques), on va logiquement migrer à chaud les VM d’un nœud du cluster à l’autre pour éviter le downtime trop long. Mais on craint tout de même des problèmes réseaux imprévus car nos nœuds de cluster sont aussi nos routeurs BGP. Donc attendez-vous à ce que la journée du samedi soit en pointillés et pensez à vérifier que vos serveurs sont en mesure de redémarrer correctement cette semaine.
ET surtout vérifier/faites vos sauvegardes.

GautGaut · Février 4, 2022, 9:52

Mardi 9 Février 2022 - Mise-à-jour du bridge WhatsApp

Il se peut que la passerelle et le serveur Matrix connaisse quelques coupures. De plus la mise en place de salon miroirs ne sera pas possible pendant quelques temps.

FAIT: mise à jour de la VM whatsapp et de l’application vers la version de WhatsApp multi-appareil.
FAIT: mise à jour de la passerelle
EN COURS: mise à jour du robot arn-messager de mise en relation depuis Matrix vers Whatsapp (peut durer quelques jours/semaines)

EDIT: on a bien avancé mercredi. Les groupes bridgés avant la màj le sont de nouveau. Il nous reste à tester, fignoler et documenter le nouveau mécanisme de mise-en-relation.

ljf · Février 15, 2022, 11:01

Mardi 15 Février 2022 à 21h30 - Serveur matrix non joignable

Le serveur matrix n’est plus joignable. On cherche pourquoi.

EDIT 16/02/2022 à 00:30: C’est réparé (les bases de données postgresql et mongod étaient éteintes).

ljf · Février 16, 2022, 2:03

Mercredi 16 février - Nextcloud, Lufi et Framaforms down

L’incident vient d’être découvert, recherche en cours.
EDIT 15:33: Problème résolu via une mise à jour d’une librairie PHP et relancement des services. Merci @Tom et @Irina pour le signalement

ljf · Février 20, 2022, 5:41

Dimanche 20 février à 18:40 - Maintenance COIN

On met à jour COIN vers la nouvelle version

PS: Au fait on a réparé le bridge Matrix/whatsapp https://wiki.arn-fai.net/documentation:sans-nuage:whatsapp

EDIT 20:30: La maintenance est finie (mais on recommencera peut être tout à l’heure

GautGaut · Février 26, 2022, 11:11

Samedi 26 février à 4H - Panne etherpad, Matrix,…

Pour une mystérieuse raison le SSD de sans-nuage était full ce qui a fait tomber plein de services.
On est entrain de redémarrer et d’identifier la cause du remplissage.

EDIT: etherpad et matrix sont repartis: Faites signe si vous avez un pb

ARN · Février 28, 2022, 8:34

Lundi 28 février : Mise à jour Discourse

La mise à jour à pris un peu de temps. Du coup petite interruption de service au niveau du forum mais tout devraient être de nouveau disponible.

ljf · Mars 4, 2022, 11:11

Vendredi 5 mars - bis repetita pour sans-nuage

Le disque était de nouveau plein. Après un examen approfondis c’est lié en réalité à un point de montage qui a sauté lors d’une mise à jour remplissant notre SSD au lieu de la partie HDD.
Une maintenance est à prévoir ce week end (avec 5/10min de downtime)

ljf · Mars 8, 2022, 10:02

Mardi 8 mars - Mise à jour sans-nuage.fr

Plusieurs services du serveur sans-nuage.fr ont été mis à jour. Nous avons aussi ajouté des hooks pour appliquer plus proprement des modifications sur des configurations internes.

ljf · Mars 10, 2022, 11:55

Jeudi 10 mars - Suppression du bandeau ARN sur sans-nuage.fr

Le bandeau étant à refaire et présentant des incompatibilités évidentes avec certaines applications il a été désactivé le temps de trouver une solution.
Les pads étaient impactés de façon importantes depuis la mise à jour de mardi (et nextcloud dans une moindre mesure).

ljf · Mars 13, 2022, 4:39

Dimanche 13 mars - A propos de Wekan

Suite à une mise à jour Mardi qui n’a pas bien fonctionnée, le service wekan est toujours en panne. Au vu de la complexité pour réparer, nous avons choisis d’attendre des plaintes à ce sujet car nous n’étions pas sûr de la réelle utilisation du service. A ce jour, seulement 2 personnes ont signalé l’utiliser.

Nous souhaiterions migrer vers Nextcloud Desk qui comporte des fonctionnalités en moins mais également d’autres en plus. Nous allons évaluer avec les 2 personnes concernées la difficulté pour elles de migrer le contenu de leur tableau wekan et décider si ça vaut le coup de passer une dizaine d’heures bénévoles pour réparer wekan.

https://sans-nuage.fr/task/

EDIT 17/03/2022: Ce soir, nous allons réessayer de déployer notre wekan avec les données pour les 3 personnes qui en ont fait la demande. J’ai produis un comparatif rapide Wekan / Nextcloud Deck.
EDIT 22/03/2022: J’ai finalement trouvé un peu de temps pour réparer ça. C’est de nouveau UP, mais l’avenir du service est remis en question.