Suivi des incidents et maintenances majeures

Ce post est là pour faire le suivi des incidents. A l’avenir, on mettra en place une jolie page de suivi sur un serveur qui n’est pas dépendant de l’infra.

Samedi 15 juin 2019 10:45 à 16:10 - Panne générale

Ce matin il y a eu un problème électrique au datacenter, d’après un autre client présent sur les lieux, Cogent aurait envoyé du courant un peu fort dans les tuyaux. Un de nos deux disjoncteurs s’est mis en sécurité. Malheureusement c’était celui sur lequel se trouve notre switch (qui n’est alimentable que par une seule alimentation…). Les serveurs était donc inaccessibles.

Nous sommes arrivé sur les lieux à 14h, nous avons remis le tout en route en prenant soin de débrancher les serveurs de l’alim qui avait été coupé avant de rétablir le courant dessus (ceci dans le but d’éviter un appel de courant trop important). Fort heureusement, aucun équipement n’a été endommagé, ce qui visiblement n’était peut être pas le cas des autres clients. On a vérifié le ping des machines des abonnés housing c’était ok.

Nous avons profité que les VPS étaient en panne pour activer les 16G de ram désactivés sur hwhost-2 et ajouter deux disques SSD de 500G dans hwhost-2 (pour faire une grappe raid) + un disque SSD de 500G dans hwhost-1 (pour éventuellement faire une grappe raid ou de l’espace de sauvegarde non redondé pour des personnes qui s’auto-hébergent).
Un autre disque de 500G a été laissé sur place, non utilisé, en cas de besoin.

Enfin, nous avons récupéré le disque dur de Rémy qui avait servi pour faire des tests ainsi qu’une brique qui nous a été donnée.

2 J'aimes

Merci bcp pour la réactivité. J’ai même pas eu le temps de prévenir que j’avais un pb sur le nextcloud de mon vps que le pb était résolu. Merci.

Le wiki est idéal pour ça :wink:
D’ailleurs, j’ai ajouté ton compte-rendu ici: https://wiki.arn-fai.net/cr:travaux-2019-06-15

Samedi 20 juin 2019 9:30 à 18:00 - Maintenance Cogent (coupure potentielle)

Cogent nous a envoyé ceci:

Maintenance de notre UPS sans impact pour votre service.

Nous procéderons prochainement a la maintenance de notre UPS installé sur le site de Strasbourg

Aucune coupure n’est a envisager, juste une perte de redondance durant l’intervention mais les clients qui ne sont pas raccordés sur notre système UPS seront affectes.
Nous vous conseillons de prévoir votre propre onduleur durant cette maintenance.

Notre switch étant alimenté que sur une seule prise, il est possible qu’il y ai une coupure de réseau (les VPS ne redémarreront pas toutefois) car nous ne sommes pas sûr que le bloc de prise sera alimenté.

Si ça s’éteint, j’irais au DC vers 10h pour éviter que ça dure jusque 18h.

Je pense qu’on va pouvoir discuter prochainement des solutions pour redonder notre switch électriquement …

C’est pas samedi c’était aujourd’huis

En tout cas Maintenance terminée à 18h19.

Vendredi 25 octobre 2019 - Lenteurs sur les VPS STO

Vous êtes plusieurs adhérents à remonter des difficultés avec votre VPS STO. Nous essayons de trouver une solution mais c’est assez ardue.

N’hésitez pas à nous faire connaître vos difficultés.

Salut,

Pour ma part j’ai constaté un léger mieux après l’intervention de jlf
(il y a un mois) mais malheureusement je continue de constater des
blocage de mon VPS : temps de réponse très long voir délai de connexion
dépassé… surtout après une pause dans ma navigation.

Par l’accès ssh, le bash a l’air de répondre correctement.

Bon courage :slight_smile:

relaxmax

···

Le 26/10/2019 à 00:39, ljf via Alsace Réseau Neutre a écrit :

Vendredi 25 octobre 2019 - Lenteurs sur les VPS STO

Vous êtes plusieurs adhérents à remonter des difficultés avec votre
VPS STO. Nous essayons de trouver une solution mais c’est assez ardue.

N’hésitez pas à nous faire connaître vos difficultés.


Voir le sujet https://forum.arn-fai.net/t/suivi-des-incidents/371/7
ou répondre à ce courriel pour répondre.

Vous recevez ce courriel car vous avez activé la liste de diffusion.

Pour se désabonner de ces courriels, cliquer ici
https://forum.arn-fai.net/email/unsubscribe/d33aabaf9ae8eafe56edf32fc61d58182f188b28521cf409f17b568e5355433d.

27 octobre 2019: Indisponibilité Libreto (5h)

Suite à une maintenance en vue de contrer les attaques exploitant la récente faille concernant nginx et php-fpm, le service Libreto a été indisponible pendant 5h à la suite d’un erreur humaine.

Désolé, c’est désormais réglé.

1 J'aime

29 octobre 2019: Panne générale de 7h15 à 11h40

Depuis ce matin, tous nos services étaient en panne (VPS, VPN, Sans-nuage, connexion internet, résolveur DNS, netlib.re …). Ils viennent d’être rétablis (au moins en IPv4).

Détails: le lien réseau dédié entre nos deux machines n’étaient plus fonctionnel. Nous avons eu du mal à accéder à la machine hwhost-2 pour comprendre le dysfonctionnement et réactiver ce lien réseau. Il est étrange que la coupure de ce lien aboutisse à l’impossibilité de se connecter à hwhost-2.

Il subsiste potentiellement des problèmes avec l’ipv6.

EDIT: 15:26 le housing vient d’être remis en route. IPv6 toujours non opérationnel.
EDIT: 21:45 l’ipv6 est fonctionnel sur le housing et les VPS qui se trouvent sur hwhost-1, par contre ceux qui se trouvent sur hwhost2 sont impactés (notamment VPN et Sans-nuage). Toutes nos excuses pour ces désagréments.
EDIT: Mercredi 23:59 Des problèmes de routage BGP sur ipv4 ont été résolu, concernant ipv6, nous constatons que les sessions BGP se relancent toutes les 5 minutes, nous essayons de comprendre pourquoi.
EDIT: Jeudi 00:39 Le problème d’ipv6 est résolu, au moins de façon temporaire. Nous soupçonnons un bug dans quagga. Je pense qu’on va finir par l’enlever celui là pour mettre du bird partout. Merci à turlux pour son aide précieuse, vous pouvez lui payer à boire de ma part si vous êtes dans son coin.
EDIT: Dimanche 23:00 La connexion ipv6 étant instable nous avons retravaillé dessus, le graphe est désormais stable depuis plusieurs heures c’est bon signe. cf https://smokeping.illyse.org/?filter=arn;target=ISP.FFDN.ARN_v6 . Le bon côté c’est que cedric et moi on comprend un peu mieux BGP maintenant !

6 novembre 2019 - Remise en route du serveur DNS récursif en ipv6

Suite au problème d’ipv6 rencontré la semaine dernière, il avait été décidé de désactiver l’ipv6 sur le serveur DNS récursif. La situation semblant maintenant résolu, nous venont de réactiver l’ipv6 sur le serveur.
Merci à Pierre pour nous l’avoir rappelé. :slight_smile:

9 novembre 2019 - Installation d’un nouveau switch 1Gbps

Samedi nous avons prévu d’intervenir au Datacenter afin d’installer un nouveau switch 1Gbps.

Rappel: attention toutefois nous avons un commit de 30Mbps au 95ème percentil (nous en sommes à ~12Mbps).

Il est également prévu:

  • Ajout de ram dans hw3 + test de remise en route de hw3
  • Changement des mots de passe des BMC
  • Vérification des prises électriques
  • Modification de la connectique ethernet entre hw1 et hw2

Une petite coupure de connexion internet de quelques minutes est possible en ce qui concerne l’opération avec le switch.

Note: L’ajout de 4 disques SSD 1To à hw3 a été décalé faute de temps pour les commander et aussi en raison d’une mise au point financière à faire avec la société GTT.

Vendredi 25 octobre 2019 au 12 novembre - Lenteurs sur les VPS STO (suite et fin?)

Suite au problème de lenteur sur notre gamme VPS STO il a été décidé d’allouer 10G de SSD supplémentaire pour chaque VPS STO.

Merci d’en faire la demande, ce n’est pas automatique, ainsi nous nous assurons qu’il n’y a pas de VPS STO à l’abandon…

Lundi 18 novembre 14:00 - Problème BGP, les ips de google ne semblent plus joignables correctement

On vient de nous rapporter un soucis pour joindre en ipv6 google.

Les autres IPs semblent être correctement routées.

EDIT: le 18/11 à 21:05 igel a résolu le soucis. <3

Samedi 7 décembre 11h15 à Mardi 10 décembre 17h - Refonte du fonctionnement du routage

Suite au signalement de déconnexion ipv6 régulières de quelques minutes, un chantier en vue de remplacer quagga par bird a été lancé ce samedi. La connectivité IPv6 a été malencontreusement altérée de façon imprévue.

Suite à ce constat lundi midi, le choix a été fait de terminer le chantier en cours. Nous avons donc une nouvelle configuration plus homogène avec bird sur les deux routeurs.

En sortie l’ensemble du trafic ipv6 est routé à travers les tunnels Hurricane Electric via une route statique. A l’avenir nous essaierons peut être d’améliorer cette situation en tirant partie du meilleur de HE et Cogent.

Mardi 28 janvier 00:22 - Réparation du mail contrat CHEZ arn-fai.net

Le mail était refusé par le forum (il apparaissait quand même dans les courriels rejetés), j’ai corrigé ça.

Lundi 3 février vers midi - Panne sur les VPN

Deux adhérents remontent que leurs VPN/Connexion internet ne montent plus.
Bilan: Fausse alerte ? Pour l’un d’eux le certificat VPN venait d’expirer: il a été renouvelé. Pour l’autre connexion, le problème s’est résolu. Il reste possible que l’opération de renouvellement ai réparé le problème de l’autre connexion

Mercredi 1er avril - Transfert de fichier en panne et mise à jour diverses

Notre instance lufi de transfert de fichier est actuellement pleine, vous ne pouvez pas l’utiliser jusqu’à ce qu’elle se libère ou que l’on agrandisse le stockage.

Wekan et Nextcloud ont été mis à jour.

1G de ram a été ajouté au serveur sans-nuage.fr pour faire face à la montée en charge.

La création de VPS est de nouveau fonctionnelle même si les délais de créations sont loooonnnngggg ! Je travaille en ce moment à réparer le mode de routage avancé qui permet la création de VPN sur les VPS (le serveur vpn.arn-fai.net est fonctionnel et n’est pas impacté).

EDIT 03/04/2020: Le lufi et le mode de routage avancé semble de nouveau ok.

Vendredi 10 avril - Grosse mise à jour pour sans-nuage.fr

On ne vous prévient pas pour la plupart des mises à jour qui ont lieu au fil de l’eau et qui ont de faible risques de poser soucis, mais ce soir, nous allons rattraper notre retard concernant certaines applications sur sans-nuage.fr .
Est également prévu le déploiement de OnlyOffice et de mumble.

EDIT 00:55 : On a donc désormais un mumble à l’adresse audio.sans-nuage.fr et OnlyOffice qui est dispo dans le nextcloud (drive).

EDIT 14/04/2020: @Tom vient de nous signaler un dysfonctionnement sur Libreto probablement lié à la mise à jour d’etherpad.

2 J'aimes