Suivi des incidents et maintenances majeures

Vendredi 25 octobre 2019 - Lenteurs sur les VPS STO

Vous êtes plusieurs adhérents à remonter des difficultés avec votre VPS STO. Nous essayons de trouver une solution mais c’est assez ardue.

N’hésitez pas à nous faire connaître vos difficultés.

Salut,

Pour ma part j’ai constaté un léger mieux après l’intervention de jlf
(il y a un mois) mais malheureusement je continue de constater des
blocage de mon VPS : temps de réponse très long voir délai de connexion
dépassé… surtout après une pause dans ma navigation.

Par l’accès ssh, le bash a l’air de répondre correctement.

Bon courage :slight_smile:

relaxmax

···

Le 26/10/2019 à 00:39, ljf via Alsace Réseau Neutre a écrit :

Vendredi 25 octobre 2019 - Lenteurs sur les VPS STO

Vous êtes plusieurs adhérents à remonter des difficultés avec votre
VPS STO. Nous essayons de trouver une solution mais c’est assez ardue.

N’hésitez pas à nous faire connaître vos difficultés.


Voir le sujet https://forum.arn-fai.net/t/suivi-des-incidents/371/7
ou répondre à ce courriel pour répondre.

Vous recevez ce courriel car vous avez activé la liste de diffusion.

Pour se désabonner de ces courriels, cliquer ici
https://forum.arn-fai.net/email/unsubscribe/d33aabaf9ae8eafe56edf32fc61d58182f188b28521cf409f17b568e5355433d.

27 octobre 2019: Indisponibilité Libreto (5h)

Suite à une maintenance en vue de contrer les attaques exploitant la récente faille concernant nginx et php-fpm, le service Libreto a été indisponible pendant 5h à la suite d’un erreur humaine.

Désolé, c’est désormais réglé.

1 « J'aime »

29 octobre 2019: Panne générale de 7h15 à 11h40

Depuis ce matin, tous nos services étaient en panne (VPS, VPN, Sans-nuage, connexion internet, résolveur DNS, netlib.re …). Ils viennent d’être rétablis (au moins en IPv4).

Détails: le lien réseau dédié entre nos deux machines n’étaient plus fonctionnel. Nous avons eu du mal à accéder à la machine hwhost-2 pour comprendre le dysfonctionnement et réactiver ce lien réseau. Il est étrange que la coupure de ce lien aboutisse à l’impossibilité de se connecter à hwhost-2.

Il subsiste potentiellement des problèmes avec l’ipv6.

EDIT: 15:26 le housing vient d’être remis en route. IPv6 toujours non opérationnel.
EDIT: 21:45 l’ipv6 est fonctionnel sur le housing et les VPS qui se trouvent sur hwhost-1, par contre ceux qui se trouvent sur hwhost2 sont impactés (notamment VPN et Sans-nuage). Toutes nos excuses pour ces désagréments.
EDIT: Mercredi 23:59 Des problèmes de routage BGP sur ipv4 ont été résolu, concernant ipv6, nous constatons que les sessions BGP se relancent toutes les 5 minutes, nous essayons de comprendre pourquoi.
EDIT: Jeudi 00:39 Le problème d’ipv6 est résolu, au moins de façon temporaire. Nous soupçonnons un bug dans quagga. Je pense qu’on va finir par l’enlever celui là pour mettre du bird partout. Merci à turlux pour son aide précieuse, vous pouvez lui payer à boire de ma part si vous êtes dans son coin.
EDIT: Dimanche 23:00 La connexion ipv6 étant instable nous avons retravaillé dessus, le graphe est désormais stable depuis plusieurs heures c’est bon signe. cf https://smokeping.illyse.org/?filter=arn;target=ISP.FFDN.ARN_v6 . Le bon côté c’est que cedric et moi on comprend un peu mieux BGP maintenant !

6 novembre 2019 - Remise en route du serveur DNS récursif en ipv6

Suite au problème d’ipv6 rencontré la semaine dernière, il avait été décidé de désactiver l’ipv6 sur le serveur DNS récursif. La situation semblant maintenant résolu, nous venont de réactiver l’ipv6 sur le serveur.
Merci à Pierre pour nous l’avoir rappelé. :slight_smile:

9 novembre 2019 - Installation d’un nouveau switch 1Gbps

Samedi nous avons prévu d’intervenir au Datacenter afin d’installer un nouveau switch 1Gbps.

Rappel: attention toutefois nous avons un commit de 30Mbps au 95ème percentil (nous en sommes à ~12Mbps).

Il est également prévu:

  • Ajout de ram dans hw3 + test de remise en route de hw3
  • Changement des mots de passe des BMC
  • Vérification des prises électriques
  • Modification de la connectique ethernet entre hw1 et hw2

Une petite coupure de connexion internet de quelques minutes est possible en ce qui concerne l’opération avec le switch.

Note: L’ajout de 4 disques SSD 1To à hw3 a été décalé faute de temps pour les commander et aussi en raison d’une mise au point financière à faire avec la société GTT.

Vendredi 25 octobre 2019 au 12 novembre - Lenteurs sur les VPS STO (suite et fin?)

Suite au problème de lenteur sur notre gamme VPS STO il a été décidé d’allouer 10G de SSD supplémentaire pour chaque VPS STO.

Merci d’en faire la demande, ce n’est pas automatique, ainsi nous nous assurons qu’il n’y a pas de VPS STO à l’abandon…

Lundi 18 novembre 14:00 - Problème BGP, les ips de google ne semblent plus joignables correctement

On vient de nous rapporter un soucis pour joindre en ipv6 google.

Les autres IPs semblent être correctement routées.

EDIT: le 18/11 à 21:05 igel a résolu le soucis. <3

Samedi 7 décembre 11h15 à Mardi 10 décembre 17h - Refonte du fonctionnement du routage

Suite au signalement de déconnexion ipv6 régulières de quelques minutes, un chantier en vue de remplacer quagga par bird a été lancé ce samedi. La connectivité IPv6 a été malencontreusement altérée de façon imprévue.

Suite à ce constat lundi midi, le choix a été fait de terminer le chantier en cours. Nous avons donc une nouvelle configuration plus homogène avec bird sur les deux routeurs.

En sortie l’ensemble du trafic ipv6 est routé à travers les tunnels Hurricane Electric via une route statique. A l’avenir nous essaierons peut être d’améliorer cette situation en tirant partie du meilleur de HE et Cogent.

Mardi 28 janvier 00:22 - Réparation du mail contrat CHEZ arn-fai.net

Le mail était refusé par le forum (il apparaissait quand même dans les courriels rejetés), j’ai corrigé ça.

Lundi 3 février vers midi - Panne sur les VPN

Deux adhérents remontent que leurs VPN/Connexion internet ne montent plus.
Bilan: Fausse alerte ? Pour l’un d’eux le certificat VPN venait d’expirer: il a été renouvelé. Pour l’autre connexion, le problème s’est résolu. Il reste possible que l’opération de renouvellement ai réparé le problème de l’autre connexion

Mercredi 1er avril - Transfert de fichier en panne et mise à jour diverses

Notre instance lufi de transfert de fichier est actuellement pleine, vous ne pouvez pas l’utiliser jusqu’à ce qu’elle se libère ou que l’on agrandisse le stockage.

Wekan et Nextcloud ont été mis à jour.

1G de ram a été ajouté au serveur sans-nuage.fr pour faire face à la montée en charge.

La création de VPS est de nouveau fonctionnelle même si les délais de créations sont loooonnnngggg ! Je travaille en ce moment à réparer le mode de routage avancé qui permet la création de VPN sur les VPS (le serveur vpn.arn-fai.net est fonctionnel et n’est pas impacté).

EDIT 03/04/2020: Le lufi et le mode de routage avancé semble de nouveau ok.

Vendredi 10 avril - Grosse mise à jour pour sans-nuage.fr

On ne vous prévient pas pour la plupart des mises à jour qui ont lieu au fil de l’eau et qui ont de faible risques de poser soucis, mais ce soir, nous allons rattraper notre retard concernant certaines applications sur sans-nuage.fr .
Est également prévu le déploiement de OnlyOffice et de mumble.

EDIT 00:55 : On a donc désormais un mumble à l’adresse audio.sans-nuage.fr et OnlyOffice qui est dispo dans le nextcloud (drive).

EDIT 14/04/2020: @Tom vient de nous signaler un dysfonctionnement sur Libreto probablement lié à la mise à jour d’etherpad.

2 « J'aime »

Samedi 25 avril - Accès VNC via des machines ayant IPv6 par défaut

Les accès VNC ne fonctionnent que via IPv4. Hier un adhérent a remonté que les noms de domaine permettant d’y accéder étaient configurés en IPv4 et IPv6. Les personnes qui tentaient d’y accéder via IPv6, n’arrivaient donc pas à se connecter.

Ce point vient d’être résolu, si vous n’avez jamais réussi à vous connecter à votre VPS en VNC, c’est peut être le moment d’essayer.

Mardi 19 Mai de 9h30 à 16h - Opération chez Cogent sur l’électricité

Pas de coupure à prévoir

EDIT: pour info ça a été annulé et c’est reporté à une date indéfinis

Mardi 2 juin - VPS: Perte de connectivité IPv6 sur le nœud hwhost-1

Les VPS présents sur le nœud hwhost-1 n’ont visiblement plus d’IPv6 depuis le début de la journée.

EDIT 15:03: C’est réparé avec un fix temporaire vers le tunnel Hurrican Electric de hwhost-2. Il y a donc actuellement perte de redondance sur l’ipv6. Affaire à suivre.

Mercredi 10 juin - VPN et accès internet: Panne

On est en train de s’en occuper. Le service devrait revenir d’un moment à l’autre.

EDIT 19:00 : c’est corrigé
EDIT 20:49: à priori seuls les tentatives de nouvelles connexions ne fonctionnaient plus, les serveurs qui ne se sont pas déconnectés ont continués de fonctionner.

1 « J'aime »

Jeudi 11 juin - VPN et accès internet: Panne

Visiblement c’est pas le même soucis qu’hier même si c’est probablement lié.
Investigation en cours

Le VPN est de nouveau fonctionnel.

1 « J'aime »