Suivi des incidents

Ce post est là pour faire le suivi des incidents. A l’avenir, on mettra en place une jolie page de suivi sur un serveur qui n’est pas dépendant de l’infra.

Samedi 15 juin 2019 10:45 à 16:10 - Panne générale

Ce matin il y a eu un problème électrique au datacenter, d’après un autre client présent sur les lieux, Cogent aurait envoyé du courant un peu fort dans les tuyaux. Un de nos deux disjoncteurs s’est mis en sécurité. Malheureusement c’était celui sur lequel se trouve notre switch (qui n’est alimentable que par une seule alimentation…). Les serveurs était donc inaccessibles.

Nous sommes arrivé sur les lieux à 14h, nous avons remis le tout en route en prenant soin de débrancher les serveurs de l’alim qui avait été coupé avant de rétablir le courant dessus (ceci dans le but d’éviter un appel de courant trop important). Fort heureusement, aucun équipement n’a été endommagé, ce qui visiblement n’était peut être pas le cas des autres clients. On a vérifié le ping des machines des abonnés housing c’était ok.

Nous avons profité que les VPS étaient en panne pour activer les 16G de ram désactivés sur hwhost-2 et ajouter deux disques SSD de 500G dans hwhost-2 (pour faire une grappe raid) + un disque SSD de 500G dans hwhost-1 (pour éventuellement faire une grappe raid ou de l’espace de sauvegarde non redondé pour des personnes qui s’auto-hébergent).
Un autre disque de 500G a été laissé sur place, non utilisé, en cas de besoin.

Enfin, nous avons récupéré le disque dur de Rémy qui avait servi pour faire des tests ainsi qu’une brique qui nous a été donnée.

2 J'aimes

Merci bcp pour la réactivité. J’ai même pas eu le temps de prévenir que j’avais un pb sur le nextcloud de mon vps que le pb était résolu. Merci.

Le wiki est idéal pour ça :wink:
D’ailleurs, j’ai ajouté ton compte-rendu ici: https://wiki.arn-fai.net/cr:travaux-2019-06-15

Samedi 20 juin 2019 9:30 à 18:00 - Maintenance Cogent (coupure potentielle)

Cogent nous a envoyé ceci:

Maintenance de notre UPS sans impact pour votre service.

Nous procéderons prochainement a la maintenance de notre UPS installé sur le site de Strasbourg

Aucune coupure n’est a envisager, juste une perte de redondance durant l’intervention mais les clients qui ne sont pas raccordés sur notre système UPS seront affectes.
Nous vous conseillons de prévoir votre propre onduleur durant cette maintenance.

Notre switch étant alimenté que sur une seule prise, il est possible qu’il y ai une coupure de réseau (les VPS ne redémarreront pas toutefois) car nous ne sommes pas sûr que le bloc de prise sera alimenté.

Si ça s’éteint, j’irais au DC vers 10h pour éviter que ça dure jusque 18h.

Je pense qu’on va pouvoir discuter prochainement des solutions pour redonder notre switch électriquement …

C’est pas samedi c’était aujourd’huis

En tout cas Maintenance terminée à 18h19.

Vendredi 25 octobre 2019 - Lenteurs sur les VPS STO

Vous êtes plusieurs adhérents à remonter des difficultés avec votre VPS STO. Nous essayons de trouver une solution mais c’est assez ardue.

N’hésitez pas à nous faire connaître vos difficultés.

Salut,

Pour ma part j’ai constaté un léger mieux après l’intervention de jlf
(il y a un mois) mais malheureusement je continue de constater des
blocage de mon VPS : temps de réponse très long voir délai de connexion
dépassé… surtout après une pause dans ma navigation.

Par l’accès ssh, le bash a l’air de répondre correctement.

Bon courage :slight_smile:

relaxmax

···

Le 26/10/2019 à 00:39, ljf via Alsace Réseau Neutre a écrit :

Vendredi 25 octobre 2019 - Lenteurs sur les VPS STO

Vous êtes plusieurs adhérents à remonter des difficultés avec votre
VPS STO. Nous essayons de trouver une solution mais c’est assez ardue.

N’hésitez pas à nous faire connaître vos difficultés.


Voir le sujet https://forum.arn-fai.net/t/suivi-des-incidents/371/7
ou répondre à ce courriel pour répondre.

Vous recevez ce courriel car vous avez activé la liste de diffusion.

Pour se désabonner de ces courriels, cliquer ici
https://forum.arn-fai.net/email/unsubscribe/d33aabaf9ae8eafe56edf32fc61d58182f188b28521cf409f17b568e5355433d.

27 octobre 2019: Indisponibilité Libreto (5h)

Suite à une maintenance en vue de contrer les attaques exploitant la récente faille concernant nginx et php-fpm, le service Libreto a été indisponible pendant 5h à la suite d’un erreur humaine.

Désolé, c’est désormais réglé.

1 J'aime

29 octobre 2019: Panne générale de 7h15 à 11h40

Depuis ce matin, tous nos services étaient en panne (VPS, VPN, Sans-nuage, connexion internet, résolveur DNS, netlib.re …). Ils viennent d’être rétablis (au moins en IPv4).

Détails: le lien réseau dédié entre nos deux machines n’étaient plus fonctionnel. Nous avons eu du mal à accéder à la machine hwhost-2 pour comprendre le dysfonctionnement et réactiver ce lien réseau. Il est étrange que la coupure de ce lien aboutisse à l’impossibilité de se connecter à hwhost-2.

Il subsiste potentiellement des problèmes avec l’ipv6.

EDIT: 15:26 le housing vient d’être remis en route. IPv6 toujours non opérationnel.
EDIT: 21:45 l’ipv6 est fonctionnel sur le housing et les VPS qui se trouvent sur hwhost-1, par contre ceux qui se trouvent sur hwhost2 sont impactés (notamment VPN et Sans-nuage). Toutes nos excuses pour ces désagréments.
EDIT: Mercredi 23:59 Des problèmes de routage BGP sur ipv4 ont été résolu, concernant ipv6, nous constatons que les sessions BGP se relancent toutes les 5 minutes, nous essayons de comprendre pourquoi.
EDIT: Jeudi 00:39 Le problème d’ipv6 est résolu, au moins de façon temporaire. Nous soupçonnons un bug dans quagga. Je pense qu’on va finir par l’enlever celui là pour mettre du bird partout. Merci à turlux pour son aide précieuse, vous pouvez lui payer à boire de ma part si vous êtes dans son coin.
EDIT: Dimanche 23:00 La connexion ipv6 étant instable nous avons retravaillé dessus, le graphe est désormais stable depuis plusieurs heures c’est bon signe. cf https://smokeping.illyse.org/?filter=arn;target=ISP.FFDN.ARN_v6 . Le bon côté c’est que cedric et moi on comprend un peu mieux BGP maintenant !

6 novembre 2019 - Remise en route du serveur DNS récursif en ipv6

Suite au problème d’ipv6 rencontré la semaine dernière, il avait été décidé de désactiver l’ipv6 sur le serveur DNS récursif. La situation semblant maintenant résolu, nous venont de réactiver l’ipv6 sur le serveur.
Merci à Pierre pour nous l’avoir rappelé. :slight_smile:

9 novembre 2019 - Installation d’un nouveau switch 1Gbps

Samedi nous avons prévu d’intervenir au Datacenter afin d’installer un nouveau switch 1Gbps.

Rappel: attention toutefois nous avons un commit de 30Mbps au 95ème percentil (nous en sommes à ~12Mbps).

Il est également prévu:

  • Ajout de ram dans hw3 + test de remise en route de hw3
  • Changement des mots de passe des BMC
  • Vérification des prises électriques
  • Modification de la connectique ethernet entre hw1 et hw2

Une petite coupure de connexion internet de quelques minutes est possible en ce qui concerne l’opération avec le switch.

Note: L’ajout de 4 disques SSD 1To à hw3 a été décalé faute de temps pour les commander et aussi en raison d’une mise au point financière à faire avec la société GTT.

Vendredi 25 octobre 2019 au 12 novembre - Lenteurs sur les VPS STO (suite et fin?)

Suite au problème de lenteur sur notre gamme VPS STO il a été décidé d’allouer 10G de SSD supplémentaire pour chaque VPS STO.

Merci d’en faire la demande, ce n’est pas automatique, ainsi nous nous assurons qu’il n’y a pas de VPS STO à l’abandon…