27/01/2016

Robots.txt comment forcer google à le mettre à jour

Googlebot continue de crawler un répertoire alors que je viens de lui interdire via robots.txt

googlebot a mangé 12Go de bande passante !

Un petit article rapide sur un mauvais paramétrage du fichier robots.txt qui a mis par terre un site client.


Depuis quelques jours le site avait des erreurs d'accès à la base de données et pleins d'erreurs 500. Au début j'ai pensé que c'était un problème au niveau de l'hébergeur, un espace mutualisé sur ovh.

En allant sur la page des travaux, effectivement, il y avait un souci sur l'hébergement des bases de données. Le lendemain, même symptôme, accès au site impossible, problème d'accès à la base de donnée.

La cliente m'envoie un mail avec une réponse curieuse d'ovh : vous avez 85 000 requêtes sql par minute depuis hier, soit plus de 8 millions d'accès depuis hier.

Volumétrie du site : 130 pages maxi.

J'avais pensé à un problème de hack, mais après avoir installé un plugin pour vérifier les fichiers et les accès, rien d'anormal n'est remonté. Il fallait regarder au niveau des logs.

Comment accéder aux logs pour les hébergements mutualisés chez ovh ?



D'habitude, je met les client sur des serveurs dédiés, mais comme je n'ai plus trop envie de gérer l'infogérance, j'ai utilisé un mutualisé. Avantage, c'est eux qui s’occupent des backups, et si quelque chose plante, le client peut récupérer ses données de la veille.
 
Si vous êtes sur un mutualisé, il suffit de taper https://logs.ovh.net/votrenomdedomaine.com/ ensuite vous vous connectez avec votre identifiant et mot de pass ovh.

Voilà les logs sur les mutualisés sont là


Vous aurez alors accès aux statistiques serveurs et aux logs, et là c'est le drame. J'ai une quantité impressionnante d'accès de google à un plugin auquel il ne devait pas avoir accès.


En traduisant un plugin, celui-ci a modifié sa sefurl, donc les paramètres du fichier robots.txt n'étaient pas pris en compte. Imaginez un calendrier ou chaque date mène sur un lien où il ne se passe rien, multiplié par le nombre de vue possible: par mois, par semaine, etc... et vous avez vos 8 millions de crawl des dernières heures.



Google ne prend pas en compte en temps réel le fichier robots.txt. Vous êtes obligé d'aller voir dans la search console quelle est la dernière version qu'il connaît. Donc même si votre robots.txt est correct, il se peut qu'il ne le prenne pas en compte, et continue de crawler et crée des erreurs, ce qui n'est pas très bon.

La réponse m'a été donnée par @jeffpillou



Il faut aller dans "exploration" -> outil de test du fichier robots.txt




Faire vos changements dans l'editeur présent, mettez une url qui devrait être bloquée pour tester, et si c'est ok, cliquez sur le bouton "envoyer" 

editeur robots.txt
Editeur robots.Txt de la google search console


Cliquez sur "demander la mise à jour à google".



Une fois cette opération faite, google s'est arrêté d'aller crawler ce sous répertoire, et le site a pu redémarrer comme il faut.

Rappel : Attention, un crawl ne signifie pas obligatoirement une indexation, mais google a tendance a indexer quand même, il ne vous affichera pas la description et vous indiquera que l'url est bloquée.

Donc au final, faire attention de comment vos extensions réagissent et de bloquer les ressources inutiles, par exemple celles qui n'influencent que l'affichage.

Je vous laisse un petit tuto d'Olivier Duffez à propos du fichier robots.txt


http://www.webrankinfo.com/dossiers/gwt/test-fichier-robots-txt