Quel peut-être l'intérêt de bloquer le référencement de certains répertoires d'un site web ?
1) On utilise parfois certains répertoires comme espace de stockage personnel et on ne veut pas que celui-ci et les fichiers qu'il contient soir facilement identifiable par une simple recherche sur un moteur de recherche.
2) Autre exemple: vous stocker quelques fichiers MP3 sur un répertoire pour les proposer en écoute sur votre blog. Oui, mais vous ne voulez pas que Google référence directement tout le contenu de ce répertoire...
3) Encore un exemple: vous ne voulez pas forcément qu'un site ou une page en construction soit la cible d'un moteur de recherche. Il faut alors empêcher les spiders (ou robots d'indexation) de les prendre en compte.
4) Dernier exemple: les pirates cherchent parfois une cible grâce à Google. Il est très aisé de chercher des répertoires nommés "admin", "administrateur", "private", "perso" ou encore "login" qui peuvent être une cible intéressante...donc autant ne pas les référencer, d'autant plus qu'elles n'ont pas forcément un contenu qui peut être référencé puisqu'accessible bien souvent après authentification. Pourtant, si on y prend pas garde, le nom de ces répertoires, et la page qui sert à l'authentification seront référencés...
Dans tous les exemples cités ci-dessus, la meilleure chose à faire en matière de sécurité est de limiter l'accès au répertoire par l'utilisation d'une phase d'authentification (login / password). Mais dans bien des cas, on veut simplement que les moteurs de recherche ne référencent pas le contenu...c'est possible est très simple:
la solution est très simple: il suffit de placer à la racine de votre site un fichier "robots.txt" dans lequel vous indiquez les répertoires à ne pas indexer:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tests/
Disallow: /private/
Disallow: /admin/
Disallow: /abonnes/moncompte.php
La première ligne (User-agent: *) indique que filtrage concerne tous les moteurs d'indexation. On pourrait théoriquement filtré en fonction des moteurs...
Les lignes suivantes (commandes Disallow) permettent de bloquer l'indexation de tout ce qui commence par l'expression indiquée. Si vous indiquez un répertoire c'est donc tout le contenu qui ne sera pas indexer.
Dernière information: rappelez vous que cela n'est pas une protection de votre répertoire !!! Il ne s'agit que d'utiliser une convention d'indexation proposée par les moteurs de recherche officiels. Ceux des pirates ne tiendront pas compte de ces fichiers "robots.txt" (ou au contraire, iront regarder le contenu de ces fichiers pour savoir ce que vous voulez cacher...).
Les commentaires sont fermés pour cet article.