03/03/2013

Analyse de site webspammé par google


C'est la fête du slip !

Google a lancé un site super bien fait pour expliquer comment il fonctionne, et une grosse partie pour expliquer comment fonctionne son système anti spam.

Par la même occasion il montre en temps réel ce que le traitement automatique considère comme du "webspam pur". On va enfin savoir quelle est la limite. Parfois on fait des trucs on se dit qu'on est dans les guidelines et pourtant non.




Edit : Contribuez au financement de l'élaboration d'une étude sur le webspam http://www.peyronnet.eu/blog/etude-sur-le-webspam-2013/


http://www.google.com/insidesearch/howsearchworks/thestory/

Un truc de bien, c'est qu'ils ont donné le lien vers les guidelines d'évaluation du searchlab, pour pouvoir évaluer comme les quality raters nos sites. Ils ont eu du mal à les donner, mais c'est une bonne avancée. Merci google. La dernière fois c'était seoblackout qui l'avait déniché (il mérite sa place de 2ème du JDN non ?)

http://static.googleusercontent.com/external_content/untrusted_dlcp/www.google.com/fr//intl/fr/insidesearch/howsearchworks/assets/searchqualityevaluatorguidelines.pdf

Quels sont donc les critères d'un bon contenu ? 

Je résume vite fait :
Contenu précis et pertinent utile à l'utilisateur, récent, associé à un auteur, trusté, populaire, s'il est géolocalisé c'est mieux et un design soigné (notez ce dernier point je vais y revenir).



Les différents types de spam


Il y a plusieurs niveau de détections de spam :

Pure spam : utilisation aggressive de technique de spam comme génération automatique de charabia,  cloaking, scrapping de contenu à partir d'un autre site et violations flagrantes des conseils aux guidelines pour les webmasters.

Texte caché ou keyword stuffing : cacher du texte pour qu'il ne soit pas visible par l'utilisateur mais pour les moteurs de recherche ou truffage de mots-clés (je vais donner des exemples).

Spam généré par l'utilisateur :  le site semble contenir du spam généré par du contenu utilisateur. Le contenu problématique peut apparaître sur les pages du forum, livre d'or, des pages ou profils utilisateurs.

Domaines parkés : vous savez les pages remplies d'adsense.



La théorie du string


Dans le diaporama il parle de la "théorie du string" pour classer les documents (non, ce n'est pas la plage avec des string) http://en.wikipedia.org/wiki/String_theory.

Puisque c'est la fête du slip, nous allons analyser quelques sites que google détecte comme du webspam en traitement automatique.

http://www.google.com/insidesearch/howsearchworks/fighting-spam.html

Notons que pour du cloak basé sur l'adresse ip, n'ayant pas l'adresse ip de google nous ne pouvons pas voir ce qui lui est affiché. Si quelqu'un a une alternative et retester les sites, ce sera un plus. Je ne fais pas non plus d'étude sur les backlinks. celui qui le fait peut mettre le résultat en commentaire. J'ai changé d'user-agent et il n'y avait pas de différences.

Depuis la publication du web pure spam en temps réel, j'ai essayé de capturer des sites pour en tirer une tendance sur leur typologie, et m'interroger sur ce qui peut lui être reproché.

Ca tombe bien, j'ai trouvé le site adéquate.




Mensunderwear un site de slips et qui a été détecté par l'outil de webspam dit pure .

Si on regarde à première vue, le site est clean. Le design est très soigné ! si c'est pas de la qualité ça.



En tant qu'utilisateur, je trouve cette fiche bien faite.

Je regarde le code source pour voir s'il y a du code caché :


Y'a du display:none, mais en fait c'est juste les box de popup de login, amélioration de l'expérience utilisateur tout ça.

Je rentre dans une fiche produit :




Fiche claire, y'a même une box sur la droite pour commenter, celui qui tombe sur cette fiche peut donner son avis. Un bouton où il y a écrit "acheter maintenant", pas "ajouter au panier".


En dessous une liste des magasins où l'on peut acheter ce caleçon, et les liens sont tous en nofollow :



Sur la droite une information :



Il indique bien que la recherche se fait sur des centaines de magasins en ligne et qu'ils remontent donc les infos prix, l'utilisateur sait qu'il ne pourra pas acheter sur le site, et que c'est un site d'info.

Eh mais c'est pas ce que fait google avec son google shopping à un autre niveau ?

Google serait donc automatiquement partial ? Est-ce que vous avez l'impression que le site n'est pas utile à l'utilisateur ?

Pour cet exemple je ne comprends pas bien où est le spam, en tout cas c'est ce filtre qui lui est appliqué.




Boutique en ligne en webspam


Une boutique de chaussures en promo. Bon à part le nom de domaine qui ne correspond pas, mais si c'est la qualité qui prime et le contenu, ça pourrait s'appeler chaussuresdeponey, que ça ne devrait pas bloquer l'indexation.




La page d'accueil est propre, j'ai des produits nike, je clique dessus

J'ai une vraie fiche produit



Par contre ils ont abusé sur les ventes croisées, c'est peut être à partir de là que google a détecté du keyword stuffing :



J'ajoute le produit au panier :



J'ai un vrai process de commande.

Bon a part l'abus sur les upsell, et peut être des catégories trop profondes.



Site d'info produits amazon

C'est le genre de sie le plus touché, j'en ai vu quelques unes.

Coté désign on ne peut pas reprocher grand chose, les goûts et les couleurs. Mais traitement automatisé, donc à priori le bot ne se pose pas les questions philosophique tel que "qu'est-ce que le beau ?".




Detail de la fiche produit 



Ok je vais pomper ce bouton pour un projet parcqu'il me plaît bien. Je cliquerais bien dessus. En bas du site, j'ai des infos supplémentaires :



et j'ai un bandeau qui m'indique clairement qu'il y a un partenariat avec amazon :


Celui la aussi il est donc estampillé




Web spam de site de couponning

Un site pensé pour le mobile.


Une fiche claire qui indique qu'il y a 2 partenaires qui proposent le produit et qu'il y a 3 coupons de dispo.





Si on clique sur le zoom, on a plus de détail sur le produit dans une pop-up :



Et il y a même un filtre pour sélectionner les boutiques qui nous intéressent.




Encore une fois, il s'agit des exemples pénalisés par traitement automatique. Quelles sont les erreurs commises par ce site ? ergonomie ? vitesse ?

En tant qu'utilisateur, ce n'est pas le genre de site que j'aurais mis en spam.

Il est donc estampillé :



En Conclusion, mort à l'affiliation ?

Tout ce qui est affiliation et surtout avec amazon est pénalisé. Même si vous ajoutez des fonctionnalité de partage. Peut -etre même que derrière chacun d'eux il y a une application facebook qui permet d'étendre l'expérience utilisateur au dela du site comme je pense qu'il doit y avoir sur le premier site. Mais à part l'affiliation qui est affichée, on ne peut pas dire qu'il est complètement inutile pour l'utilisateur.

Le deuxième c'est le keyword stuffing qui a dû être pénalisé.

Le 3ème, affiliation amazon.

Le dernier, je me pose vraiment la question, mais je pense que c'est encore l'affiliation. Pourquoi pénaliser ce site et pas pénaliser thefancy ?


One more thing

Un petit extrait qui explique ce qu'est le thin affiliate et qui explique un peu mon incompréhension. on voit bien qu'il y a des intouchables. (extrait des general guidelines de 2011) trouvé par @seoblackout sur google ;-)


Thin Affiliates: A thin affiliate is a website that earns money from affiliate commissions.
Here are some things you can do to help you determine if a page is a thin affiliate:
  • Click buttons on the page, such as a “make a purchase”
    button. If you are taken to a merchant on a different
    domain, it is probably a thin affiliate.
  • Check the “properties” of images on the page. Right-
    click on an image and look at “Properties” to see where the image originates. Check to see if the address of the image is the same as the address of the page, or if it is the address of a “real” merchant.
  • Look for original content on the page.
  • Use “who is” to look at the domain registrants of the two pages to see if they are the same or different.

    Not all affiliates are thin: Some affiliates are created to help users. Anyone can become an “affiliate” of a merchant’s site such as Amazon and link to Amazon products. Webmasters may do this to show products they like or to help users find good deals. For example, if the affiliate offers price comparisons, or displays product reviews, recipes, lyrics, etc., it is usually not a thin affiliate. Some websites that offer price comparisons or other helpful shopping features, in addition to the affiliate link, are:
  • http://www.shopping.com
  • http://www.pricegrabber.com
  • http://www.kelkoo.co.uk 

Référencement de site à Marseille



J'attends vos commentaires.