02/10/2013

Colibri (Hummingbird) la learning machine de google


Knowledge graph google
Vous ne l'aurez pas manqué, Google vient de souffler 15 bougies, l'âge de l'adolescence, il fait ce qu'il veut comme il veut, de ce côté là rien de nouveau. Bon anniversaire google

Par contre pour fêter ça il y a plusieurs choses qui ont été annoncé dont humming bird, l'ouverture de google analytics academy et des changements dans google analytics, j'en reparlerais.







Le colibri (hummingbird) un siri like ?

Bien que l'on s'imagine bien ce petit oiseau bleu, et que google l'a appelé comme ça parcqu'il représente la précision et la rapidité, un colibri est aussi appelé oiseau-mouche, donc vous aurez compris que la mouche c'est plutôt noir, et blanc c'est les traces qu'il laisse au sol (c'est un oiseau).

La nuance est subtile, parcque cet oiseau là il devrait toucher plus de 90% des requêtes, ce qu'on en sait pour l'instant ? pas grand chose à part qu'il permet de répondre plus précisément aux questions des internautes lorsque celles-ci sont posées en langage naturel et qu'il a été mis en place depuis .

David sullivan dans son article http://searchengineland.com/google-hummingbird-172816  (en) de search engineland en parle.

Mais en réalité (attention ce n'est que mon avis), il s'agit de la mise en place de la learning machine.

Je vais modestement me mettre à la place de Google dans son raisonnement sur le search...


Comment créer un moteur de recherche efficace ?

Rappelez-vous, jusqu'à présent, google nous dit, vous avez un site, c'est super mais vous nous truffez vos articles de pleins de mots-clés, et comme des milliers de sites font pareil que vous, on se retrouve avec des millions de pages qui potentiellement correspondent à cette requête. On crawl et tous les jours ça change, un vrai casse-tête pour organiser les données et ça nous prend du temps.

Acte 1 : Normaliser les données du web

Comme on ne s'y retrouve pas, il faut pouvoir baliser le contenu pour avoir au moins une thématique. On va mettre en place des cases, et on va y mettre les contenus dedans. Naissance de l'open graph protocol adopté par les plus grands du search et du social media (à lire facebook open graph search)

Acte 2 : Comment thématiser le web ?

On a mis en place les cases, maintenant il faut le remplir, on met en place des algo pour analyser les pages et les placer dans les cases mais ça prend du temps. Et si on achetait une société qui a déja fait une partie du job ? ok on rachète Metaweb . Y'a encore du boulot à faire mais on a un cadre.

Acte 3 : Les Rich snippet pour homogénéiser les données

Les rich snippet qu'est-ce que c'est ? c'est justement les cases de l'open graph, on défini un certains nombre de regroupement thématiques qui vont nous permettre de faire le tri :

on y retrouve :
les avis, les personnes, les produits, les entreprises, les recettes, les évènements, la musique, autres...

Acte 4 : Faire travailler les webmasters

Pour que ce soit naturel, il faudrait que ce ne soit pas nous qui rentrions les infos, mais les webmasters, blogguers, éditeurs, producteurs de contenus. On va leur donner un bonus à ceux qui le font bien, on leur fera remonter leurs infos dans les serp.

Nb : A ce sujet, vous savez que les captcha de google servent à réécrire les livres qu'il a numérisé et pour lesquels il y a des passages incompréhensibles?

Acte 5 : Qualification des données

Pour que les données soient de qualité, il faut que l'on ait des auteurs de qualités et pour les noter, il serait judicieux de leur demander de signer leur contenu, n'importe où qu'ils publient sur le net. Carotte encore, on va mettre leur visage à côté des résultats.

Comment faire pour reconnaître les auteurs ? on a qu'à les obliger à remplir les informations les concernant dans notre réseau social, en plus ça va permettre de récupérer des informations supplémentaires. Admettons que dans son profil il a mis qu'il aimait google, et qu'il écrit des articles sur google, et qu'en plus il nous donne les liens où il publie, c'est plus facile à analyser, on a des points de recoupement. D'ailleurs s'il s'intéresse à ce sujet, il est probable que quelques uns de ses amis aussi, et d'ailleurs ce sont eux qui repartageront les posts publiés. En plus si on met un outil qui lui permet d'intégrer dans son article un post de n'importe qui dans sa thématique, peut être que l'on pourra déterminer des influenceurs.

ACTE 6 : Apprendre des auteurs et balisage du contenu automatique

Nouvelle phase, google maintenant arrive a lier automatiquement un certains nombre de choses. ex: pour les utilisateur de wordpress, google est en mesure d'automatiquement affecter l'autorship sans intervention.

Avec l'outil de point and click, google data highlighter, google peut interpréter un schéma pour en faire un rich snippet sans balisage dans l'article.

(quoi google utiliserait un SCRAPER comme RDDZ pour alimenter son knowledge graph ?)

NB: Au passage, un scraper on en fait une mauvaise pub parcqu'il y en a un en particulier qui permet de spammer, mais à la base ça sert à récupérer des données et on peut alimenter de l'open big data avec, et c'est aussi un bon outil pour analyser son propre site).

ACTE 7 : Apprendre de l'utilisateur et anticiper ses recherches

C'est là qu'humming bird dit "le colibri" intervient. Il est peut être là depuis un moment.

Si on récapitule ce que l'on a concernant l'utilisateur "auteur":

  • on lui a mis un identifiant unique pour tous les services. 
  • on l'a incité à signer ses articles (authorship).
  • on l'a incité à participer au réseau social et partager, et même sur son blog/site internet
  • on l'incite à mettre des hashtag dans ses posts google+


Si on se place du côté internaute :

  • Lorsqu'il est connecté, on lui propose en priorité des articles qui ont été partagés par ses connaissances, ses cercles.
  • Lorsqu'il clique sur un résultat ou il y a de l'authorship affiché sur le résultats de recherche, qu'il lit l'article et qu'il revient sur le moteur, on lui propose d'autres articles du même auteur, d'ailleurs il y a un lien qui pointent vers ses autres articles.
  • Les réponses sont géolocalisés donc près de chez lui

L'interaction avec l'utilisateur, bienvenue au big data

Au fur et à mesure que l'internaute navigue, qu'il se connecte avec des gens, google est en mesure de définir ses habitudes et oriente les recherche, d'ailleurs vous êtes numériquement géolocalisé, pour cela l'adresse ip suffit. Vous avez donné un certains nombre d'info, et maintenant il y a de plus en plus de tablette et de smartphone. Quel est le rapport avec le reste de cet article ?

Vous aurez sûrement remaqué que sur android, le champ de recherche comporte un petit micro pour retranscrire la parole vers le texte, l'interface du moteur s'est épuré, le nombre de résultats présenté en 1ère page aussi. Ok, ce n'est pas nouveau, c'est comme SIRI. D'ailleurs j'avais fait un article sur un moteur d'intelligence artificielle pour en créer un.

Une démonstration avait été faite :

http://searchengineland.com/googles-impressive-conversational-search-goes-live-on-chrome-160445

Si je lui dit il neige à marseille, il me donne le temps et la température du jour, si je lui dit je cherche à réserver un hôtel à marseille il me propose un formulaire pour réserver (qui a disparu ?)


C'est la couche manquante actuellement, mais qui devrait arriver bientôt. Parler en langage naturel, engager un dialogue et récupérer des données. C'est le doux rêve de l'intelligence artificielle, et google a les moyens d'y arriver : Le stimulis-réponse adossé à du gros big data derrière (acte 1 à 6).

Et vous qu'en pensez vous ?