S'abonner via Email

  • All
  • Business (54)
  • Business Garden News (163)
  • Concours (8)
  • E-Commerce (82)
  • Economie (17)
  • Evénements (30)
  • Expérience & Entretiens (107)
  • Idées & Concepts (161)
  • Innovation (190)
  • Internet - Web (282)
  • Investissements & Finance (16)
  • Logistique (69)
  • Lois & Aspects Juridiques (14)
  • Management (15)
  • Marketing (472)
  • Mobilité (65)
  • Relations Clients (558)
  • Ressources (231)
  • RH / Social / Paie (3)
  • Risques (60)
  • Stratégies (172)

Rechercher




Archives

  • Novembre 2008 (25)
  • Octobre 2008 (32)
  • Septembre 2008 (31)
  • Août 2008 (16)
  • Juillet 2008 (25)
  • Juin 2008 (22)
  • Mai 2008 (29)
  • Avril 2008 (46)
  • Mars 2008 (32)
  • Février 2008 (35)
  • Janvier 2008 (41)
  • Décembre 2007 (46)
  • suite...

Linkblog

  • Business Garden Permalien
  • Marketing Paradise Permalien
  • bsaConcept Permalien
  • Carré De Jardin Permalien
  • mecanik Permalien
  • SkullPat Permalien
  • VideoSphere Permalien
  • Vincent Abry Permalien


Article complet: Recherche en Langage Naturel sur Wikipedia grace à la Technologie Powerset

Recherche en Langage Naturel sur Wikipedia grace à la Technologie Powerset

28 Mai 2008

recherche en langage naturel technologie powerset wikipedia google Powerset introduit sa technologie de recherche en langage naturel en la proposant en libre accès pour l'encyclopédie en ligne Wikipedia.

C'est une véritable révolution dans le monde de la recherche documentaire ! Ne passez pas à côté !

Vous avez dit recherche en langage naturel ?

Que signifie "recherche en langage naturel" ?

C'est un concept assez simple à comprendre....habituellement on va utiliser de simples mots clés sur Google ou les autres moteurs de recherche, alors qu'il pourrait être plus agréable et intuitif de poser une question comme à un être humain, en langage naturel...

Dans le cas des mots clés, il faut réfléchir à ce qu'on cherche et sélectionner les mots clés les plus appropriés au contexte et au résultat attendu. Lors d'une conversation, notre cerveau va naturellement construire une phrase, une question avec suffisamment de finesse et de détails pour que notre interlocuteur comprenne avec précision la question qu'on lui pose...

Ceux qui sont habitués à manipuler les options des moteurs de recherche savent exploiter les requêtes complexes pour obtenir un résultat précis...mais pour la plupart des internautes cela s' apparente à apprendre un nouveau langage et peu de personnes sont prêtes à faire cet effort (normal...c'est à la machine de s'adapter à l'homme...). C'est là que le potentiel des technologies de recherche en langage naturel peut intervenir !

Est-ce que la recherche en langage naturel de Powerset est plus efficace que Google ? Démonstration par l'exemple !

[Suite:]

Actuellement, la technologie de Powerset n'est proposée qu'en langue anglaise pour la recherche sur Wikipedia. Mes exemples seront donc en anglais...mais suffisamment simples à comprendre même si vous n'êtes pas bilingue...

Premier exemple: "films with uma thurman":

Powerset > "films with uma thurman"

Google > "films with uma thurman"

example de résultat de recheche en langage naturel avec powerset

Powerset nous présente en première ligne une liste des affiches correspondant à la filmographie de l'actrice ! On peut faire défiler la liste sans rechargement de la page (interface en rich média dans la place !) et un clic sur l'une des affiche nous conduit vers la fiche Wikipedia du film ! Génial !

La seconde ligne de résultat est tout simplement la fiche Wikipedia de l'actrice qui comporte justement sa filmographie (encore un sans faute !).

Avec la même requête, Google déçoit !

Le premier résultat proposé par notre moteur de recherche préféré est certes une page sur la filmographie d'Uma Thurman, mais sur un site commercial (Allociné) qui nous impose l'affichage d'une publicité avant d'arriver au contenu qui nous intéresse ! Bon, je suis mauvaise langue car Allociné propose quand même le résultat attendu !

Par contre les 2 résultats suivants sont tout simplement des sites de vente de DVDs...pas franchement à l'avantage de Google pour ce petit match ! Pire, la fiche Wikipedia de l'actrice n'est même pas proposée sur la première page de résultat...étonnant quand on sait comment les contenus Wikipedia sont bien indexés par Google...

On peut alors se demander ce que donnerait une simple recherche de mots clés "uma thurman filmography"

Google > "uma thurman filmography"

Powerset > "uma thurman filmography"

Dans ce cas, Google s'avère effectivement plus adapté puisqu'il nous propose en premiers résultats plusieurs sites avec effectivement la filmographie de l'actrice (le premier résultat étant la page qui lui est consacrée sur l'Internet Movie Database) et un peu plus bas la sa fiche Wikipedia.

Powerset se retrouve largué et nous propose les pages Wikipedia d'autres acteurs ayant joué avec Uma Thurman.

Alors, faut-il préférer la simplicité ou la recherche en langage naturel ?

Second exemple: "where is rennes":

Powerset > "where is rennes ?"

Google > "where is rennes ?"

Dans les deux cas, le résultat est d'excellente qualité puisque les deux technologies nous proposent immédiatement de visualiser la position de la ville de Rennes sur une carte !

exemple de recherche en langage naturel pour la geolocalisation

Dans le cas de Powerset, c'est la carte de France et le département de Rennes qui sont proposés ! Pas besoin d'aller plus loin pour situer approximativement... Un clic sur la carte et on accède à la fiche Wikipedia du département d'Ille et Vilaine ! Les résultats suivants sont également en rapport avec la ville, sa localisation (en Bretagne) et même ses moyens de transport public (bien vu puisqu'on cherche un positionnement...et que les moyens de déplacement peuvent aussi être la suite logique de notre recherche !)

recherche en langage naturel avec google pour la geolocalisation

Google nous propose son application Google Maps... avec un champ de recherche pour calculer un itinéraire ! Certes, il faut jouer avec pour pouvoir situer la ville de Rennes, mais on a tout à disposition pour localiser à toutes échelles et même calculer un itinéraire... Le deuxième résultat est une fiche de Wikitravel (bien) mais les résultats suivants sont nettement moins convaincant: certes le nom de la ville y apparaît, mais c'est bien là le seul lien avec notre recherche...

Encore une fois, on peut se demander ce que donnerait une recherche simple sur le nom de la ville:

Powerset > "rennes"

Google > "rennes"

Google nous propose à nouveau son outil Google Maps (après tout, c'est assez logique puisqu'une des caractéristiques d'une ville est sa position géographique sur une carte...) puis une série de liens génériques sur la ville parmi lesquels le site officiel de la ville, de son club de foot (bien référencés les footeux !), les sites officiels (tourisme et information) de l'agglomération rennaise, puis enfin la fiche Wikipedia, suivie par le site d'une des universités, de l'aéroport et des transports publics. Bref, avec un mot clé on obtient à peu prêt tous les liens pratiques qui pourront servir à trouver une information précise sur Rennes !

Google étant un moteur de recherche généraliste, les résultats obtenus sont assez logiques...mais la qualité des liens proposés est parfaite pour une recherche qui n'est pas précise !

Powerset ne proposant que des documents de Wikipedia on pourrait s'attendre à n'obtenir que des informations historiques, géographiques et démographiques...et pourtant les résultats sont à la fois effectivement documentaires, mais également plus génériques puisqu'on obtient des pages Wikipedia pratiques sur les transports, l'aéroport et encore l'équipe de foot (décidément, ils sont partout !). Mais ces nombreux résultats sont dus aux nombreux contributeurs de l'encyclopéde en ligne Wikipedia qui vont même jusqu'à décrire avec précision le maillot du Stade Rennais (mais ils sont fous !).

Troisième et dernier exemple: "who is Nicolas Sarkozy ?":

Powerset > "who is Nicolas Sarkozy"

Google > "who is Nicolas Sarkozy"

Les premiers résultats proposés par Google sont assez classiques: sites d'actualité, pages Wikipedia en anglais et français dédiées à Nicolas Sarkozy, puis quelques sites officiels ou satiriques...

Powerset met en avant une fonctionnalités très intéressante intitulé "Factz" (comprenez les "faits" ou les "actions"):

powerset factz organisation des mots clés dans une recherche en langage naturel

Il s'agit d'un mode d'affichage intéressant dans lequel une série de mots clés sont organisez de manière sémantique, tenant compte des faits et des actions détectées par le moteur de recherche dans les pages de résultats. Concrètement, sur la gauche on trouve d'abord le sujet (Nicolas Sarkozy dans cet exemple) puis les verbes correspondant aux faits et actions identifiés comme marquants, puis enfin des mots clés en complément d'objet direct. Ce qui peut donner des résultats comme:

Nicolas Sarkozy / a gagné / élections, votes, présidence, majorité

Nicolas Sarkozy / a dirigé / UMP, France, parti, Mouvement Populaire

Ces mots clés permettent d'identifier d'un coup d'oeil certains faits qui caractérisent de manière simplifiée la personnalité qui fait l'objet de la recherche. La navigation est d'autant plus agréable que tous les mots clés sont cliquables, laissant apparaître un extrait du texte correspondant, lui même accessible après un second clic...

Une vidéo de présentation de la recherche en langage naturel avec l'utilisation de Powerset sur Wikipedia:

Conclusion:

Je trouve personnellement que les résultats de Powerset sont tout à fait convaincants !

La technologie fonctionne non seulement de manière efficace, mais en plus elle est associés à une mise en page qui s'adapte au type d'information proposé !

La cerise sur le gâteau c'est une interface en Rich Média extrêmement fluide et rapide, sans surcharge d'effets graphiques inutiles.

Les deux aspect (technologie et ergonomie) sont essentiels pour garantir l'adoption des internautes... et visiblement ils l'ont bien compris !

Par contre, la recherche en langage naturel est assez déroutante au début car on s'est habitué aux mots clés bruts de fonderie avec Google qui est justement optimisé pour trouver du contenu intéressant avec des requêtes très simples...

De plus, quand on connaît toutes les options de recherches proposées par Google et qu'on les maîtrise, on arrive à obtenir des résultats extrêmement précis. Mais il est clair que la très grande majorité des internautes n'utiliseront jamais tout le potentiel de Google s'ils doivent apprendre des commandes qui constituent un véritable langage...

Bref, la recherche en langage naturel a un très bel avenir devant elle... et Powerset nous montre qu'elle s'adapte parfaitement bien au domaine de la documentation et des encyclopédies telles que Wikipédia ! Vivement que la même chose soit proposé en français ! (un exemple à suivre pour Larousse.fr ?)

Pour aller plus loin:

Un très bon document sur les notions d'indexation automatisée du langage naturel

true knowledge : vos recherches en langage naturel

Les Enjeux de la Recherche en langage naturel

Sémantique et Recherche Efficace (Présentation PDF par Luc Manigot - Société Sinequa)

Screencast "Powerset, la guerre des moteurs" sur l'excellent blog de Nicolas Cynober

Outils et Sociétés dans le domaine de la recherche en langage naturel:

  • AlethGT : ERLI
  • Darwin : CORA
  • Dig Out For You : ARISEM
  • Illico : PROLOGIA
  • Information Retriever : ERLI
  • Intuition : CORA
  • Kombe : PROLOGIA
  • Search'97 : VERITY France
  • Search'97 Agent server : VERITY France
  • Search'97 Information Server : VERITY France
  • Search'97 Personal : VERITY France
  • Spirit : T-G.I.D.
  • Spirit-sense : T-G.I.D.
  • Terminology Manager : ERLI
  • Tool Kit For You : ARISEM
  • Tropes : ACETIC

 

Permalien 2 commentaires

Commentaires, Pingbacks:

Commentaire de: Nicolas Cynober [Visiteur] · http://nicolas.cynober.fr/blog/
Très bon article de A à Z !
Je complète ta liste de liens avec mon screencast en français.

J'ai également couvert TrueKnowledge (moteur de recherche également en langage naturel).

Bonne continuation !
Permalien 23.06.08 @ 11:10
Commentaire de: Nicolas Cynober [Visiteur] · http://nicolas.cynober.fr/blog/
Voici les liens:

Powerset:
http://nicolas.cynober.fr/blog/69,screencast-5-powerset-la-guerre-des-moteurs.html

TrueKnowledge:
http://nicolas.cynober.fr/blog/62,screencast-4-trueknowledge-le-moteur-de-questions.html
Permalien 23.06.08 @ 11:11

Les commentaires sont fermés pour cet article.

                                                  Propulsé par b2evolution
                                                  Skinné par noklio french 2.0