Modification de toutes les URL de ce blog

Un problème de "duplicate content":
La page "index.php" et la page "/" étaient les mêmes.

420 URL indexées par Google, je me suis permis quand même d'opter pour la solution bourrin: le passage de QUERY_STRING en PATH_INFO. Traduction: Les "index.php?" présents dans les URL de ce blog ont été retirés.

Pour la méthode, je ne vais pas l'expliquer car Djib l'a très bien fait sur son blog Think Underground : passage de QUERY_STRING en PATH_INFO sans douleur

De temps en temps il m'arrive de coller un lien vers un autre billet.

Pour tous les modifier, c'est à dire retirer les "index.php" dans les liens internes, ça se fait en une requête SQL (Faites une sauvegarde de votre base avant, je ne garantis rien[1] et pensez à préciser l'id de votre blog dans la clause WHERE)

  1. UPDATE dc_post
  2. SET
  3. post_content=REPLACE(post_content,'|index.php?','|'),
  4. post_content_xhtml=REPLACE(post_content_xhtml,'href="/index.php?','"href="/')
  5. WHERE blog_id='default'

Le résultat c'est que plus aucune URL indexée n'est valide. Cependant pour chacune, une redirection 301 [2] est faite vers le bon billet. Est-ce que Google et les autres bots vont bien réagir?

La manipulation a été faite hier soir, et j'ai soumis le nouveau sitemap dans la foulée. Une demie heure après Le bot était de passage sur les nouvelles adresses.

Quand aux agrégateurs de flux (oui le flux atom fait aussi l'objet d'une redirection 301), ils sont tous passés sur l'ancien flux (ayant la redirection 301), et ont immédiatement après pris en compte la nouvelle adresse, vu qu'à présent ils ne passent plus que sur la bonne.

Ça c'était hier soir, je regarde de temps en temps comment Google scrawle le site indexe les nouvelles URL, il a l'air de faire ça très bien, progressivement. On verra!

Notes

[1] Je suis un lâche

[2] La redirection 301 signifie que l'adresse a changé définitivement

Page top