Pour l’analyse des fichiers logs, sachez qu’ils fournissent un volume important de données plus utiles au référencement d’un site web. Il faudra toutefois encore que vous sachiez collecter et analyser proprement ces données pour les besoins de votre stratégie SEO. Ce guide complet vous apportera plus de détails sur la question.
Qu’est-ce qu’un fichier log pour un site web spécifique ?
Pour l’analyse des fichiers logs ? Un journal de serveur est un ou plusieurs fichiers créés et maintenus automatiquement par un serveur constitué d’une liste d’activités qu’il a effectuées. Pour des besoins de référencement (comme sur YouTube), il s’agira surtout d’un historique des demandes de page pour un site Web. Cela inclut les requêtes venant des humains et des robots. Le terme de journal d’accès désigne également ce type d’historique.
Chaque serveur est intrinsèquement différent dans la journalisation des appels. Ils donnent toutefois généralement des informations similaires, lesquels sont organisées en champs. Pour chaque appel, vous recevrez différentes informations clés. Cela inclut la date et l’heure, le code de réponse de l’URL demandée, et l’user-agent d’où provient la requête.
Les fichiers journaux sont composés de milliers de visites produites tous les jours. De nombreux appels sont enregistrés pour chaque page demandée chaque fois qu’un utilisateur ou un bot arrive sur votre site. Cela inclut les images, le CSS et tout autre fichier requis pour le rendu de la page.
Les moteurs de recherche comme Googlebot traitent un site web à partir de ses fichiers journaux. La console de recherche n’offre pas une vue d’ensemble de l’interaction entre Googlebot et un site Web. Il en va de même pour les robots d’exploration et les opérateurs de recherche. Seuls les fichiers journaux d’accès peuvent réellement fournir des informations pertinentes en la matière.
L’analyse des fichiers journaux donne une grande quantité d’informations utiles pour différentes tâches :
- Valider exactement ce qui peut ou ne peut pas être exploré.
- Afficher les réponses rencontrées par les moteurs de recherche lors de leur exploration.
- Identifier les lacunes de l’analyse qui peuvent avoir des implications plus larges basées sur le site. Cela inclut la hiérarchie ou la structure des liens internes.
- Voir quelles pages sont priorisées par les moteurs de recherche et peuvent être considérées comme étant les plus importantes.
- Découvrir les zones de gaspillage de budget d’exploration.
Données nécessaires sur l’analyse des fichiers logs aux historiques de requêtes
Comment faire l’analyse des fichiers logs ? Sachez d’abord que vous aurez besoin des journaux d’accès de tous les serveurs Web de votre domaine pour effectuer l’analyse. Pour réussir l’analyse des fichiers logs, ils doivent être bruts, ce qui exclut toute forme de filtrages ou de modifications. Une grande quantité de données devra dans l’idéal être collectée pour que l’analyse en vaille la peine.
Cela peut s’étaler sur des jours ou des semaines, selon la taille, l’autorité du site et la quantité de trafic qu’il génère. Une semaine peut suffire pour certains sites. Vous pourriez toutefois avoir besoin d’un mois de données ou plus pour d’autres.
Le développeur de votre site web devrait normalement être en mesure de transmettre ces fichiers pour vous. C’est d’autant plus vrai pour l’analyse des fichiers logs, s’ils contiennent des requêtes de plusieurs domaines et protocoles et s’ils sont inclus dans ces journaux.
Autrement, vous ne pourrez pas identifier proprement les demandes. Il serait difficile de différencier une demande pour http://www.example.com/ et https://example.com/. Demandez au web designer de mettre la configuration du journal à jour pour inclure ces informations.
En passant, vous pouvez aussi consulter notre guide concernant l’influence de Google Colibri sur le classement d’un site web.
Méthodes d’analyse des fichiers logs pour le référencement SEO
Quelles méthodes d’analyse des fichiers logs mettre en place pour le référencement SEO ? L’utilisation des fichiers logs à des fins de référencement SEO s’appuie surtout sur un travail d’analyse. Plusieurs méthodes différentes peuvent être combinées à cette fin pour avoir des données pertinentes.
Déterminer où le budget d’exploration est dépensé
Comment savoir où dépenser le budget d’exploration pour l’analyse des fichiers logs ? Le budget d’exploration est le nombre d’URL que Googlebot peut et souhaite explorer en considération de la vitesse et la demande d’exploration. Il s’agit essentiellement du nombre de pages qu’un moteur de recherche explorera chaque fois qu’il visite votre site. Ce paramètre est lié à l’autorité d’un domaine et se trouve être proportionnel au flux d’équité des liens via un site Web.
Il arrive que le budget d’exploration soit gaspillé sur des pages non pertinentes, surtout concernant l’analyse des fichiers journaux. Si vous avez du nouveau contenu que vous souhaitez indexer, mais qu’il ne reste plus de budget, Google n’indexera pas ce nouveau contenu. C’est pourquoi vous devez surveiller l’emplacement des dépenses du budget d’exploration à travers l’analyse des fichiers journaux.
Le fait d’avoir de nombreuses URL à faible valeur ajoutée peut avoir un impact négatif sur l’exploration et l’indexation d’un site. Les URL à faible valeur ajoutée peuvent appartenir à plusieurs catégories :
- Navigation à facettes, génération d’URL dynamiques et identifiants de session
- Contenu dupliqué sur site
- Pages piratées
- Pages d’erreur logicielles
- Contenu de mauvaise qualité et spam
Le gaspillage des ressources du serveur sur de telles pages drainera l’activité d’exploration des pages qui ont vraiment de la valeur. Cela peut grandement retarder la découverte de bons contenus sur un site. Demandez-vous si Google devrait se donner la peine d’explorer ces URL dans l’examen du nombre d’événements reçu par chaque page. La réponse à cette question est bien souvent négative.
L’optimisation du budget d’exploration aidera les moteurs de recherche à explorer et indexer les pages les plus importantes de votre site Web. Vous pouvez le faire de plusieurs façons. L’une d’elles consiste à bloquer les URL contenant certains modèles avec le fichier robots.txt.
Vérifier que les pages importantes sont explorées
Les pages doivent être visitées suivant l’importance qui leur est accordée. Triez vos fichiers journaux par nombre d’événements et filtrez-les par HTML. Vous verrez ainsi quelles sont les pages les plus visitées. Il serait assez simpliste de dire que les URL les plus importantes sont celles qu’il faut le plus explorer.
Si vous êtes un site de génération de prospect, vous auriez intérêt à ce que votre page d’accueil y apparaisse. Il en va de même pour les pages de services clés et le contenu de votre blog. C’est possible que vous trouviez une ancienne page pour un produit que vous ne vendez plus dans ces résultats. Il se peut aussi qu’aucune de vos pages de catégories les plus importantes n’y figure pas.
Découvrir si le site est passé à l’index Mobile-First
Vous pouvez faire l’analyse des fichiers logs pour savoir si un site Web reçoit une exploration accrue de Googlebot pour Smartphone. Le cas échéant, cela indiquera qu’il est passé à l’index mobile-first (MFI). Cette fonctionnalité est activée par défaut pour tous les nouveaux sites Web depuis le 1er juillet 2019.
Pour les sites Web plus anciens ou existants, Google continue de surveiller et évaluer les pages suivant les meilleures pratiques. Il informe les propriétaires de sites dans la console de recherche de la date à laquelle leur site est passé au MFI. 80 % de l’exploration de Google Actualités Récentes sur un site utilisant l’index normal est effectuée par le robot d’exploration de bureau. Le robot mobile réalise les 20% restants. Si vous êtes déjà passé au MFI, ces chiffres seront inversés.
Accessibilité des pages pour les robots de moteur de recherche
Google (voir l’histoire derrière son logo) domine le secteur des moteurs de recherche. Vous devez ainsi vous assurer que les robots d’exploration pour mobile et bureau visitent souvent votre site Web. Comment réussir l’analyse des fichiers logs ? Le robot de moteur de recherche filtre les données des fichiers logs. Une fois filtrées, ces données présenteront le nombre d’événements que chaque robot de moteur de recherche souhaite enregistrer.
Je vous recommande également de vérifier à quel point chaque bot indésirable visite votre site Web. Supposons que votre entreprise ne peut pas vendre de biens ou des services en Russie et en Chine. Vous pourriez alors déterminer à quel point les robots Yandex et Baidu visitent votre site. Si le volume de visite paraît inhabituel, vous pouvez bloquer les robots d’exploration dans votre fichier robots.txt.
Mettre les codes de réponse incohérents en évidence
Il est important d’analyser le dernier code de réponse que le moteur de recherche a reçue. La mise en évidence des codes de réponse incohérents peut toutefois aussi vous en donner un bon aperçu. Avez-vous examiné uniquement les derniers codes de réponse sans trouver d’erreurs inhabituelles ou de pics dans 4xxs & 5xxs ? Si oui, vos vérifications techniques peuvent s’arrêter là. Vous pouvez toutefois utiliser un filtre dans l’analyseur de fichier journal pour ne détailler que les réponses incohérentes.
Il y a plusieurs raisons pour lesquelles vos URL peuvent présenter des codes de réponse incohérents :
- 5xx mélangé avec 2xx : cela peut indiquer un problème de serveur lorsqu’ils sont soumis à une charge importante.
- 4xx mélangé avec 2xx : cela peut suggérer des liens brisés qui sont apparus ou ont été réparés.
Par ailleurs, découvrez aussi : comment la recherche vocale de Google affecte le SEO ?
Audit de pages larges ou lentes sur le site web
Le temps du premier octet (TTFB). Dernier octet (TTLB). Le chargement d’une page entière influencent la façon dont un site est parcouru. Le TTFB en particulier est la clé d’une exploration rapide et efficace pour votre site web. La vitesse des pages est aussi un facteur de classement. Cela démontre à quel point un site web rapide est crucial pour vos besoins de performances.
Pour l’analyse des fichiers logs, sachez qu’ils dévoilent rapidement les pages les plus volumineuses et les plus lentes de votre site. Vous pouvez alors identifier les éléments susceptibles de réduire leur performance de chargement :
- images en haute résolution
- vidéos en lecture automatique
- polices personnalisées inutiles
- activation de la compression du texte.
La taille de la page n’est pas un bon indicateur d’une page lente. Même une grande page peut se charger rapidement. Réduisez plutôt la dépendance de votre site web à JavaScript. Il est possible de réaliser le CSS. Vous aurez aussi besoin de données pour le sauvegarder.