Google forlanger fuld indsigt i kode og scripts
Google mobilvenlige sider har været på alles læber den sidste måneds tid, der er dog andre vigtige opdateringer fra Google også.
Det har tidligere været god skik at udelukke Googlebot fra en række mapper via robots.txt. For WordPress blogs har det typisk være WP specifikt indhold og for både WordPress og andre sites har det været CSS filer, JavaScript / Ajax, o.lign.

Billede fra Pixabay
Nu vil Google se med!
I forbindelse med Googles opdatering den 21. april, er det fastslået at der skal være fuld adgang for Google til stort set alt, dette blev offentliggjort på Google Developers i november sidste år.
Denne adgang til alle filer som har betydning for gengivelsen af en webside, gælder alle websites.
Dette er tydeligvis endnu et anti-spam tiltag og har ikke noget med mobilvenlighed at gøre.
Google Guidelines
Citat fra Google:”For at hjælpe Google med at forstå dit websites indhold skal du tillade, at alle websitets aktiver, såsom CSS- og JavaScript-filer, gennemgås. Googles indekseringssystem gengiver websider ved hjælp sidens HTML samt dens aktiver, såsom billeder, CSS- og JavaScript-filer.” Læs Googles guidelines her.
Tjek din robots.txt fil
Som udgangspunkt skal din robots.txt fil indeholde 2 eller 3 linjer:
User-agent: *
Disallow:
Sitemap: https://domæne.dk/sitemap.xml
Sider og mapper der er udelukket vises på hver sin linje med “Disallow:” foran.
Disallow: /wp-admin/ udelukker robotter fra crawl af mappen /wp-admin/.
Denne type udelukkelser er lette at overskue og skal for størstedelens vedkommende bare fjernes.
En anden type udelukkelser er udelukkelser via kommandoer eller parametre hvor det er let uforvarende at komme til at udelukke en fil, bedst illustreret med et eksempel fra den virkelige verden, doh!
Eksempel:
Udelukkelse af søgeresultatsider i robots.txt:
URL for interne søgeresultatsider: /search.php?id=søgeord
Robots.txt: Disallow: /*?*
Dette udelukker alle filer med “?” og da det kun er i forbindelse med interne søgninger at mit websites benytter “?” i URL er jeg sikret.
Indtil et tjek i Google Webmaster Tools afslører at jeg uforvarende er kommet til at nægte Google adgang til både JavaScript og css filer fra WP plugins:
/jquery.js?ver=1.11.1
/style.css?ver=4.1.1
Gode kilder til mere information om robots.txt:
SEO Take Aways:
Tillad Googlebot adgang til stort set alt.
Tjek din robots.txt fil, eller få nogen til det.
Tilmeld dit website til Google Webmaster Værktøjer hvis du ikke allerede har gjort det.







Hvad er standarten i Wordpress? Er det at der er fuld adgang eller det modsatte?
Som default er der fuld adgang.
Under Indstillinger –> Læsning kan du markere hvis sitet ikke skal crawles.
Hej Peter,
Igen et super indlæg fra dig – takker :)
Ville den korrekte måde i Wordpress så være at tilføje:
Disallow: /search.php?*
For at undgå at jeg blokerer for versioner som /jquery.js?ver=1.11.1,osv som i dit eksempel.
Eller hvordan bør jeg gribe den an?
Og vil du anbefale at linke til Sitemaps i toppen af robots.txt filen ?
Hej Kent
Tak for de pæne ord!
Du skal ikke udelukke robotter fra crawl søgeresultatsider, faktisk skal Google nu have adgang til disse også, det er en forholdsvis ny praksis. MEN du skal udelukke søgeresultatsider fra indeksering med på alle sider (indsættes i template).
Hvis du bruger sitemap.xml er det en god idé, ja.
Hej Peter,
Tak for hurtigt svar :0)
Er dit site ikke sat op til at sende mails når man kommenterer på et indlæg / der svares ?
Hvis, så har jeg ikke modtaget noget :)
Mit WP site robots.txt er sat således op:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp/tag
Disallow: /wp/archives
Disallow: /wp-content/plugins/
Disallow: /cgi-bin/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /comments/
Disallow: */trackback/
Disallow: */comments/
Disallow: wp-login.php
Disallow: wp-signup.php
Disallow: /xmlrpc.php
Disallow: ?wptheme=
Disallow: /feed/
Disallow: /wp-
Crawl-delay: 10
Allow: /wp-content/uploads/
Så “søgeresultatsider fra indeksering med på alle sider” betyder at der skal indsættes et “no-index” på samtlige sider som har “?s=SØGEROD” eller misforstår jeg dig ?
/Kent