≡ Menu

Har Googlebot adgang til dine JavaScript filer?

Google forlanger fuld indsigt i kode og scripts

Google mobilvenlige sider har været på alles læber den sidste måneds tid, der er dog andre vigtige opdateringer fra Google også.

Det har tidligere været god skik at udelukke Googlebot fra en række mapper via robots.txt. For WordPress blogs har det typisk være WP specifikt indhold og for både WordPress og andre sites har det været CSS filer, JavaScript / Ajax, o.lign.

robots.txt

Billede fra Pixabay

Nu vil Google se med!

I forbindelse med Googles opdatering den 21. april, er det fastslået at der skal være fuld adgang for Google til stort set alt, dette blev offentliggjort på Google Developers i november sidste år.

Denne adgang til alle filer som har betydning for gengivelsen af en webside, gælder alle websites.

Dette er tydeligvis endnu et anti-spam tiltag og har ikke noget med mobilvenlighed at gøre.





Google Guidelines

Citat fra Google:”For at hjælpe Google med at forstå dit websites indhold skal du tillade, at alle websitets aktiver, såsom CSS- og JavaScript-filer, gennemgås. Googles indekseringssystem gengiver websider ved hjælp sidens HTML samt dens aktiver, såsom billeder, CSS- og JavaScript-filer.” Læs Googles guidelines her.

Tjek din robots.txt fil

Som udgangspunkt skal din robots.txt fil indeholde 2 eller 3 linjer:

User-agent: *
Disallow:
Sitemap: https://domæne.dk/sitemap.xml

Sider og mapper der er udelukket vises på hver sin linje med “Disallow:” foran.

Disallow: /wp-admin/ udelukker robotter fra crawl af mappen /wp-admin/.

Denne type udelukkelser er lette at overskue og skal for størstedelens vedkommende bare fjernes.

En anden type udelukkelser er udelukkelser via kommandoer eller parametre hvor det er let uforvarende at komme til at udelukke en fil, bedst illustreret med et eksempel fra den virkelige verden, doh!

Eksempel:

Udelukkelse af søgeresultatsider i robots.txt:
URL for interne søgeresultatsider: /search.php?id=søgeord
Robots.txt: Disallow: /*?*

Dette udelukker alle filer med “?” og da det kun er i forbindelse med interne søgninger at mit websites benytter “?” i URL er jeg sikret.

Indtil et tjek i Google Webmaster Tools afslører at jeg uforvarende er kommet til at nægte Google adgang til både JavaScript og css filer fra WP plugins:

/jquery.js?ver=1.11.1
/style.css?ver=4.1.1

Gode kilder til mere information om robots.txt:

Google

Robotstxt.org

SEO Take Aways:

Tillad Googlebot adgang til stort set alt.
Tjek din robots.txt fil, eller få nogen til det.
Tilmeld dit website til Google Webmaster Værktøjer hvis du ikke allerede har gjort det.



Har Google adgang til dine JavaScript filer?
Googles nye guidelines for adgang til filer: Se hvorfor de fleste websites ikke overholder disse - og husk at tjekke din robots.txt også!
Facebooktwittergoogle_plusredditpinterestlinkedinmail
  • Matthew 28.03.2015, 16:44

    Hvad er standarten i Wordpress? Er det at der er fuld adgang eller det modsatte?

  • Peter Ulstrup Hansen 28.03.2015, 17:05

    Som default er der fuld adgang.

    Under Indstillinger –> Læsning kan du markere hvis sitet ikke skal crawles.

  • Kent Christiansen 28.03.2015, 17:27

    Hej Peter,
    Igen et super indlæg fra dig – takker :)

    Ville den korrekte måde i Wordpress så være at tilføje:

    Disallow: /search.php?*
    For at undgå at jeg blokerer for versioner som /jquery.js?ver=1.11.1,osv som i dit eksempel.
    Eller hvordan bør jeg gribe den an?

    Og vil du anbefale at linke til Sitemaps i toppen af robots.txt filen ?

    • Peter Ulstrup Hansen 28.03.2015, 21:52

      Hej Kent
      Tak for de pæne ord!
      Du skal ikke udelukke robotter fra crawl søgeresultatsider, faktisk skal Google nu have adgang til disse også, det er en forholdsvis ny praksis. MEN du skal udelukke søgeresultatsider fra indeksering med på alle sider (indsættes i template).
      Hvis du bruger sitemap.xml er det en god idé, ja.

    • Kent Christiansen 30.03.2015, 19:40

      Hej Peter,
      Tak for hurtigt svar :0)
      Er dit site ikke sat op til at sende mails når man kommenterer på et indlæg / der svares ?
      Hvis, så har jeg ikke modtaget noget :)

      Mit WP site robots.txt er sat således op:
      User-agent: *
      Disallow: /wp-admin/
      Disallow: /wp-includes/
      Disallow: /wp/tag
      Disallow: /wp/archives
      Disallow: /wp-content/plugins/
      Disallow: /cgi-bin/
      Disallow: /wp-content/cache/
      Disallow: /wp-content/themes/
      Disallow: /trackback/
      Disallow: /comments/
      Disallow: */trackback/
      Disallow: */comments/
      Disallow: wp-login.php
      Disallow: wp-signup.php
      Disallow: /xmlrpc.php
      Disallow: ?wptheme=
      Disallow: /feed/
      Disallow: /wp-
      Crawl-delay: 10

      Allow: /wp-content/uploads/

      Så “søgeresultatsider fra indeksering med på alle sider” betyder at der skal indsættes et “no-index” på samtlige sider som har “?s=SØGEROD” eller misforstår jeg dig ?

      /Kent

Skriv en kommentar