SEO

Har din SEO taget højde for Googles crawlbudget?

Google kan ikke crawle alle sider på internettet - så hvordan sørger du for, at de crawler alle dine? Læs med her, hvor vi giver dig svaret.


Vidste du, at nettets større hjemmesider og webshops ikke bliver indekseret helt til bunds af Google?

For i dag indeholder internettet så mange sider, at Google ikke kan følge med længere.

Derfor har de indført et crawlbudget, og det er noget som påvirker din søgemaskineoptimering.

Men selv om det oftest kun er de allerstørste hjemmesider, der rammer hovedet imod loftet på crawlbudgettet, kan du godt komme i farezonen, hvis du ikke sørger for at rydde op på dit webhotel eller har en meget dyb struktur på dit website.

Vi har talt med specialisten Sasa Kovacevic (Head of SEO) fra Obsidian Digital, som til dagligt arbejder med SEO rådgivning for store og små virksomheder og bedt ham komme med sit bud på, hvad du som webshop-ejer kan gøre for at optimere din hjemmesides crawlbudget.

En ny udmelding fra Google

Internettet er blevet så stort, at Googles robotter simpelthen ikke har tid til at få crawlet hver eneste hjemmeside helt i bund. Alternativet er ikke at få indekseret alle nettets hjemmesider og webshops, men hvilke sider skal Google så udelade? Din måske?

Sådan set har Google arbejdet med et crawlbudget for hver enkelt hjemmeside siden 2009, men det er først for nylig, at de har meldt ud, at de rent faktisk arbejder men en form for begrænsning på indekseringen af de større hjemmesider og webshops på nettet. De kalder det ikke for et crawlbudget internt, men betegnelsen er meget beskrivende.

Små hjemmesider får ikke noget crawlbudget

Alle mindre sites bliver crawlet helt igennem ved hvert besøg.

Det er kun de større sider, der kan risikere, at de ikke får alle sider eller sektioner indekseret.

Og da Googlebot starter forfra ved hvert besøg, betyder det, at der rent faktisk kan være sider på større websites, der aldrig bliver indekseret overhovedet.

Derfor kan de slet ikke findes i Google. Det medfører, at der aldrig kommer trafik til disse sider – fra Google i hvert fald.

For via intern linkbuilding kan besøgende, der allerede er på siden, selvfølgelig godt finde dem.

Men siden vil aldrig kunne bidrage med nær så meget til jeres omsætning eller kommunikation, som hvis den var til at finde i Google.

Har det en URL, tæller det med

Selv om det kun er større websites, der kan risikere at blive ramt af Googles crawlbudget, kan du blive ramt, før end du ved af det.

For når Google skal bestemme omfanget af et websted, er det alle de tilgængelige webadresser, de kan åbne på webserveren, der tæller med.

Det vil sige, at Google også medregner:

  • Gamle billeder og andre filer, der ikke bliver brugt længere
  • Alternative versioner og kladder til sider
  • Alle de størrelser du har liggende gemt af et billede
  • Alle filer med f.eks. JavaScript- og CSS-kode
  • Alle PDF-filer og andre statiske elementer
  • Alle systemgenererede sider og filer, som jeres CMS opretter.

Det kan hurtigt løbe op – især hvis du ikke får slettet gamle filer eller får stoppet genereringen af unødvendige systemfiler og sider. Så kan du hurtigt få tildelt et crawlbudget.

Sådan beregner Google et websites crawlbudget

Er jeres website først blevet så stort, at Google tildeler det et crawlbudget, er det jeres webservers svartid og svartiderne på de enkelte websider på serveren, som bestemmer hvor stort jeres websites crawlbudgettet bliver.

Det er webserverens dagsform, der tæller.

For Googlebot er trænet til at opføre sig som en god borger på internettet.

Så ankommer den til jeres side, når der er mange besøgende og webserveren derfor svarer langsommere, fordi den har travlt, bliver der indekseret færre sider ved det besøg.

Derved forstyrrer Googlebot ikke de andre brugere på jeres hjemmeside.

Svinger Googlebot omvendt forbi på et tidspunkt, hvor jeres side ligger øde hen på internettet, får den indekseret mere af webstedet.

Tjek antallet af crawlede sider i Google Search Console

Hvor mange sider Googlebot crawler ved hvert besøg, kan du faktisk se på Search Console under Crawlstatistik.

Her kan du se maksimums-, minimums- og gennemsnitsværdierne for antallet af indekserede sider ved hvert besøg.

Her skal du især være opmærksom på, hvorvidt det er maksimums- eller minimumsværdien, der ligger tættest på gennemsnitsværdien.

Ligger gennemsnittet tættere på minimumsværdien end på maksimumsværdien, kan I måske få indekseret flere sider ved hvert besøg, ved at få gjort noget ved hastigheden på webserveren og ved at optimere svartiderne på de enkelte sider.

  • Er alle billeder weboptimerede?
  • Er HTML-koden toptunet?
  • Er der brug for mere kraft på jeres webserver?

Ligger gennemsnittet tættere på maksimumsværdien, kan I tage det som en indikation af, at webserveren kører godt.

Men en yderligere optimering af webserveren og sidernes svartider, kunne måske sikre jer, at Googlebot indekserede endnu flere sider ved hvert besøg, så maksimumsværdien blev forøget.

Har jeg sider, der ikke er blevet indekseret?

Vil du finde ud af præcist, hvilke sider der er blevet indekseret, og hvilke der aldrig har haft besøg af Googlebot, skal du have fat i logfilerne fra din webserver.

De kan enten tilgås fra det administrative webinterface her på DanDomain eller ses ved hjælp af f.eks. Live view-funktionen i WordFence, hvis du kører med WordPress på jeres hjemmeside.

Ved at eksportere logfilen fra webserveren kan du bruge et gratis værktøj som Screaming Frogs Log File Analyzer til at give dig et overblik over, hvilke sider Google har indekseret, og om der er nogen, der ikke er.

Er der det, betyder det, at Google har tildelt jeres website et crawlbudget!

Hvordan bestemmer Google, hvad der ikke skal indekseres?

Er det tilfældet, er der altså dele af jeres hjemmeside, som aldrig bliver besøgt af Googlebot. Hvilke sider det drejer sig om, bestemmer Google ud fra, hvilken type website de mener, at I er.

Anvender I f.eks. et webshop-CMS, anser Google jer automatisk som en webshop og opprioriterer indekseringen af jeres produkter og produktkategorier.

Bruger I derimod WordPress eller et andet CMS, bruger den de benævnelser i anvender i menuerne og andre navigationsværktøjer til at bestemme, hvad det er for et slags website, I har.

For hver type prioriterer Google så særlige sektioner på hjemmesiden. Så tænk over, hvad I kalder de forskellige sektioner på jeres hjemmeside.

Hvordan får jeg indekseret de sider, der er ramt af Googles crawlbudget?

Som allerede nævnt er det ikke sådan, at Googlebot sætter et bogmærke ved slutningen af hvert besøg og så fortsætter fra det sted, næste gang den kommer forbi. Næ, den starter helt forfra hver gang og bruger så jeres menu og de øvrige links, den møder på sin vej, til at crawle så meget af websitet, som den har fået tildelt crawlbudget til ved dette besøg.

Det vil sige, at hvis du opdager, at der er sider, som aldrig er blevet indekseret, så kan du lokke Googlebot forbi dem ved at indsætte links til disse sider på de websider, der ligger øverst i jeres sitehierarki. Dem er der nemlig størst sandsynlighed for, at Googlebot får crawlet ved hvert besøg.

Men du kan også gå mere struktureret til værks og dels få fjernet de elementer fra webserveren, der ikke giver mening, at Google bruger crawlbudget på og dels gøre strukturen på hjemmesiden mere flad.

Undgå et dybt og omfattende sitehierarki

Har du f.eks. en webshop med store produktkategorier med mange under- og under-underkategorier eller har du en hjemmeside med meget store sektioner, der er opdelt i mange niveauer og med mange under- og under-under-sider, kan det betale sig at gøre de enkelte produktkategorier eller sektioner på siden mindre.

Derved kommer indholdet tættere på startsiden på hjemmesiden, så Googlebot ikke skal bruge så mange klik for at lande på de sider, der ligger dybest nede i jeres sitehierarki.

For jo flere sider Googlebot skal indeksere, før den kommer til en given side i jeres sitehierarki, jo større er risikoen for, at siden ikke bliver indekseret, hvis I er blevet tildelt et crawlbudget.

Begræns Googlebots adgang til mapperne på serveren

En anden effektiv måde at minimere websitets omfang, er ved at begrænse Googlebots adgang til mapperne på webserveren.

Det gøres i robots.txt filen i rodmappen på webserveren. De mapper, der indeholder systemfiler og andre filer, som ikke behøver at blive indekseret, behøver Googlebot jo ikke besøge.

Ryd op og flyt kode- og andre systemfiler

Tilsvarende er det også en god ide at gå alle de mapper på webserveren igennem, som du lader Googlebot besøge.

Slet alle de gamle filer, der ikke bruges længere og flyt alle de filer som indeholder kode eller andet irrelevant indhold over i en mappe, som Googlebot ikke har adgang til.

Få også slettet alle de systemgenererede sider i jeres CMS, der ikke behøver at blive indekseret og trim så opsætningen af CMS’et, så det holder op med at generere dem.

Det er også en god ide at sætte no-follow på links til sider, det ikke giver mening at få indekseret, hvis de ikke kan fjernes fra sitet.

Hold øje og trim løbende

Følger du disse råd, kan du enten få trimmet størrelsen på jeres website, så det ikke bliver tildelt et crawlbudget eller øge chancerne for, at Google får indekseret alle sider på jeres website.

Og som med så meget andet, når det gælder jeres hjemmeside, er det noget, du skal holde øje med og gøre noget ved løbende. Så hermed har du fået endnu en opgave på to-do listen for din hjemmeside.

Hvis du ønsker at læse mere om, hvordan du arbejder med Googles crawl budget, kan du finde mere dybde gående info via nedenstående links:

https://obsidian.dk/crawl-budget/

http://searchengineland.com/google-explains-crawl-budget-means-webmasters-267597

https://www.keylimetoolbox.com/news/googlebots-crawl-budget-impacts-sites-visibility-search-results-can-improve/

 

Lignende indlæg