Hvad er nu lige duplicate content, tænker du måske. Duplicate content kan opstå på flere forskellige måder, og derfor er der også flere strategier, man kan anvende for at komme det til livs. Alligevel er definitionen på problemet ret enkel:

Vi har at gøre med duplicate content i alle tilfælde, hvor to eller flere forskellige URL-adresser helt eller delvist viser det samme tekstindhold.

URL står for Uniform Resource Locator, og en URL er en websides adresse. Alle websider og undersider – og alle udgaver af disse websider og deres undersider – har en unik URL-adresse, som potentielt kan indekseres i søgemaskinerne.

Og så har vi balladen.

En hjemmeside skal ikke være ret stor, før den når op på rigtig mange undersider. De store websider har titusindvis af undersider. Og så skal man holde tungen lige i munden, hvis man helt vil undgå duplicate content.

Forbudt at stjæle tekstNår det alligevel relativt ofte opstår, sker det som følge af uopmærksomhed, sløseri eller direkte fusk. En uopmærksom webmaster vil på et eller andet tidspunkt få problemer med kopi-indhold. Uopmærksomhed er menneskeligt, og webmasteren får forhåbentlig snart øje på problemet. Sløseri og fuskeri er også ganske menneskelige karaktertræk. Men duplicate content som følge af ugidelighed og fusk er bare dumt. Hvis man med fuldt overlæg kopierer indhold fra andre websider, fordi man tror, man er smart, havner man hurtigt i problemer, der rækker langt ud over duplicate content som en SEO-synd.

Google og de andre søgemaskiner er nået langt i deres arbejde med at fjerne alle gærdets lave steder. Faktisk er der slet ikke noget gærde længere. Der er en mur. Ikke sådan en aggressiv Trump-mur. Bare en mur, man skal gøre sig fortjent til at komme igennem. Copy/paste er ikke way to go!

Hvorfor er det et problem at have duplicate content?

Det er et problem, fordi den Googlebot, der kommer for at crawle din side, får et forvirret udtryk i sit digitale botansigt, når den står over for flere veje (læs: URL’er) til det samme indhold. Hvilken vej skal den vælge? Potentielt er den stakkels bot nødt til at kæmpe sig vej igennem en stor mængde identisk indhold. Det kan betyde, at den overser noget andet indhold, som du gerne ville have vist den.

En Googlebot er ikke nogen lampeånd med magiske kræfter. Den kan ikke nå at læse alt dit indhold igennem, hvis den står i duplicate content til op over begge ører. Når den endelig får gravet sig fri, kan du risikere, at den bare tilfældigt indekserer én af dine URL’er med kopi-indhold, og du kan dermed ikke kontrollere, hvilken af dine sider, der bliver vist i søgemaskinen. Desuden bliver den valgte URL med stor sandsynlighed sendt nedad i søgeresultaterne – den mister pagerank.

Søgemaskinerne vil helst vise originalt indhold

Sørg for, at alt dit tekstindhold er unikt

Egentlig er problemet slet ikke, at Google er bange for, at botterne skal danne fagforening og nedlægge arbejdet på grund af overanstrengelse. Alle søgemaskiners virkelige frygt er dårlige anmeldelser fra deres brugere – og kopi-indhold giver dårlige anmeldelser!

Det er irriterende at søge i Bing eller Google blot for at finde flere resultater, der giver mig nøjagtig den samme information. Jeg gider da ikke læse det samme to gange. Det gør du heller ikke. Duplicate content kan sammenlignes med en avis, en bog eller noget lignende, som af en eller anden årsag har det samme tekst stående på side 3 og side 5. Søgemaskinerne har ikke lyst til at være opslagsværker, der spilder folks tid, og derfor har de lavet regler om, at de ikke må kunne finde flere sider med det samme indhold, uden at du har gjort dig umage for at fortælle dem, hvordan de skal behandle det.

Fair nok. En enkelt gang imellem kan Google godt vise sig fra sin overbærende side og lade nogle ganske få tilfælde af duplicate content på din webside gå ubemærket hen. Og nej, overlagt kopiering af andres indhold er aldrig sådan et tilfælde. Her bliver man altid kylet tilbage over muren igen. Fy!

Hvad er straffen for duplicate content?

Ingen kender den præcise konsekvens af duplicate content. Det kommer naturligvis an på typen og omfanget, men søgemaskinerne er som altid gode til at holde på oplysningerne. Du kan vælge at lade kopi-problemet passe sig selv. Det er der faktisk nogle SEO-folk, der vil råde dig til. De siger, at Google sagtens kan finde ud af det. Googles egne folk er også blevet citeret for at sige, at der ikke sker noget ved at have duplicate content. Tror du på den? Nej, vel? Hvis du også driver dit websted efter princippet om ‘better safe than sorry’, skal du fortsætte med at læse!

Nu skal vi nemlig se på de mest almindelige problemer med duplicate content. Når vi har været igennem dem, fortæller jeg dig, hvordan man bedst løser dem, så man ikke kommer i nærkamp med søgemaskinernes algoritmer og risikerer at miste sin rank.

Hvordan opstår duplicate content?

Hvordan opstår duplicate content?

Med eller uden www

Når både versionen med og versionen uden www. bliver indekseret i søgeresultaterne. Det er den samme webside med identisk indhold på to forskellige adresser. Det er det, man kalder sitewide kopi-indhold, og det er et problem.

Din webside har flere navne

Når du har købt flere forskellige domæner til dit websted. Eksempelvis hedder dit websted noget med ’ø’, og du har derfor købt det tilsvarende domæne med ’oe’. Eller måske er der bindestreg i dit domænenavn. Men for en sikkerheds skyld har du også købt domænet uden bindestreg. Av! Hvis du ikke aktivt vælger ét websted, hvor dine besøgende havner, sidder du i saksen.

Din webshop tilbyder filtrering og sortering af produkter

Dine brugere kan sortere dine produkter efter størrelse, navn, nummer og så videre. Hvis du sælger bluser, kan man købe hver enkelt bluse i forskellige størrelser og farver. Hvis dine kunder har mulighed for at sortere bluserne, får den samme bluse pludselig to eller flere forskellige URL’er alt efter, hvor mange parametre du har valgt at have. Men det er den samme produktbeskrivelse, der står på hver URL. Ups!

Dit shoppingsystem bruger sessionsid (session ID)

Når en ny kunde kommer ind på din webshop, bliver han eller hun tildelt en art kundeid. Det får vedkommende, fordi systemet gerne vil kunne huske indkøbskurvens indhold, den handlendes foretrukne produkter og så videre.

Det vil sige, at når der har været ti forskellige kunder inde i din shop for at se den samme røde bluse, findes der pludselig ti forskellige URL’er, der peger ind på samme side – såfremt dit system gemmer disse ID’er i URL’en. Nogle systemer gør, og andre gør ikke. Ifølge Peter J. Meyers fra moz.com er sessionsid i URL’en dårlig ide, og han tilråder webshopejere at strukturere deres system således, at det ikke gemmer ID i webadressen. Det er nok her, du skal ringe til din webmaster.

Der er pagination på din webside

Pagination (paginering på dansk) er afledt af latin, og det betyder bare nummerering af sider. Her må vi igen ty til eksemplet med webshoppen, der forhandler bluser. Når man vælger kategorien bluser i webshoppen, får man vist en beskrivelse af bluserne. Bluserne er varme og bløde. Du kan få dem i mange forskellige farver, kvaliteter og materialer. I sin helhed en fin kategoritekst. Der er virkelig mange bluser i shoppen – hele 8 sider fyldt med bluser. Selvom du skifter fra side 1 til side 2 i oversigten med bluser, er det den samme kategoritekst, du møder. Men side 1 og side 2 har to forskellige URL’er. Potentielt kan den samme tekst stå på flere hundrede sider. Ups igen!

Den printvenlige version

Det lyder lidt antikvarisk, men det er stadig et hyppigt forekommende tilfælde af duplicate content. Den er nem at regne ud. Et eller andet stykke indhold findes i en printvenlig version på din hjemmeside. Printvenlig version = ny URL. Men præcis det samme indhold. Øv altså…

Citater, uddrag og brug af andres materiale

Når man skriver artikler, får man ofte behov for at referere til en kilde, man har brugt. Måske vil man gerne medtage et uddrag fra kilden, fordi man ikke kunne have sagt det bedre selv. Det kan være en anden artikel eller et stykke litteratur. Man sidder måske med et fysisk eksemplar af den givne bog eller artikel, men den findes helt sikkert også på nettet. Hver gang man citerer og bruger uddrag fra andre kilder, har man i princippet kopieret deres indhold, selvom man ikke gør det i ond tro.

Hvordan løser man problemer med duplicate content?

Her må bringes en lille advarsel: Teknisk indhold følger!

Er du en af de mange, der aldrig har været et smut bag gardinet, virker løsningsforslagene nok lidt langhårede. Men har du eksempelvis aldrig før hørt om HTML, så fortvivl ikke. Du har sandsynligvis en webmaster, som kan hjælpe dig med at implementere løsningerne i dit system, hvis du har mistanke om, at din webside har problemer med duplicate content. Der er intet galt i at prikke ham eller hende på skulderen og spørge, om I nu har helt styr på det der med kopieret indhold.

Dit websted har flere navne eller kan findes både med og uden www

Den bedste løsning er at lave en 301 redirect. Det vil sige en viderestilling fra alle dine mulige hjemmeside-URL’er til den URL, du foretrækker. Det er en besked til søgemaskinerne om, at indholdet på nogle webadresser er flyttet permanent til en anden adresse. Med en 301 redirect sørger du også for at videresende mest mulig værdi fra den gamle side.

Uanset om man skriver www.soerensbluser.dk eller sørensbluser.dk, vil trafikken lande på den adresse, du har valgt – eksempelvis www.sørens-bluser.dk. Husk, at viderestillingen skal gælde både hovedside og alle undersider.

301 redirect kan laves på tre måder:

Ved at tilføje et meta tag til HTML’en på din hjemmeside:

<meta http-equiv="refresh" content="0; url=http://www.dinside.dk/side-der-skal-viderestilles-til">

Ved at lægge en .htaccess fil op på dit webhotel. Det er bare en helt almindelig tekstfil, hvor der står fra hvilken side til hvilken side, der skal viderestilles:

RewriteEngine On
redirect 301 /gammel-artikel-url http://www.dinside.dk/ny-artikel-url

Ved hjælp af scriptsprog som f.eks. PHP. Tilføj følgende tekst i toppen af dit php dokument:

<?php 
header("HTTP/1.1 301 Moved Permanently"); 
header("Location: http://www.dinnyeside.dk"); 
?>

Dit websted har printvenlige sider og/eller tilbyder filtrering og sortering af produkter

Det anbefales at bede søgemaskinerne om slet ikke at indeksere disse udgaver af dine URL’er. Hvorfor? Fordi der bliver dannet en unik URL for hver parameter og for hver kombination af disse parametre, og det kan blive til et utrolig stort antal unikke URL’er. Det er formålsløst at have alle disse URL’er stående i søgemaskinernes indeks.

Du afholder søgemaskinerne fra at indeksere dem ved hjælp af et meta-element, vi kalder for Meta Noindex. Det skriver man ind i sin HTML som vist i eksemplet herunder.

<meta name="robots" content="noindex">

Man kan også bruge et HTML linkelement med rel=canonical. Dette linkelement er et godt værktøj mod duplicate content, men det skal bruges med omtanke. Nogle SEO-eksperter mener, at såfremt der findes en anden og bedre mulighed for at løse problemet, skal man hellere bruge den. Andre vil være mere parate til at foreslå canonical som den bedste løsning. Mere om rel=canonical om lidt.

Din webside benytter sig af pagination

Google anbefaler, at du benytter rel=”prev” og rel=”next”. Det er links, som fortæller Google, at du har mange produkter, der bliver vist i en rækkefølge. Ved korrekt brug af disse links, hjælper du Google med at forstå, at der er tale om nummerering og sidevisninger og ikke duplicate content.

I nedenstående eksempel står du på første side i listen over bluser, og du skal derfor kun angive URL’en til side 2.

<link rel="prev" href="http://www.dinside.dk/bluser?side=2" />

Her befinder du dig på side 4 i listen over bluser, og du skal derfor angive URL’en til både den forrige og følgende side.

<link rel="prev" href="http://www.dinside.dk/bluser?side=3" />
<link rel="next" href="http://www.dinside.dk/bluser?side=5" />

Nu er du nået til den sidste side (her er det side 8) i listen. På sidste side skal du kun angive URL’en til den forrige side, for Søren har ikke flere bluser i sin liste.

<link rel="prev" href="http://www.dinside.dk/bluser?side=7" />

Din webside danner sessionsid

Som vi allerede har været inde på, anbefaler eksperter dig at ændre dit system, hvis det gemmer hver session ID i URL’en. Der er ikke nogen grund til, at søgemaskinerne kan crawle og indeksere sådanne URL’er. Gem oplysningerne om hver session andre steder – eksempelvis i en cookie. En cookie er et tekstdokument med oplysninger om brugerens adfærd. Dokumentet ligger gemt på brugerens egen computer.

Du ønsker at citere eller medtage uddrag af andres tekst

For en del år siden præsenterede Google et nyt meta-element, de kaldte “syndication-source”. Syndikering betyder, at flere parter indgår en aftale om at kunne bruge det samme indhold forskellige steder. Dette meta-element var tiltænkt nyhedsmedier, som hver dag bringer nyhedshistorier på tværs af hinanden. Med syndication kunne hvert medie angive den originale kilde til historien uden af få en kopianklage på nakken. Siden 2012 har syndication ikke længere været en gangbar løsning for folk, som gerne vil bruge indhold fra andre sider.

I dag findes der andre måder at gøre det på. Et eksempel er HTML-elementet <blockquote>. Det indikerer, at du har brugt indhold, der ikke er forfattet af dig selv.

<blockquote cite="www.kildenshjemmeside.dk/artiklen-der-citeres-fra">Den citerede tekst</blockquote>

Uanset hvad du gør for at fortælle søgemaskinerne, at du har lånt dele af andres indhold, gælder følgende:

Du bør altid have så meget originalt (læs: hjemmelavet) indhold på din side, at mængden af citeret tekst/uddrag udgør et absolut minimum af sidens samlede tekstindhold. Her er det ikke din webmaster men din tekstforfatter, du skal ringe til.

Det er vigtigt at notere sig, at brug af <blockquote> ikke er nogen garanti for, at søgemaskinerne ikke opfatter dine citater som duplicate content.

Andre løsninger på duplicate content

Canonical linkelement

Canonical bruges til at angive, hvilken URL der er den originale, og hvilken der blot er en kopi. Dine besøgende har stadig adgang til alle de ’uoriginale’ adresser, men du har fortalt søgemaskinen, hvilken URL der er skal vises i søgeresultaterne.

Du kan i teorien bruge canonical på alle URL’er på din hjemmeside. Det har Google som udgangspunkt ikke noget imod. Men det er vigtigt, at du ved, hvordan man bruger det rigtigt.  Du skal være helt sikker på, at de sider, du udpeger som uoriginale, rent faktisk er uoriginale sider. Hvis du markerer en orignal side som uoriginal, kan du i værste fald miste al trafik fra Google og andre søgemaskiner til den pågældende side. Canonical er en udbredt metode, når man skal sikre sig mod duplicate content. Du kan, som nævnt, bruge det, når der er filtrering på din webside. Canonical kan også anvendes på printvenlige sider.

<link rel="canonical" href="http://www.dinside.dk/original-side" />

Hvis du har lyst til at læse mere om canonical, kan du starte hos Joost de Valk, som er manden bag Yoast SEO plugin til WordPress.

404 not found

Tja, du har jo muligheden for helt at fjerne den side, hvorpå problemet opstår. Før du gør det, skal du sikre dig, at denne URL virkelig er fuldstændig uden betydning for brugeren. Er den det, sker der ikke noget ved, at URL’en pludselig ikke længere eksisterer. Det er dog en god ide at lave en 301 redirect til en anden webadresse, som du ønsker, at brugeren i stedet skal se. En ren 404 not found er en dårlig oplevelse for brugeren. Desuden har den skrottede side sandsynligvis været tilgængelig i søgemaskinen i en rum tid og har dermed opbygget en mængde værdi. En 301 redirect videresender en stor del af den værdi til den nye adresse.

robots.txt

Her har vi at gøre med en tekstfil, der fortæller botterne, at de ikke skal crawle og indeksere en eller flere sider. Brugere får ikke vist selve tekstfilen, men de kan stadig få adgang til den eller de sider, som du nu har skjult for botterne.

Eksempel på mappe på webhotellet, der ikke skal indekseres.

User-agent: *
Disallow: /mappe-der-ikke-skal-indekseres/

Eksempel på fil på webhotellet, der ikke skal indekseres.

User-agent: *
Disallow: /fil-der-ikke-skal-indekseres.html

Brug af robots.txt er ikke nogen fleksibel løsning, og det er et dårligt værktøj, hvis du vil skjule websider, der allerede er blevet indekseret. Kun sjældent er robots.txt en rigtig god ide, og du kommer længere med det mere fleksible Meta Noindex, som du kan skrive ind i din HTML.

Hurra! Du du kom igennem. Jeg håber ikke, at du helt har mistet pusten. Jeg vil afslutte en lang historie med kort at fortælle dig, hvornår du gerne må genbruge.

Hvis du eksempelvis ønsker at have en hjemmeside på flere sprog, må du gerne oversætte indholdet til et andet sprog og bruge det på en ny webside. Du må også gerne have de samme billeder på flere forskellige sider. Billeder tæller ikke som kopieret indhold – det kan kun tekstindhold gøre. Derfor skal du eller din tekstforfatter kanalisere en stor mængde hjernekraft og kærlighed ind i din websides tekstindhold, for det er alt andet end en hemmelighed at søgemaskinerne alle drages mod original kvalitet.

Hvis du synes om artiklen, så del den gerne med andre: