duplicate content
SEO, Webdevelopment

Duplicate content problemen oplossen met behulp van redirects & tags

Een veelvoorkomend SEO probleem is duplicate content op websites. Het hebben van veel dezelfde content op verschillende webpagina’s kan een negatieve invloed hebben op de indexering en de positie van websitepagina’s in de resultaten van zoekmachines.

In dit artikel bespreek ik hoe duplicate content meestal onstaat en welke problemen het kan veroorzaken. Vervolgens leg ik uit hoe je met behulp van verschillende methoden en technieken deze problemen kunt oplossen.

Duplicate content is niet altijd een probleem en wordt zelden bestraft

Dat websites op verschillende pagina’s voor een deel dezelfde content hebben is onvermijdbaar. Bijna alle websites hebben uit praktische overwegingen bepaalde onderdelen die op alle pagina’s worden herhaald (denk aan de header, de footer, verschillende menu’s, etc.). Dit komt het gebruikersgemak alleen maar ten goede. Ook dubbele (delen van) teksten komen regelmatig voor. Mensen worden geciteerd, formulieren met bepaalde voorwaarden worden op verschillende pagina’s herhaald, etc.

Deze vormen van dubbele content worden dan ook niet door Google en andere zoekmachines bestraft. Volgens Matt Cutts van Google is het hebben van een bepaalde hoeveelheid dezelfde content dan ook niets om je zorgen over te maken. Hij schat dat maar liefst 25-30% van het internet uit duplicate content bestaat. Hij stelt dat Google goed in staat is om de originele content eruit te filteren, en dat de dubbele content hooguit niet meetelt bij het berekenen van de positie van websites in de zoekresultaten. Volgens Cutts wordt het pas problematisch wanneer het gaat om spam of ‘keyword stuffing’; dan loopt een website wel het risico om door Google bestraft te worden, en zal deze lager in de zoekresultaten verschijnen.

Bekijk het onderstaande filmpje waarin Cutts uitlegt hoe Google omgaat met duplicate content:

Wanneer is duplicate content dan wel een probleem?

Ook duplicate content die geen enkel doel dient ontstaat vaak op websites. Dit kan gebeuren omdat websites gebruik maken van filters, session ID’s en andere dynamische processen, maar ook door technische gebreken. Als sommige server-side redirects bijvoorbeeld ontbreken of niet goed staan ingesteld kunnen er tientallen tot honderden identieke pagina’s ontstaan. Dit zorgt vervolgens weer voor diverse problemen die een negatieve invloed hebben op de indexering en ranking van een website in de zoekresultaten. Hieronder volgen de meest voorkomende duplicate content problemen en de oplossingen die zijn aangedragen door Google en andere zoekmachines.

Verschillende URLs voor dezelfde pagina

Eén webpagina kan vaak via meerdere ingangen (verschillende URLs) bekeken worden. De  URLs in het onderstaande (fictieve) voorbeeld verwijzen zonder het instellen van redirects bijvoorbeeld naar dezelfde pagina:

  • example.com
  • www.example.com
  • example.com/
  • www.example.com/
  • example.com/index.html
  • www.example.com/index.html

Dit probleem herhaalt zich op alle pagina´s van de website:

  • example.com/products
  • www.example.com/products
  • etc.

Als er voor elke pagina op een website 6 of meer verschillende URLs bestaan, dan indexeert Google al deze URLs en beschouwt ze als unieke pagina’s. Dit leidt tot tientallen tot honderden dubbele pagina’s in de zoekresultaten. Google zal zonder aanwijzingen steeds zelf vaststellen welke van de verschillende URLs het meest relevant is; van elke identieke pagina zal er maar één een hoge positie in de zoekresultaten behalen. De andere identieke pagina’s zullen ergens onderaan de zoekresultaten verschijnen.

Als pagina’s via verschillende URLs toegankelijk zijn zullen deze minder autoriteit verkrijgenAndere websites zullen linken naar de eerste variant van een pagina (example.com), de tweede variant (www.example.com), of naar één van de andere varianten. Het aantal links wordt dus verdeeld over meerdere pagina’s. Had één van deze pagina’s alle links ontvangen, dan was dit veel beter geweest voor de positie van de pagina in de zoekresultaten.

Oplossing: 301 redirects instellen met behulp van een .htaccess file

Om dit probleem op te lossen is het verstandig om bij een nieuwe website meteen enkele server-side 301 redirects in te stellen. Je kan de URLs zonder www. bijvoorbeeld automatisch omleiden naar de pagina’s met www, of omgekeerd. Ook kun je pagina’s zonder slash (/) automatisch doorsturen naar pagina’s met slash, etc. Ook Google raadt het webmasters aan om dit te doen:

“It’s a good idea to pick one of those URLs as your preferred (canonical) destination, and use 301 redirects to send traffic from the other URLs to your preferred URL. A server-side 301 redirect is the best way to ensure that users and search engines are directed to the correct page.”

Je kunt redirects instellen met behulp van een .htaccess file. Maak je nog geen gebruik van dit bestand, dan kun je het eenvoudig zelf maken met notepad of een html-editor. Geef een leeg .txt bestand de de naam .htaccess (zonder .txt) en upload dit bestand naar je rootfolder. Gebruik één van de volgende standaard 301 redirects in de .htaccess file.

Voorbeeld

Redirect van non-www URL naar www URL

RewriteEngine On
RewriteCond %{HTTP_HOST} ^(?!www\.)(.+) [NC]
RewriteRule ^(.*) http://www.%1/$1 [R=301,NE,L]

Redirect van www URL naar non-www URL

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www\.(.*)$ [NC]
RewriteRule ^(.*)$ http://%1/$1 [R=301,L]

lightbulb

Tip: Als je redirects voor een bestaande website gaat instellen kijk dan eerst goed naar het linkprofiel van de website. Als bijna alle waardevolle links van andere websites naar de www URL linken, dan is het verstandig om deze als standaardadres te kiezen, en de non-www URL met een 301 redirect naar dit adres te sturen. Gaan er aanzienlijk meer waardevolle links naar de non-www URL, dan is het beter om deze URL als standaardadres te kiezen.

Andere manieren aan te geven welke URL je voorkeur heeft voor indexatie
Naast het instellen van 301 redirects kun je ook op andere manieren aan Google laten weten welke URL je bij voorkeur wilt laten indexeren.

  • Registreer de www en non-www URL bij Google Webmaster Tools en geef aan welke versie je voorkeur heeft voor indexatie.
  • Zorg dat de URL die je voorkeur heeft in de sitemap wordt gebruikt. Google zal namelijk ook de sitemap gebruiken om te kijken welke versie van je URLs je voorkeur heeft.

Duplicate content op bijna identieke pagina’s

Ook op allerlei andere manieren kunnen er (bijna) identieke pagina’s ontstaan. Door het gebruik van onder andere filters, sorteeropties, sessionID’s, tracking codes en paginering kunnen er tientallen tot honderden (en op grote websites duizenden) bijna identieke pagina’s op een website ontstaan. Kijk eens naar de volgende voorbeelden:

URL-parameters voor filteren en sorteren

  • example.com/products/price-10-20/
  • example.com/products/price-20-30/
  • example.com/products/price-30-40/
  • etc.

URLs met meerdere pagina’s

  • example.com/products/t-shirts/navy?page=2
  • example.com/products/t-shirts/navy?page=3
  • example.com/products/t-shirts/navy?page=4
  • etc.

Je wilt natuurlijk wel dat de bovenstaande URLs toegankelijk blijven en je wilt hier dus geen 301 redirects instellen die bezoekers automatisch omleiden. Om in deze gevallen duplicate content te bestrijden en indexatie van veel bijna identieke pagina’s te voorkomen kun je gebruik maken van verschillende elementen.

Het canonical link element

Met het canonical link element, vaak onterecht de canonical tag genoemd, geef je zoekmachines een sterk signaal wat de belangrijkste pagina is, zodat deze weten welke pagina geïndexeerd moet worden. Het canonical element helpt bovendien de waarde van links voor pagina’s te consolideren. Ook in de bovenstaande voorbeelden kan het gebeuren dat er naar één van de vele bijna identieke pagina’s wordt gelinkt. Met de canonical tag zeg je tegen Google dat de pagina’s bij elkaar horen, waardoor de de waarde van de links niet wordt verdeeld over meerdere pagina’s.

Voorbeeld

Plaats het volgende stukje code in de header van een bijna identieke pagina (bijv. www.example.com/products/price-10-20/ )

<link rel=”canonical” href=”http://www.example.com/products/” />

Met het plaatsen van dit stukje code op een pagina zeg je tegen zoekmachines dat www.example.com/products/ de originele pagina is die geïndexeerd moet worden.

Het canonical link element helpt zoekmachines te bepalen wat de originele pagina is, en wat de bijna identieke pagina’s zijn.

De link elementen rel=”next” en rel=”prev”

Het canonical element is niet altijd de juiste oplossing om zoekmachines te wijzen op bijna identieke content. Als er op verschillende bijna identieke pagina’s unieke content voorkomt, is de tag bijvoorbeeld niet toereikend, omdat je wilt dat zoekmachines alle informatie goed indexeren. In dit geval geeft Google het advies om of een ‘view all page’ te maken (zie voor uitleg dit filmpje), of om de elementen rel=”next” en rel=”prev” te gebruiken. Zo wordt duidelijk gemaakt dat het om pagina’s gaat die wel bij elkaar horen.

Een voorbeeld: een nieuwsartikel is opgedeeld in drie pagina’s. Om een goed beeld te krijgen van waar het artikel precies over gaat is het voor Google belangrijk om te weten dat de drie pagina’s bij elkaar horen. Bovendien is er sprake van een duidelijke volgorde; Google zal er voor proberen te zorgen dat bezoekers uitkomen op pagina 1 van het artikel door deze pagina hoger te laten verschijnen in de zoekresultaten. Hieronder kun je zien hoe je dit element toepast op verschillende pagina’s:

Voorbeeld

Element op pagina 1:

<link rel=”next” href=”http://www.example.com/artikel-deel-2.html”>

Elementen op pagina 2:

<link rel=”prev” href=”http://www.example.com/artikel-deel-1.html”>
<link rel=”next” href=”http://www.example.com/artikel-deel-3.html”>

Element op pagina 3:

<link rel=”prev” href=”http://www.example.com/artikel-deel-2.html”>

Samenvattend

  • Duplicate content komt veel voor op websites en wordt zelden bestraft. Bijna alle websites hebben een bepaalde hoeveelheid content die identiek is op elke pagina, zoals de header, de navigatiemenu’s, footer, etc. Dit hoeft geen probleem te zijn.
  • Duplicate content kan wel voor veel problemen zorgen. Als er verschillende URLs naar meerdere identieke pagina’s verwijzen kunnen er indexatieproblemen ontstaan en wordt het aantal inkomende links over de verschillende pagina’s verdeeld, wat een negatief effect heeft op de autoriteit van webpagina’s.
  • Oplossing wanneer pagina’s toegankelijk zijn via verschillende URLs: Stel 301 redirects in die doorverwijzen naar de URL die je voorkeur heeft. Geef het Google aan dat deze URL je voorkeur heeft en gebruik deze URL ook in de sitemap.
  • Oplossing voor bijna identieke pagina’s met verschillende URLs: Gebruik het canonical element en de elementen rel=”next” rel=”prev” om aan de geven dat pagina’s (bijna) identiek zijn of in een serie aan elkaar verbonden zijn. Zo weten zoekmachines welke pagina’s het belangrijkst zijn om geïndexeerd te worden.

Literatuur

Dover, Danny en Erik Dafforn, Search Engine Optimization (SEO) Secrets. Wiley Publishing Inc: Indianapolis, 2011.

Enge, Eric, Stephan Spencer, Jessie Stricchiola, and Rand Fishkin, The Art of SEO (second edition). Sebastopol: O’Reilly Media, 2012.

Previous Post Next Post

You Might Also Like

No Comments

Leave a Reply