Čo je duplicitný obsah, ako poškodzuje webové stránky a aké sú najlepšie riešenia

TV22. decembra 2021

12minútové čítanie

Čo je duplicitný obsah

Duplicitný obsah, ako už názov napovedá, sú 2 alebo viac stránok na tom istom webe alebo na internete, ktoré ponúkajú v podstate identický alebo dokonca úplne identický obsah. Stránkou v tomto kontexte myslím jedinečnú adresu URL. Ak sa teda rovnaký obsah nachádza na dvoch rôznych adresách URL, ide o duplicitný obsah.

Pozrieme sa na to, ako duplicitný obsah vzniká, a že to môžu byť celkom prirodzené spôsoby, s ktorými sa stretávame dnes a denne, ale aj na to, prečo sa musíme pripraviť a riešiť problémy s duplicitami, a samozrejme na najčastejšie a najlepšie riešenia.

Duplicita a SEO – máme sa báť sankcií?

Dobrou správou je, že duplicitný obsah nie je sám o sebe negatívnym faktorom z pohľadu Google (a počítam, že aj iných vyhľadávačov) a nebude mať priamy vplyv na autoritu a pozíciu našej webovej stránky, pokiaľ tieto duplikáty vznikajú prirodzene (pozri nižšie) a nejde o nejakú cielenú snahu manipulovať vyhľadávačmi.

To však neznamená, že by sme sa nemali zaoberať duplicitným obsahom.

Uznávame, že Google nebude penalizovať našu stránku kvôli duplicitám, ale tiež to nie je pozitívna vec a stále je to negatívna vlastnosť stránky, ktorá sa v očiach vyhľadávačov prejaví väčšinou nepriamo.

Prečo riešiť duplicitný obsah

Duplicitný obsah sa vyskytuje a my sa pozrieme na najlepší spôsob, ako ho zvyčajne riešiť, ale je tiež dôležité pochopiť, prečo by sme to mali robiť na prvom mieste.

Vyhľadávače

Vyhľadávače ako Google, Seznam, Bing a ďalšie v podstate nikdy neponúkajú úplne rovnaké stránky vo výsledkoch vyhľadávania. Prečo by to robili? Ak jedna stránka nerieši problém osoby, ktorá niečo hľadala, prečo by mala rovnaký problém riešiť iná rovnaká stránka?

Preto sa vyhľadávače snažia ponúkať vo výsledkoch vyhľadávania rôzne stránky a takmer vždy rôzne weby (nemusí to byť pravidlo, ale vo výsledkoch vyhľadávania len zriedka nájdete viacero odkazov na ten istý web na tej istej stránke). Ak jedna stránka nevyrieši problém používateľa, možno ho vyrieši iná. Je to úplne logické a vyhľadávače by boli samy proti sebe, keby to bolo inak.

Ale čo ak narazia na dve obsahovo rovnaké stránky? Je to jednoduché, jednoducho si vyberú jednu a tú zobrazia. Stránka, ktorú vyhľadávače vyhodnotia ako duplicitnú, sa potom nezobrazí vo výsledkoch vyhľadávania.

Tieto duplikáty môžu zmiasť aj vyhľadávače. Nevedia, ktorá stránka je pre vás relevantná a ktorú si (ne)želáte zobraziť. Môžu byť takmer identické, ale to „takmer“ môže hrať veľkú úlohu. Môže sa tiež stať, že vyhľadávače jednoducho nevedia, ktorá stránka je originál, ktorý by mali zobraziť. Vo výsledkoch vyhľadávania sa môžu zobrazovať niektoré dosť zvláštne verzie adries URL, ktoré tam nechcete.

Vlastníci stránok

Rozrieďujete svoj linkbuilding. Ak máte viacero rovnakých stránok, na ktoré vediete odkazy, môžete si gratulovať k získaniu odkazov, ale pretože vediete odkazy na obe, sila týchto odkazov sa oslabuje. Namiesto množstva odkazov na jednu stránku tak získate málo odkazov na obe stránky a namiesto skvelého umiestnenia jednej stránky sa neumiestni ani jedna.

Linkbuilding je stále veľmi dôležitý faktor a stále patrí do svätej trojice kvalitného SEO spolu s kvalitným obsahom a zvládnutou technickou stránkou webu. Podkopávať si nohy duplikátmi nie je dobrý nápad.

Ako sa vytvárajú duplicitné stránky z technického hľadiska

Rôzne verzie adresy URL – s/bez www alebo http/https

Ide o veľmi klasický a prirodzený spôsob, ako môžu viaceré adresy URL vytvárať rovnaký obsah. Ak máte webovú lokalitu, vaša doména bude zvyčajne vyzerať takto:

https://www.vasweb.sk

No áno, ale čo ak majú používatelia k dispozícii aj nezabezpečenú verziu stránky, t. j. na začiatku nie je https, ale len http? Takto ponúkame 2 rôzne verzie stránky s rovnakým obsahom na 2 adresách URL.

Podobne môžeme mať verziu s www na začiatku alebo bez neho. Prakticky nezáleží na tom, ktorú z nich si vyberieme, ale mali by sme ponúknuť len jednu a neumožniť používateľom obe možnosti.

Ak by sme to neriešili (viď ďalej v článku), len kombinácia toho, či stránka je/nie je na https alebo má/nemá www verziu, by mohla mať za následok, že pre každú stránku nášho webu by boli k dispozícii 4 rôzne URL, pričom na každej URL by bol úplne identický obsah, t. j. duplicita ako hrom (ok, zase tak horúce to nie je, vyhľadávače s tým tak trochu počítajú, ale princíp duplicity zostáva), čo sa rieši presmerovaním (viď ďalej v článku).

Usporiadanie kategórií a filtrov v adresách URL

Týka sa to hlavne e-shopov, ale treba na to myslieť. Ak má napríklad e-shop v URL adrese filtre, je potrebné vyriešiť ich jednoznačné zoradenie.

V opačnom prípade sú adresy URL tohto typu:

vasweb.sk/trika/?color=blue&size=m

ALEBO

vasweb.sk/trika/?size=m&color=blue

Na základe adries URL vidíme, že sa kontrolujú rovnaké filtre, ale keďže nie je vyriešené ich správne zoradenie, dôjde k duplicite, keď sa na 2 adresách URL zobrazí úplne rovnaký obsah. V danom e-shope bude určite oveľa viac filtrov, takže zrazu je veľmi jednoduché mať na stránke oveľa viac duplicitného obsahu ako originálneho. To poškodzuje náš rozpočet na prehľadávanie a vyhľadávače určite nebudú mať radi našu stránku (ak sú schopné objaviť všetky tieto stránky).

UTM alebo iné parametre

Za adresami URL často nasledujú rôzne parametre, ktoré nijako nemenia obsah stránky, ale len poskytujú určité informácie napríklad analytickým nástrojom. Parametre UTM, ktoré sa pridávajú do adries URL v marketingových kampaniach, sú veľmi časté a následne sa používajú na vyhodnotenie toho, odkiaľ ľudia skutočne prišli a ako úspešná bola kampaň.

Parametre UTM môžu vyzerať takto:

vasweb.sk/?utm_source=email&utm_medium=newsletter

Obsah stránky je identický, ale adresa URL je iná.

Rôzne služby môžu pridávať podobné parametre. Facebook je v tomto smere pomerne ostrý. Ak kliknete na ľubovoľný odkaz zo služby Facebook, zvyčajne na nasadený článok, za adresu URL sa pridá parameter fbclid. Môžete si to vyskúšať sami, napríklad zdieľaním tohto užitočného článku o duplicitnom obsahu s vašimi priateľmi na Facebooku 😃

Ak potom kliknete na odkaz zdieľaného článku na Facebooku (a dokonca aj v Messengeri), za adresu URL sa pridá úplne irelevantný parameter fbclid, ktorý však zmení adresu URL a vytvorí tak duplikát.

Ďalšie podobné parametre pridáva napríklad Seznam.cz, ak kliknete na akýkoľvek článok z ich domovskej stránky. Parametre pridávajú aj rôzne sledovacie programy alebo môžete do adresy URL pridať nezmyselný parameter sami.

Existuje viacero spôsobov, ako sa takéto parametre môžu dostať za vašu adresu URL, a je potrebné ich zohľadniť. Riešenie potom spočíva v kanonizácii, o ktorej sa dočítate ďalej v článku.

Lomítko na konci adresy URL

Niektoré adresy URL sa končia lomítkom, iné nie. V podstate je úplne jedno, ktorú možnosť si vyberiete, ale použite jednu a vyriešte druhú. Opäť by to boli dve rôzne adresy URL, hoci ide o jednu z technických chýb, s ktorou vyhľadávače tak trochu počítajú a dokážu sa s ňou vysporiadať.

Ako sa vytvárajú duplicitné stránky z hľadiska tvorby obsahu

Duplicitný obsah

Klasika, ktorej sa treba vyhnúť. Nekopírujte doslovne iné články alebo texty. Vyhľadávače zobrazia pôvodnú, t. j. ako prvú vytvorenú adresu URL. Ak niekto kradne váš obsah, musíte situáciu riešiť ani nie tak s vyhľadávačmi, ale kontaktovať ho priamo a v prípade potreby podniknúť právne kroky. Tu, žiaľ, bude záležať na tom, o aké závažné plagiátorstvo ide.

Ak niekto skopíruje váš text, ale vyhľadávače vás aj tak zobrazia, riešenie pravdepodobne nestojí za váš čas. Ak niekto systematicky kopíruje vaše články a vy ste skutočne poškodení, budete musieť podniknúť právne kroky. Nanešťastie, v skutočnosti nemáte na výber, či sa budete súdiť, alebo to necháte tak.

Pokiaľ ide o skopírovaný obsah, treba tiež povedať, že záleží na tom, aká veľká časť danej stránky je skopírovaná. Ak napríklad píšete recenziu produktu a vidíte tabuľku s cenami, táto tabuľka sa pravdepodobne nachádza na viacerých lokalitách (cena je predsa rovnaká, takže informácie o cenách sú identické, a preto bude tento menší obsah duplikovaný). Ak však okrem tejto tabuľky píšete aj originálny článok a tento cenník je len malou časťou stránky, nemusíte sa obávať duplicity a vymýšľať, ako tabuľku upraviť.

Rovnako sa tu môžu nachádzať rôzne kratšie citáty, úryvky alebo odkazy na iné články. Z technického hľadiska ide vždy o niečo, čo sa už v identickej podobnej podobe nachádza na internete, ale ak ide o minimálnu časť vašej stránky, ani vyhľadávač to nebude považovať za duplikát.

Veľmi podobný obsah na 2 stránkach

Toto sa môže týkať nás blogerov. Niekedy sa nám stáva, najmä keď píšeme už dlho, že sme vytvorili dve stránky v podstate na rovnakú tému s rovnakým obsahom. Hoci technicky nejde o duplicitu, keď sme skopírovali text, pre vyhľadávače je to stále mätúce.

V tomto prípade je lepšie rozšíriť staršiu stránku o nové informácie ako vytvoriť novú stránku, a ak už máme novú stránku, zvyčajne je najlepším riešením tieto stránky zlúčiť, vytvoriť jednu skutočne hodnotnú stránku namiesto dvoch horších a novší článok odstrániť (ak nemáte dôvod) a presmerovať adresu URL (pozri nižšie).

Obsah šablóny na konci každej stránky

Ak na konci každej stránky uvediete napríklad dlhšie podmienky používania, informácie o autorských právach alebo niečo podobné, ktoré sú na každej stránke rovnaké, vyhľadávač to môže tiež interpretovať ako duplicitu. Bolo by lepšie umiestniť tieto pojmy alebo dlhšie texty na samostatnú stránku a na koniec článkov umiestniť len odkazy. Takto sa bude text opakovať oveľa menej.

Stránky bez obsahu

Niekedy máme nutkanie vytvoriť novú stránku vopred, ale nemáme na ňu čo napísať. Adresa URL už existuje a my len čakáme, kým ju naplníme obsahom. Ale to by sme nemali robiť. Ak nemáme o čom písať, mali by sme tieto prázdne stránky radšej vynechať alebo ich správne označiť metaznačkou noindex.

Vytvorenie nových adries URL vopred je veľmi dobrou stratégiou na dosiahnutie dobrého umiestnenia vo vyhľadávačoch, ale tieto stránky jednoducho potrebujú aspoň nejaký obsah, ktorý potom môžeme samozrejme aktualizovať a rozšíriť.

Ako sa vysporiadať s duplicitným obsahom

Niektoré konkrétnejšie riešenia som uviedol v samotných problémoch, ale tu sa pozrieme na tie najvšeobecnejšie, ktoré sa budú vzťahovať v podstate na všetky uvedené kľúčové duplikáty:

Nevytvárajte zámerne stránky s (takmer) rovnakým obsahom

Toto sa týka najmä blogovania. Každá stránka by mala byť jedinečná a mala by sa týkať relatívne konkrétneho problému. Niektorí ľudia vytvárajú veľa stránok na rovnakú tému, pričom v podstate len menia slovné spojenie písaného textu. Nemyslím si, že je to ideálna stratégia, a myslím si, že by sme sa mali zamerať na originalitu každého článku a napísať jeden skvelý text, a nie písať stále o tom istom

Ak napíšeme, aj nevedomky, niekoľko duplicitných článkov, mali by sme tieto články skonsolidovať a presmerovať na jednu adresu URL. Keď už hovoríme o presmerovaní.

Presmerovanie 301

Presmerovanie je automatický presun z jednej adresy URL na inú. Presmerovanie 301 je trvalé presmerovanie. Existujú presmerovania s inými kódmi (302 je dočasné presmerovanie), ale v zásade, ak nemáme dobrý dôvod (čo takmer nikdy nemáme), vždy používame presmerovanie 301.

Ak teda niekto navštívi adresu URL, prehliadač automaticky zmení túto adresu URL na inú požadovanú adresu URL. Presmerovaná adresa URL je potom pre návštevníkov a roboty nedostupná.

Presmerovanie je celkom typické napríklad len na automatickú zmenu adresy URL z http na https, z newww na www (alebo naopak z www na newww) alebo napríklad na odstránenie/pridanie lomítka na koniec adresy URL. Ak sa teda niekto pokúsi zobraziť newww verziu vášho webu, bude automaticky presmerovaný na www verziu atď.

V zásade môžete presmerovať čokoľvek kdekoľvek v rámci svojej stránky a riešiť vymazané adresy URL, partnerské odkazy alebo čokoľvek iné, čo vás napadne.

Ak sa zaoberáte presmerovaním jednej konkrétnej stránky na inú (napríklad pre vymazaný článok), je to zvyčajne triviálna záležitosť. Ak by ste sa však zaoberali napríklad presunom stránky do iného systému správy obsahu alebo zmenou štruktúry adries URL, mohlo by ísť o naozaj veľký problém, ktorý by musel vyriešiť špecialista na SEO, aby sa zabezpečilo, že sa presmerovanie nezasekne alebo nespôsobí ďalší z desiatok potenciálnych problémov.

Dobrou správou je, že tieto veci sa prakticky nestávajú a vždy je to skôr naše vlastné rozhodnutie než nejaká povinnosť.

Samotná technická stránka presmerovania je potom na vás. Najlepším riešením je zvyčajne okamžité vyriešenie presmerovania na strane servera, zvyčajne pridaním pravidiel do súboru .htaccess.

Ak máte stránku WordPress, existujú aj pluginy, ktoré sú užívateľsky prívetivejšie na účely presmerovania a nechcú zasahovať do nastavení servera, ale tieto presmerovania sú pomalšie – pred samotným presmerovaním sa musí načítať jadro WordPress, čo jednoducho trvá o niečo dlhšie a tiež zaťažuje server/webhosting.

Kanonizácia

Zatiaľ čo pri presmerovaní sa zmení adresa URL a presmerovaný obsah nie je dostupný, máme iný spôsob riešenia duplicity bez zmeny adresy URL. Ide o kanonizáciu. Ak máme na lokalite alebo na viacerých lokalitách stránky, ktoré sú duplicitné, vyberieme tú, ktorá je pre nás najdôležitejšia, a to je kanonická stránka (a ak to nevieme alebo nás to nezaujíma, vyberieme si jednu napríklad hodom mincou). Na ostatných duplicitných stránkach potom pridáme informácie do kódu HTML medzi značky <head> a nasmerujeme vyhľadávače na stránku, ktorú považujeme za najdôležitejšiu

Kód HTML potom vyzerá takto:

<link rel="canonical" href="https://www.expressinfo.sk/co-je-duplicitny-obsah-ako-poskodzuje-webove-stranky-a-ake-su-najlepsie-riesenia/" />

Vďaka tomu vyhľadávače pochopia, že o duplicite sami vieme, ale vo výsledkoch vyhľadávania zobrazujeme najlepšiu verziu, ktorú chceme zobraziť.

Kanonizácia sa niekedy nazýva aj „mäkké presmerovanie„. Všetky adresy URL sú k dispozícii a k presmerovaniu v skutočnosti nedochádza, ale nastavením kanonickej stránky konsolidujeme všetky duplikáty do jednej adresy URL.

Kanonizácia sa používa vtedy, keď chceme, aby boli všetky duplicitné adresy URL neustále k dispozícii, napríklad keď chceme zachovať parametre UTM alebo iné parametre, ktoré používame na meranie alebo iné účely. Ak nemá zmysel mať k dispozícii viacero verzií adresy URL s rovnakým obsahom, má zmysel tvrdé presmerovanie, pri ktorom je k dispozícii len jedna adresa URL.

Upozornenie č. 1: Kanonizácia sa používa na presmerovanie vyhľadávačov na pôvodnú verziu stránky, takže kanonický odkaz by mal vždy viesť na stránku s rovnakým alebo veľmi podobným obsahom. Preto nekanonizujeme parameter v adrese URL, ktorý skutočne mení obsah stránky (napr. filter elektronického obchodu) na verziu bez tohto parametra. Tu potrebujeme vedieť, ktoré parametre v adrese URL skutočne menia obsah a ktoré sú z hľadiska zmeny obsahu zbytočné.
Upozornenie č. 2: Kanonizácia je odporúčanie pre vyhľadávače, nie príkaz. Ak vyhľadávače rozpoznajú, že stránky sú skutočne duplicitné, budú kanonizáciu rešpektovať. Ak kanonický odkaz vedie na stránku, ktorá nie je duplicitná, budú ho ignorovať.
Upozornenie č. 3: Kanonický odkaz musí byť v kóde HTML medzi značkami <head> (existujú aj iné metódy, ale nie sú podporované všetkými vyhľadávačmi, takže toto je najbezpečnejšie a najjednoduchšie riešenie). Ak umiestnite kanonický odkaz kdekoľvek mimo značky <head>, vyhľadávače ho budú ignorovať.
Upozornenie č. 4: Kanonické prepojenie je v kóde povolené len raz. Ak v kóde uvediete niekoľko rôznych kanonických odkazov, čo sa môže stať napríklad pri použití viacerých pluginov SEO naraz, vyhľadávače budú pravdepodobne všetky tieto odkazy ignorovať. Odporúčam pozrieť sa do zdrojového kódu vášho webu a skontrolovať, či máte na stránke viacero takýchto odkazov.
Upozornenie č. 5: Kanonický odkaz môže byť zapísaný v relatívnom formáte (t. j. zápis adresy URL bez loga a domény, namiesto „https://www.vasbeb.cz/stranka/“ by sme napísali len „/page/“) alebo v absolútnom formáte (t. j. kompletná adresa URL s https:// na začiatku). Dôrazne odporúčam vždy používať absolútnu, t. j. úplnú adresu URL, aj keď kanonický odkaz vedie na rovnakú doménu. Toto odporúčanie budem častejšie používať aj v iných prípadoch, pretože absolútne odkazy sú vo všeobecnosti lepším postupom, keď vyhľadávače nemôžu nesprávne interpretovať relatívnu adresu URL.
Upozornenie číslo 6: Niekedy môžete počuť odporúčanie (počul som ho aj na konferenciách SEO), že by sme mali používať kanonizáciu pre stránkovanie, napríklad na stránkach s výpisom článkov v sekciách, a že kanonický odkaz by mal viesť na prvú stránku tohto stránkovania. Je to však zlý postup, pretože to jednoducho nie je duplicitný obsah a ani spoločnosť Google to neodporúča.
Možnosťou by mohlo byť vytvorenie jednej zjednocujúcej stránky, ktorá by hostila obsah všetkých stránok v stránkovaní, a potom použiť túto zjednotenú stránku ako kanonickú stránku. Ale nemyslím si, že je to dobré, pretože potom môžete mať na tej jednej jednotnej stránke takpovediac neporiadok. Skúste si predstaviť, že veľký e-shop by na jednej stránke uviedol kompletne všetky produkty z danej sekcie. Použili by ste túto masívnu stránku? Myslím, že nie. Nebolo by možné sa v ňom orientovať, stránka by sa načítavala ktovie ako dlho a bolo by to také divné. Nemá veľký zmysel chcieť indexovať niečo také. Je oveľa prirodzenejšie a logickejšie mať všetky stránky z paginácie indexované, správne prepojené a označené príznakmi rel="next" a rel="prev".

Vlastné kanonické

Často sa stretávate aj s tzv. kanonickým odkazovaním na seba samého alebo skrátene s kanonickým odkazovaním na seba samého, keď pôvodná stránka kanonicky odkazuje sama na seba. To je ideálne napríklad v prípade rôznych parametrov Facebooku, UTM alebo iných parametrov, ktoré nie sú relevantné pre obsah a ktoré sa pridávajú po adrese URL, ale ktoré chceme v adrese URL zachovať.

V adrese URL sa nachádza parameter, ktorý nijako nemení obsah stránky, takže kanonický odkaz vedie na verziu stránky bez parametra. Je to žiaduce, pretože nechcem, aby vyhľadávače vo výsledkoch vyhľadávania zobrazovali nejaké čudné parametre, ale vždy chcem verziu bez nich.

Skvelé je aj to, že ak niekto odkazuje na svoju stránku s týmito irelevantnými parametrami, vyhľadávače budú vďaka kanonizácii vedieť, že sila tohto odkazu by mala ísť len na adresu URL v kanonickom odkaze.

Chyby duplicity

Presmerovanie a kanonizácia sú najlepšie a najspoľahlivejšie spôsoby, ako sa vysporiadať s duplicitou. Mohli by sme však uvažovať aj o možnosti zakázať prehľadávače prostredníctvom súboru robots.txt alebo inými prostriedkami. Nie je to však práve najšťastnejšie riešenie. Ak totiž robot na stránku nepríde, nezistí, že by na nej mohol byť duplicitný obsah, ktorý by sme mohli kanonizovať alebo presmerovať inde.

Vyhľadávače však môžu stránku indexovať, aj keď ju nemusia nevyhnutne navštíviť. Obsah stránky môžu pochopiť napríklad z kontextu textu v odkaze. V praxi to znamená, že vyhľadávače budú tieto duplicitné stránky považovať za samostatné jedinečné stránky so všetkými problémami, ktoré to pre nás prináša.

Toto riešenie zákazu prehľadávania duplicitného obsahu neodporúča ani spoločnosť Google a je lepšie použiť klasické riešenia, ako je kanonizácia alebo presmerovanie.

Čo si z článku odniesť

Duplikáty na webe nie sú vo všeobecnosti žiaduce, ale vznikajú celkom prirodzene a nemôžeme s nimi veľa urobiť. Duplikáty našťastie priamo neznižujú autoritu webu, ale z hľadiska SEO a používateľskej prívetivosti by sme sa mali duplikátom aj tak vyhnúť a podľa možnosti naplánovať štruktúru webu, obsah a všetko ostatné tak, aby duplikáty nevznikali (aspoň vo veľkom rozsahu).

Vo všeobecnosti platí, že ak duplikáty vznikajú prirodzene a nie je za nimi žiadny zlý úmysel, nemusíme sa obávať, či sem-tam nejaký vznikne. Najmä na slušne technicky vybavených blogoch je dobré mať na pamäti, že môžu vzniknúť duplicity, ale ak vyriešime správne presmerovanie na jednu verziu stránky (t. j. určite https a voliteľne www alebo non-www) a správne nastavíme self-canonical, v podstate sa nemáme čoho obávať.

TV22. decembra 2021

12minútové čítanie