Canonizare și conținut duplicat
Publicat: 2023-05-13Majoritatea oamenilor au mai multe versiuni ale unei adrese URL care direcţionează către versiuni separate, dar similare ale site-ului lor. Există câteva motive pentru aceasta. În primul rând, proprietarul site-ului poate testa diferite elemente sau poate urmări traficul din alte locuri, cum ar fi site-urile de social media.
De aici se nasc câteva întrebări. În primul rând, ce versiuni de site-uri web sunt indexate și devin cele pe care Google le afișează în paginile lor de rezultate pentru ca utilizatorii să le vadă? La ce se uită Google atunci când determină care versiune este cea principală sau „canonică” care se clasează pe SERP-uri? Vor fi penalizați proprietarii de site-uri pentru că au aceste pagini de conținut duplicat?
Acest proces se numește canonizare, normalizare sau standardizare și vă vom răspunde astăzi la aceste întrebări și vă vom oferi un concept mai precis de canonizare. Vom cerceta elementele de bază, semnalele la care se uită Google și vom analiza exemple de scenarii în care sunt utilizate mai multe versiuni de site și conținut duplicat. Acestea sunt doar informații esențiale, așa că vă rugăm să consultați serviciile SEO cu etichetă albă dacă aveți nevoie de mai multe informații sau de ajutor cu problemele de canonizare.
Să sărim înăuntru!
Eticheta canonică
O etichetă canonică este un cod pe care îl puteți introduce în secțiunea „<head>” a codului paginii sau în antetul HTTP. Acest lucru informează motoarele de căutare că această versiune a URL-ului dvs. este cea pentru care doriți să vă clasați - cea pe care Google o arată celor care caută. Când motoarele de căutare accesează cu crawlere site-uri web și întâlnesc conținut duplicat sau similar, inclusiv aceste etichete, clarifică faptul că o versiune URL este cea pe care o preferați să fie indexată.
Cam asa arata:
<link rel="canonical" https://www.yourwebsitehere.com />
(Asigurați-vă că codul este introdus și închis corect.)
Cu toate acestea, merită remarcat faptul că acesta este doar unul dintre celelalte semnale pe care Google le verifică. Google analizează mai mulți factori, iar eticheta canonică poate fi chiar trecută cu vederea în favoarea unui semnal diferit.
Semnale de canonizare
Deci, cum stabilește Google care adresă URL este versiunea „canonică”?
John Mueller de la Google explică că există două linii directoare generale atunci când alegeți adresa URL canonică:
- Preferința site-ului – ceea ce site-ul îi spune lui Google că dorește să fie adresa URL canonică
- Preferința utilizatorului – URL-ul pe care Google o determină este mai benefic pentru cel care caută
Lucrurile la care se uită Google în ceea ce privește preferințele de site:
- Etichetă canonică (link rel canonical)
- Care adresă URL se află în fișierul sitemap
- Legătura internă
- Redirecționări
- URL-uri HTTPS
- Adrese URL care arată mai bine/mai curate
Mueller spune că ei iau în considerare toate aceste elemente și îl aleg pe cel canonic pe baza adresei URL care încorporează cel mai bine aceste lucruri. De asemenea, el îi sfătuiește pe proprietarii de site-uri că, dacă preferă ce adrese URL să arate căutărilor, trebuie să aplice aceste preferințe în mod constant pe site-urile lor web. Din nou, SEO local cu etichetă albă este de ajutor dacă aveți resurse limitate în acest domeniu.
Alți factori în procesul de canonizare includ duplicatele, legăturile externe și Hreflang.
Google analizează mai mulți factori, iar eticheta canonică poate fi chiar trecută cu vederea în favoarea unui semnal diferit. Faceți clic pentru a trimite pe TweetConținut duplicat
Conținutul duplicat sau foarte asemănător poate exista din diverse motive, intenționat sau de altă natură, și poate cauza multe probleme la clasare. Canonicalizarea poate atenua aceste probleme. Deși conținutul duplicat nu vă va aduce o penalizare în sine, aceasta nu înseamnă că este complet fără consecințe.
În principal, conținutul duplicat ar putea întârzia afișarea paginilor corecte de site în paginile cu rezultate. De exemplu, dacă aveți două pagini similare clasate pentru cuvintele cheie exacte, acestea ar putea concura, sau Google va avea nevoie de timp pentru a determina pe care să o plaseze pe SERP-uri. Chiar și atunci când Google ajunge la el, s-ar putea să nu arate cea pe care o preferați sau versiunea în care ați depus mai mult efort. Google devine din ce în ce mai bun în identificarea paginilor care oferă cea mai bună experiență de utilizare. Totuși, conținutul valoros poate fi uneori îngropat sub duplicate excesive, precum un ac într-un teanc de scobitori - similar ca formă, dar nu în esență. Puteți simplifica acest proces prin practici de canonizare.
Regulile Google de canonizare duplicat
În ceea ce privește adresele URL, Google va alege adesea o versiune URL mai curată, mai scurtă, în locul uneia care este mai lungă și care include parametri. De asemenea, Google va prefera adesea HTTPS față de versiunea HTTP a unui site.
Când Google întâlnește conținut duplicat pe o pagină, va alege o versiune canonică pentru indexare. Aceasta va fi versiunea pe care o determină a fi cea mai bună. Toate paginile pe care le identifică ca fiind duplicate vor forma un grup de pagini. Semnalele sunt trimise către paginile din acel cluster și acționează ca un consolidator care indică canonicul ales. Rețineți că caracterul canonic pe care Google îl determină se poate modifica în timp, în funcție de factorii de clasare și de indexare Google.
Următoarele sunt câteva exemple de cazuri care sunt considerate conținut duplicat pe pagini sau chiar probleme de canonizare:
- Adrese URL cu „www”. faţă de cei fără
- Având o adresă URL cu și fără majuscule – este recomandat să folosiți litere mici cât mai mult posibil.
- Adrese URL cu și fără bare oblice finale „/” la sfârșitul adresei web
- Adrese URL pentru paginile care conțin conținut scraped sau sindicalizat – scraping-ul este ilegal, dar sindicarea conținutului este permisă dacă creați un link către proprietarul inițial. Sindicarea devine o problemă dacă Google alege adresa dvs. URL ca versiune canonică față de site-ul original. Acesta este un furt de conținut într-un grad mai mare și trebuie rezolvat dacă se întâmplă acest lucru.
- Adrese URL cu și fără „index.html”.
- Variante de locație URL care conțin același conținut
- URL-uri pentru dispozitivele mobile
- Versiuni URL redirecționate de pe site-uri de social media
- Parametrii URL, indiferent dacă modifică sau nu conținutul paginii, sunt adăugați la sfârșitul adreselor URL, cum ar fi navigarea cu fațete, codurile de urmărire, ID-urile de sesiune, sortarea conținutului etc.
- Orice pagină care afișează același conținut complet ca o altă pagină poate deruta Google și poate determina selectarea unui canonic greșit, inclusiv pagina principală pentru blog, pagini de categorii, pagini de etichete, pagini paginate sau pagini de feed.
Amintiți-vă, consistența este vitală atunci când vine vorba de preferința site-ului. Structurați-vă adresele URL cât mai uniform posibil pentru a minimiza conținutul duplicat și problemele de canonizare.
Hreflang
Deși Hreflang poate rezolva problemele de duplicare pe unele site-uri, nu funcționează pe site-urile internaționale. În mod implicit, Google va alege versiunea corectă a site-ului web și va încerca să treacă la o versiune locală. Cu toate acestea, nu funcționează întotdeauna, deoarece versiunea locală nu este site-ul principal și poate cauza probleme. Dacă se întâmplă, ceea ce se întâmplă este că utilizatorii ajung să primească pagini de site web care sunt destinate utilizatorilor dintr-o altă țară. Deoarece sistemul Google nu este configurat pentru a rezolva acest lucru în mod corespunzător, proprietarii de site-uri web sunt încurajați să publice pagini în mai multe limbi, de exemplu, cu conținut cel puțin ușor diferit (chiar dacă conținutul este o simplă traducere).
Pentru site-urile JavaScript, de obicei cele construite pe modele shell de aplicații, codul care apare primul pe pagini poate fi citit foarte similar cu alte pagini și chiar codul de pe diferite site-uri web. Din această cauză, paginile pot fi uneori canonizate ca parte a altor grupuri de pagini (adică alte site-uri web) sau în alte pagini de pe același nivel de domeniu.
Amintiți-vă că Google folosește algoritmi și, cel mai probabil, rulează detectarea dublelor pe cicluri automate. Aceasta poate fi o parte a problemei. Dacă Google etichetează paginile ca duplicate atunci când vede codul și nu le accesează cu crawlere complet, este posibil să nu le poată schimba corect, deoarece arată ca o altă pagină bazată pe conținutul HTML. Aceasta înseamnă că va exista o întârziere în redarea paginii, deoarece aceasta a fost deja etichetată ca duplicat. În calitate de experți în etichetă albă, vă putem ajuta cu serviciile noastre de publicitate digitală și etichetă albă.