Google va ignora directiva noindex din robots.txt

Google a anuntat ca din 1 septembrie 2019, nu va mai lua in considerare directivele “noindex” din fisierul robots.txt. Administratorii de website-uri ce se bazau strict pe directive noindex pentru a exclude pagini din indexul Google vor trebui sa ia masuri cat mai repede.

Intr-un articol publicat pe blogul oficial al webmasterilor, Google a precizat ca directivele noindex din robots.txt nu vor mai fi luate in considerare de catre crawlerii lor. Acest lucru inseamna ca de la 1 septembrie 2019, toate paginile excluse din indexul google prin acest procedeu vor putea fi gasite si indexate de catre gigantul motor de cautare.

Today we’re saying goodbye to undocumented and unsupported rules in robots.txt 👋
If you were relying on these rules, learn about your options in our blog post.https://t.co/Go39kmFPLT
— Google Webmasters (@googlewmc) July 2, 2019

Ce este robots.txt?

Robots.txt este un fisier text, inserat in radacina site-ul si care contine indicatii pentru motoarele de cautare cu privire la paginile ce pot fi accesate si paginile unde nu este permis accesul acestora. Desi aceste solutii functioneaza foarte bine in general, exista si situatii cand motoarele de cautare nu respecta indicatiile oferite de fisierul robots.txt si se ajunge la indexarea anumitor pagini.

De ce google nu respecta indicatiile din fisierul robots.txt?

Pana la inceputul lunii septembrie, Google respecta directivele noindex, desi acestea nu erau indicatii oficiale. In cazul directivelor oficiale, precum “nofollow”, motoarele de cautare nu ar trebui sa indexeze continutul. Si totusi o fac.

O cauza a acestei nerespectari o reprezinta prezenta unor link-uri externe ce fac trimitere catre pagina ascunsa.

Cum il putem impiedica pe Google sa vada anumite pagini?

Desi pentru multi antreprenori din mediul online, scopul principal este de a avea cat mai multe pagini ale site-ului indexate de motoarele de cautare, fiecare site are si cateva pagini ce nu ar trebui sa se afiseze in pagina de rezultate.

Fie ca vorbim despre URL-uri de autentificare pe site, sau URL-uri de finalizare comanda, orice administrator de site va incerca sa ascunda anumite pagini de crawlerii motoarelor de cautare. Cea mai la indemana solutie de dezindexare a paginilor, dar si cea mai des intalnita este prin fisierul robots.txt. Acesta, folosit corespunzator, poate aduce rezultatele dorite, insa, asa cum mentionam mai sus, in cazul in care paginile ce doresc a fi ascunse motoarelor de cautare primesc link-uri externe, Google va ignora indicatiile fisierului robots si va indexa pagina.

Asa cum si Google sugereaza, cel mai sigur mod de a elimina pagini din index este prin configurarea tag-ului “meta robots”. Daca prin metoda robots txt, pot exista situatii in care anumite pagini ascunse ajung in baza de date Google, prin directivele “noindex,nofollow” din meta robots, paginile vor fi scoase permanent.

Concluzie

In concluzie, putem afirma ca nici Google nu este perfect, iar orice administrator de site trebuie sa se asigure ca site-ul sau este la curent cu totate schimbarile impuse de Google. In cazul modificarilor de directive din robots txt, recomandarea noastra este sa revizuiti fisierele inainte ca anumite pagini sa ajunga indexate.