Robots.txtHeti tähän alkuun on paikallaan nörttivaroitus: tämä teksti sisältää teknistä jargonia. Olen vältellyt teknistä huttua viimeiseen asti, mutta tätä asiaa ei nättiin pakettiin saa käärittyä.

Hyvästä aikomuksesta huolimatta on melko yleistä käyttää robots-käskyjä virheellisesti. Kokosin asiasta pienen oppaan, joka toivottavasti tavoittaa ainakin jokusen devaajan.

En halua näitä sivuja Googleen!

Silloin tällöin joku kysyy meiltä neuvoa luodessaan hyvää asiakaspalvelua nettisivuilleen. On hienot sisäänkirjautumiset ja henkilökohtaisia tietoja. Tai mahdollisesti pitkälle hiottu ostosputki täynnä asiakaskohtaisia alennuksia ja laskureita. Pärstäkerrointa ei tietenkään haluta näyttää muille. Kuinka sivut piilotetaan kaikennäkevän Googlen ulottumattomiin?

Kysyjän devaaja oli luvannut hoitaa homman robots.txt-tiedostolla, mutta Googlesta silti löytyy arkaluonteiseksi määriteltyjä sivuja. Kysyjä on yleensä turhautunut, joskus jopa hieman ärtynyt tai pahimmillaan jo aikeissa erottaa devaajansa.

Mitä ihmeen Robots.txt?

Robots.txt on sivustosi portinvartija. Tiedostossa annetaan hakukoneen botille ohjeita sivusi läpikäyntiin – yleensä kielletään (Disallow) joihinkin osioihin meno. Nämä ovat neuvoja, eikä kaikki botit (haitallisetkaan) välttämättä noudata niitä. Huomaa myös, että listaamalla robots.txt-tiedostoon kaikki arkaluontoiset sivusi kerrot myös jokaikiselle botille ja käyttäjälle sinun haavoittuvimmat sivut – robots.txt-tiedosto on julkinen ja kaikille näkyvissä.

Miksi sitten jokin sivu on hakutuloksissa, jos sinne menokin on kielletty? Siksi, koska Google tietää paremmin. Se näkee, että sivullesi tulee paljon linkkejä, ja sitä kulutetaan ahkerasti. “Ehkä he vahingossa kielsivät tämän sivun robots.txt:ssä, ehkä he tekivät virheen”, Google ajattelee. Siis mielivaltaisesti jyrää sinun antamasi kiellon. Miksi? Koska se on Google, se voi. Mutta miksi sitten hakukoneessa ei näy sisällöntuottajan kirjoittamaa pullantuoksuista kuvaustekstiä? Siksi, koska botti ei tosiaan koskaan läpikäynyt sivun sisältöä, sehän oli kielletty robots.txt:ssä. Disallow sellaisenaan vain kieltää sisällön läpikäynnin, muttei varsinaisesti indeksointia. Indeksoinnin voi kieltää sivun metatietoihin lisättävällä noindex-tägillä.

Sivun koodiin lisättävät metatägit voivat toimia vain, jos robots.txt-tiedosto ei estä sivun lukemista.

Noindex? Nohäh?

Nimensä mukaan tämä tägi kertoo, että et halua tätä sivua indeksoitavan. Jälleen kerran tämä on vain neuvo hakukoneen suuntaan, mutta silti varmin tapa piilottaa jokin sivu. Noindexin vastakohta on “index”, jolla voidaan tehdä poikkeuksia kiellettyjen listaan. Samalla käytännöllä toimii “nofollow” ja “follow”, joilla voit kertoa hakukoneelle, luotatko linkitettävään sisältöön vai et. Sisäisissä linkeissä nofollow’ta ei tulisi koskaan käyttää.

Tämä on hyvä muistaa: Sivun koodiin lisättävät metatägit voivat toimia vain, jos robots.txt-tiedosto ei estä sivun lukemista! Tämä on yleisin virhe sivujen piiloleikissä.

Milloin käyttää robots.txt:tä ja milloin metatägejä?

Pääsääntöisesti suuria kokonaisuuksia on helpompi rajata robots.txt:llä – kokonaisia kategorioita tai vaikkapa tuotantoympäristöjä; nämä ovat kesken eikä niitä kannata vielä käydä läpi. Sitten, kun saitti on valmis, poista kiellot, ja tarkista ettei robots.txt:llä vahingossa blokata sitemapista löytyviä URLeja.

Mutta kun halutaan valmiilla sivustolla kieltää yksittäisiä sivuja, kuten sisäänkirjautuminen tai ostosputki, tulisi niiden metatietoihin lisätä noindex-tägi, joka parhaiten estää yhden sivun päätymistä hakutuloksiin. Sivu on kuitenkin hyvä antaa “crawlautua” eli antaa botin liikkua linkistä toiseen, jolloin SEO-mehu virtaa sivulta toiselle. Eli ei Disallow’ta robots.txt-tiedostoon.

Hakutulossivujen näyttäminen oikeana verkkosisältönä on Googlen säännöissä kiellettyä.

Lopuksi vielä toinen tärkeä neuvo: Mikäli sinulla on sivuillasi hakukenttä, sen tulossivujen läpikäyntikin täytyy kieltää. Hakutulossivujen näyttäminen oikeana verkkosisältönä on nimittäin Googlen säännöissä kiellettyä. Olemme nähneet sivustojen saaneen hurjiakin rangaistuksia, kun Google on äkännyt indeksoidut hakutulossivut.

TL;DR

  • Käytä robots.txt-tiedostoa harkiten.
  • Disallow ei kiellä indeksointia, se vain kieltää sisällön (myös metatägien) läpikäynnin. Sisäisen haun tulossivuparametri aina disallow-listalle.
  • Noindex-metatägi kieltää indeksoinnin, mutta antaa SEO-datan virrata.
  • Nofollow vain ulkoisiin linkkeihin.