Blogi

Mis on kodulehe otsirobot?

Kas keegi on tundnud huvi, milleks on  juurkataloogis fail robots.txt ja milleks see vajalik on?
Seda faili robots.txt kasutatakse teatud failide/kataloogide kaitsmiseks või teisisõnu ei avaldata määratuid faile otsingumootoritele.
Teine funktsioon milleks saab veel robots.txt faili kasutada on kaitsta ennast halbade botide eest ehk teisisõnu võimalus kaitsa oma kodulehte spämmi eest ja salastaud failide/kataloogide avalikustamise eest.

Tihtipeale koguvad botid sinu kodulehelt e-posti aadresse ja pärast imestadakse kust tulevad igasugused spämmi e-mailid. Samas võid tihtipeale ka suvalistest otsingu mootoritest leida oma kodulehe linke, mida ei sooviks kuvada avalikult.

Järgnev juhend seletab lahti, kuidas kastatda robots.txt faili ning järgnevat juhendit võib kasutada ükskõik millises muus veebi struktuuris.

Süntaksist, mida kasutadakse robots.txt failis on limiteeritud ja väga lihtne mõista. Esimene osa juhendist määrab ära milliseid roboteid/bote lubatakse tuhnima sinu saidile.

User-agent: BotiNimi

Asenda BotiNimi roboti nimega. Näiteks User-agent: Googlebot
Kõikide botide lubamiseks kasuta * tärni.

User-agent: *

Teine osa juhendist käsitleb kindlate failide/kataloogide peitmist robotite/botide eest. Kasuta alljärgnevat näidet failidest ja kataloogidest, mida soovid kaitsta.

Disallow: /cgi-bin/

Selle näite järgi ei sisene keelatud kataloogi /cgi-bin/ robotid ja botid edasi. Kui katalooge on rohkem kui üks, siis kasuta iga kataloogi ees Disallow süntaksit.

User-agent: *
Disallow: /cgi-bin/
Disallow: /temp/
Disallow: /private/


Kataloogide juurde võid ka lisada vabalt faili nimesi, mida sa ei soovi avalikustada otsingute mootorites.

User-agent: *
Disallow: /admin.php
Disallow: /config.php
Disallow: /cgi-bin/
Disallow: /temp/
Disallow: /private/


Juhul, kui soovid tervet oma saiti keelata kindlate bottite eest siis kasuta alljärgnevat näidet. Iga boti puhul tuleks lisada peale vaba rida uus boti nimi.

User-agent: BotiNimi1
Disallow: /


User-agent: BotiNimi2
Disallow: /


Juhul, kui sinu saiti võivad kõik botid külastada, siis kasuta alljärgnevat näidet.

User-agent: *
Disallow:


Mõnigad populaarsemate otsingmootorite/bottide nimed, mida nimetatakse ka tänapäeval "spiders".

Roboti nimi <-> Otsingumootori nimi
Googlebot <-> Google
Googlebot-Image <-> Google Images
Slurp <-> Inktomi
ZyBorg <-> WiseNut/LookSmart
fast <-> Fast/AllTheWeb
Openbot <-> OpenFind
Scooter <-> Alta Vista

Botid, mida kasutavad spämmerid. Alusta User-Agent süntaksiga.

EmailSiphon
EmailWolf
ExtractorPro
CherryPicker
NICErsPRO
Teleport
EmailCollector

ITHOOLDUS EESTI OÜ

Reg.nr. 10250525
KMKR Nr: EE100225950
Turu 34b,
51004 Tartu, Eesti

Swedbank
IBAN: EE632200221017995424

Avatud / Suletud

Esmaspäev - Neljapäev
9.00 - 16.00
Laupäev - Suletud
Pühapäev - Suletud

Kontaktid

Seadmete ja teenuste müük

+372 601 6464
+372 50 20 212

Arvutihooldus ja teenindus

+372 641 4883
+372 51 00 345

E-post
See e-posti aadress on spämmirobotite eest kaitstud. Selle nägemiseks peab su veebilehitsejas olema JavaSkript sisse lülitatud.