Setelah pada artikel sebelumnya dibahas mengenai kegunaan file robots.txt, pada artikel kali ini adalah mengenai dasar-dasar pengetahuan tentang robots.txt, yang diantaranya adalah sebagai berikut:
-
Pemberian nama file harus “robots.txt” (huruf kecil semua). Tidak boleh robot.txt atau Robots.txt.
-
File harus yang mendukung tipe linux (misal untuk ganti baris linefeed,”\n”). Kita dapat menggunakan editor yang mendukung mode unix atau menggunakan robots.txt generator yang sudah banyak beredar di internet.
-
Harus disimpan dalam root direktori, tidak boleh dalam sub direktori.
-
Perlu mengetahui user-agent/bot nya mesin pencari, ini kita butuhkan jika kita ingin menspesifikasikan secara khusus terhadap masing-masing robotnya mesin pencari. Berikut beberapa user-agent / bot dari mesin pencari :
User-Agent | Mesin Pencari |
googlebot | Google |
msnbot | MSN |
yahoo-slurp | Yahoo |
teoma | Ask / Teoma |
gigabot | GigaBlast |
scrubby | Scrub The Web |
robozilla | Dmoz Checker |
nutch | Nutch |
ia_archiever | Alexa / Wayback |
baiduspider | Baidu |
googlebot-image | Google Image |
yahoo-mmcrawler | Yaho MM |
psbot | MSN pic search |
asterias | singing fish |
yahoo-blogs/v3.9 | Yahoo Blogs |
- Perintah dasar dari robots.txt
Contoh :
User-agent: *
Disallow:
Disallow:
Maksud perintah ini adalah pada baris User-agent, simbol * berarti bahwa semua robot mesin pencari / search engine dapat masuk ke website ini, baris Disallow yang kosong maksudnya semua robot dapat mengakses/masuk kedalam semua direktori yang ada di website.
- Aturan penulisan :
- Baris Komentar
Jika kita ingin menuliskan baris komentar, diawali dengan tanda #, dan ditulis pada kolom pertama (tidak boleh ada spasi sebelum simbol #. Baris komentar tidak boleh sejajar dengan fungsi yang dipakai untuk robots.txtcontoh :Salah :User-agent: Googlebot #untuk bot nya Google Disallow:Benar:#untuk bot Google Use-agent: Googlebot Disallow:-
Tidak boleh ada spasi kosong sebelum User-agent dan Disallow dan 1 spasi kosong setelah “:”
-
Penulisan User-agent harus benar tidak boleh huruf besar semua atau kecil semua, hanya huruf U yang besar dan lainnya kecil.
-
Untuk Disallow setiap 1 direktori harus 1 disallow, tidak boleh dalam 1 baris untuk banyak direktori
- Tidak boleh ada baris kosong dalam file robots.txt
Contoh:
Salah:
Disallow: /Administrator/Module
Benar:
Disallow: /Administrator Disallow: /Module
- Untuk mengecek kebenaran dari file robots.txt yang dibuat dapat menggunakan robots.txt validator http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
atau http://tool.motoricerca.info/robots-checker.phtml - Beberapa bots mesin pencari kadang mempunyai aturan sendiri/perintah khusus
Google:
Aturan secara umum tidak boleh simbol asterik “*” pada baris Disallow, tapi di Google diijinkan menggunakan * yang diakhiri dengan simbol “$”
Contoh:
User-agent: Googlebot-Image
Disallow: /*.gif$
Disallow: /*.gif$
Disini User-agent harus dispesifikan karena hanya bot tersebut yang mendukung perintah itu. Pada baris Disallow itu berarti bahwa tidak diijinkan untuk mengakses semua file yang berekstension .gif.
Yahoo:
Instruksi Crawl-delay: xx, dimana xx adalah waktu minimum mesin pencari ada dalam website kita. secara default adalah 1 detik, waktu ini dapat disetting sesuai dengan keinginan kita
contoh:
User-agent: Yahoo-Blogs/v3.9
Crawl-delay: 20
Crawl-delay: 20
wah cukup membingungkan buat saya nih yang ngga begitu paham linux :(
BalasHapuswah..itu bukan tentang linux teapi itu tentang Blog khusus nya untuk wordpress gitu,!
BalasHapusthanks kunjunganya,
Click to see the code!
To insert emoticon you must added at least one space before the code.