Setelah pada artikel sebelumnya dibahas mengenai kegunaan file robots.txt, pada artikel kali ini adalah mengenai dasar-dasar pengetahuan tentang robots.txt, yang diantaranya adalah sebagai berikut:
-
Pemberian nama file harus “robots.txt” (huruf kecil semua). Tidak boleh robot.txt atau Robots.txt.
-
File harus yang mendukung tipe linux (misal untuk ganti baris linefeed,”\n”). Kita dapat menggunakan editor yang mendukung mode unix atau menggunakan robots.txt generator yang sudah banyak beredar di internet.
-
Harus disimpan dalam root direktori, tidak boleh dalam sub direktori.
-
Perlu mengetahui user-agent/bot nya mesin pencari, ini kita butuhkan jika kita ingin menspesifikasikan secara khusus terhadap masing-masing robotnya mesin pencari. Berikut beberapa user-agent / bot dari mesin pencari :
User-Agent | Mesin Pencari |
googlebot | Google |
msnbot | MSN |
yahoo-slurp | Yahoo |
teoma | Ask / Teoma |
gigabot | GigaBlast |
scrubby | Scrub The Web |
robozilla | Dmoz Checker |
nutch | Nutch |
ia_archiever | Alexa / Wayback |
baiduspider | Baidu |
googlebot-image | Google Image |
yahoo-mmcrawler | Yaho MM |
psbot | MSN pic search |
asterias | singing fish |
yahoo-blogs/v3.9 | Yahoo Blogs |
- Perintah dasar dari robots.txt
Contoh :
User-agent: *
Disallow:
Disallow:
Maksud perintah ini adalah pada baris User-agent, simbol * berarti bahwa semua robot mesin pencari / search engine dapat masuk ke website ini, baris Disallow yang kosong maksudnya semua robot dapat mengakses/masuk kedalam semua direktori yang ada di website.
- Aturan penulisan :
- Baris Komentar
Jika kita ingin menuliskan baris komentar, diawali dengan tanda #, dan ditulis pada kolom pertama (tidak boleh ada spasi sebelum simbol #. Baris komentar tidak boleh sejajar dengan fungsi yang dipakai untuk robots.txtcontoh :Salah :User-agent: Googlebot #untuk bot nya Google Disallow:Benar:#untuk bot Google Use-agent: Googlebot Disallow:-
Tidak boleh ada spasi kosong sebelum User-agent dan Disallow dan 1 spasi kosong setelah “:”
-
Penulisan User-agent harus benar tidak boleh huruf besar semua atau kecil semua, hanya huruf U yang besar dan lainnya kecil.
-
Untuk Disallow setiap 1 direktori harus 1 disallow, tidak boleh dalam 1 baris untuk banyak direktori
- Tidak boleh ada baris kosong dalam file robots.txt
Contoh:
Salah:
Disallow: /Administrator/Module
Benar:
Disallow: /Administrator Disallow: /Module
- Untuk mengecek kebenaran dari file robots.txt yang dibuat dapat menggunakan robots.txt validator http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
atau http://tool.motoricerca.info/robots-checker.phtml - Beberapa bots mesin pencari kadang mempunyai aturan sendiri/perintah khusus
Google:
Aturan secara umum tidak boleh simbol asterik “*” pada baris Disallow, tapi di Google diijinkan menggunakan * yang diakhiri dengan simbol “$”
Contoh:
User-agent: Googlebot-Image
Disallow: /*.gif$
Disallow: /*.gif$
Disini User-agent harus dispesifikan karena hanya bot tersebut yang mendukung perintah itu. Pada baris Disallow itu berarti bahwa tidak diijinkan untuk mengakses semua file yang berekstension .gif.
Yahoo:
Instruksi Crawl-delay: xx, dimana xx adalah waktu minimum mesin pencari ada dalam website kita. secara default adalah 1 detik, waktu ini dapat disetting sesuai dengan keinginan kita
contoh:
User-agent: Yahoo-Blogs/v3.9
Crawl-delay: 20
Crawl-delay: 20
wah cukup membingungkan buat saya nih yang ngga begitu paham linux :(
BalasHapuswah..itu bukan tentang linux teapi itu tentang Blog khusus nya untuk wordpress gitu,!
BalasHapusthanks kunjunganya,