Artikel Kategory yang Sama

Searching...
Senin, 16 November 2009

Pengetahuan Dasar File Robots.txt

11.11
Setelah pada artikel sebelumnya dibahas mengenai kegunaan file robots.txt, pada artikel kali ini adalah mengenai dasar-dasar pengetahuan tentang robots.txt, yang diantaranya adalah sebagai berikut:

  • Pemberian nama file harus “robots.txt” (huruf kecil semua). Tidak boleh robot.txt atau Robots.txt.


  • File harus yang mendukung tipe linux (misal untuk ganti baris linefeed,”\n”). Kita dapat menggunakan editor yang mendukung mode unix atau menggunakan robots.txt generator yang sudah banyak beredar di internet.



  • Harus disimpan dalam root direktori, tidak boleh dalam sub direktori.


  • Perlu mengetahui user-agent/bot nya mesin pencari, ini kita butuhkan jika kita ingin menspesifikasikan secara khusus terhadap masing-masing robotnya mesin pencari. Berikut beberapa user-agent / bot dari mesin pencari :

    User-Agent
    Mesin Pencari
    googlebot
    Google
    msnbot
    MSN
    yahoo-slurp
    Yahoo
    teoma
    Ask / Teoma
    gigabot
    GigaBlast
    scrubby
    Scrub The Web
    robozilla
    Dmoz Checker
    nutch
    Nutch
    ia_archiever
    Alexa / Wayback
    baiduspider
    Baidu
    googlebot-image
    Google Image
    yahoo-mmcrawler
    Yaho MM
    psbot
    MSN pic search
    asterias
    singing fish
    yahoo-blogs/v3.9
    Yahoo Blogs
  • Perintah dasar dari robots.txt
Contoh :
User-agent: *
Disallow:

Maksud perintah ini adalah pada baris User-agent, simbol * berarti bahwa semua robot mesin pencari / search engine dapat masuk ke website ini, baris Disallow yang kosong maksudnya semua robot dapat mengakses/masuk kedalam semua direktori yang ada di website.
  • Aturan penulisan :
    • Baris Komentar
    • Jika kita ingin menuliskan baris komentar, diawali dengan tanda #, dan ditulis pada kolom pertama (tidak boleh ada spasi sebelum simbol #. Baris komentar tidak boleh sejajar dengan fungsi yang dipakai untuk robots.txt
      contoh :
      Salah :
      User-agent: Googlebot #untuk bot nya Google Disallow:
      Benar:
      #untuk bot Google Use-agent: Googlebot Disallow:

    • Tidak boleh ada spasi kosong sebelum User-agent dan Disallow dan 1 spasi kosong setelah “:”


    • Penulisan User-agent harus benar tidak boleh huruf besar semua atau kecil semua, hanya huruf U yang besar dan lainnya kecil.


    • Untuk Disallow setiap 1 direktori harus 1 disallow, tidak boleh dalam 1 baris untuk banyak direktori

    • Tidak boleh ada baris kosong dalam file robots.txt

    Contoh:
    Salah:
    Disallow: /Administrator/Module
    Benar:
    Disallow: /Administrator Disallow: /Module

Google:
Aturan secara umum tidak boleh simbol asterik “*” pada baris Disallow, tapi di Google diijinkan menggunakan * yang diakhiri dengan simbol “$”
Contoh:
User-agent: Googlebot-Image
Disallow: /*.gif$

Disini User-agent harus dispesifikan karena hanya bot tersebut yang mendukung perintah itu. Pada baris Disallow itu berarti bahwa tidak diijinkan untuk mengakses semua file yang berekstension .gif.
Yahoo:
Instruksi Crawl-delay: xx, dimana xx adalah waktu minimum mesin pencari ada dalam website kita. secara default adalah 1 detik, waktu ini dapat disetting sesuai dengan keinginan kita
contoh:
User-agent: Yahoo-Blogs/v3.9
Crawl-delay: 20




2 komentar:

  1. wah cukup membingungkan buat saya nih yang ngga begitu paham linux :(

    BalasHapus
  2. wah..itu bukan tentang linux teapi itu tentang Blog khusus nya untuk wordpress gitu,!
    thanks kunjunganya,

    BalasHapus

Untuk memasang emoticon diatas, cukup dengan menulis kodenya. Silahkan berkomentar, jangan nyepam ya :)