Apa Itu "Robot.txt"

File robots.txt adalah file teks yang ditempatkan dalam root directory. File robots.txt ini digunakan untuk memberitahukan pada search engine agar mengunjungi/melihat dan mengindex area seperti yang kita inginkan untuk dikonsumsi oleh publik dan mencegah search engine untuk masuk kedalam area yang tidak untuk konsumsi publik.


Kegunaan File robots.txt
  • Robot search engine akan mengunjungi directory web walaupun tidak tersimpan informasi (misalnya: cgi-bin, images, wilayah administrator, dll). Jika kita tidak membatasinya, robot search engine akan mengunjungi tempat tersebut dan tentu saja bandwith dari webserver yang kita gunakan akan meningkat.
  • Dapat digunakan sebagai proteksi awal. Dengan adanya robots.txt dapat dijadikan proteksi awal agar halaman yang menjadi privasi buat kita tidak di konsumsi oleh publik
Cara Penggunaan robot.txt
  • Pemberian nama file harus “robots.txt” (huruf kecil semua).
  • File harus yang mendukung tipe linux (misal untuk ganti baris linefeed,”n”). Kita dapat menggunakan editor yang mendukung mode unix atau menggunakan robots.txt generator yang sudah banyak beredar di internet.
  • Harus disimpan dalam root direktori.
  • Perlu mengetahui user-agent/bot nya search engine, ini kita butuhkan jika kita ingin menspesifikasikan secara khusus terhadap masing-masing robotnya search engine. Berikut beberapa user-agent / bot dari search engine :
    User-Agent search engine
    googlebot Google
    msnbot MSN
    yahoo-slurp Yahoo
    teoma Ask / Teoma
    gigabot GigaBlast
    scrubby Scrub The Web
    robozilla Dmoz Checker
    nutch Nutch
    ia_archiever Alexa / Wayback
    baiduspider Baidu
    googlebot-image Google Image
    yahoo-mmcrawler Yaho MM
    psbot MSN pic search
    asterias singing fish
    yahoo-blogs/v3.9 Yahoo Blogs
    Perintah dasar dari robots.txt
    Contoh :
    User-agent: *
    Disallow:
    Maksud perintah ini adalah pada baris User-agent, simbol * berarti bahwa semua robot search engine / search engine dapat masuk ke website ini, baris Disallow yang kosong maksudnya semua robot dapat mengakses/masuk kedalam semua direktori yang ada di website.
    Aturan penulisan :
    Baris Komentar
    Jika kita ingin menuliskan baris komentar, diawali dengan tanda #, dan ditulis pada kolom pertama (tidak boleh ada spasi sebelum simbol #. Baris komentar tidak boleh sejajar dengan fungsi yang dipakai untuk robots.txt
    contoh :
    #untuk bot Google
    Use-agent: Googlebot
    Disallow:
    • Tidak boleh ada spasi kosong sebelum User-agent dan Disallow dan 1 spasi kosong setelah “:”
    • Penulisan User-agent harus benar tidak boleh huruf besar semua atau kecil semua, hanya huruf U yang besar dan lainnya kecil.
    • Untuk Disallow setiap 1 direktori harus 1 disallow, tidak boleh dalam 1 baris untuk banyak direktori
    • Tidak boleh ada baris kosong dalam file robots.txt
    Disallow: /Administrator
    Disallow: /Module
    Google:
    Aturan secara umum tidak boleh simbol asterik “*” pada baris Disallow, tapi di Google diijinkan menggunakan * yang diakhiri dengan simbol “$”
    Contoh:
    User-agent: Googlebot-Image
    Disallow: /*.gif$
    Disini User-agent harus dispesifikan karena hanya bot tersebut yang mendukung perintah itu. Pada baris Disallow itu berarti bahwa tidak diijinkan untuk mengakses semua file yang berekstension .gif.
    Sumber : http://www.google.com/webmasters/remove.html
    Yahoo:
    Instruksi Crawl-delay: xx, dimana xx adalah waktu minimum search engine ada dalam website kita. secara default adalah 1 detik, waktu ini dapat disetting sesuai dengan keinginan kita
    contoh:
    User-agent: Yahoo-Blogs/v3.9
    Crawl-delay: 20
    Sumber : http://help.yahoo.com/help/us/ysearch/crawling/crawling-02.html
    Ask/Teoma :
    Mendukung instruksi Crawl-delaynya Yahoo
    MSN:
    Mendukung instruksi Crawl-Delay nya Yahoo dan juga asterik “*” Google
    Terima kasih telah membaca artikel tentang Apa Itu "Robot.txt" di blog Angka Belia jika anda ingin menyebar-luaskan artikel ini dimohon untuk mencantumkan link sebagai Sumbernya, dan bila artikel ini bermanfaat silahkan bookmark halaman ini di web browser anda, dengan cara menekan Ctrl + D pada tombol keyboard anda.

    Artikel terbaru :