File robots.txt adalah file teks yang ditempatkan dalam root directory. File robots.txt ini digunakan untuk memberitahukan pada search engine agar mengunjungi/melihat dan mengindex area seperti yang kita inginkan untuk dikonsumsi oleh publik dan mencegah search engine untuk masuk kedalam area yang tidak untuk konsumsi publik.
Kegunaan File robots.txt
Contoh :
User-agent: *
Disallow:
Maksud perintah ini adalah pada baris User-agent, simbol * berarti bahwa semua robot search engine / search engine dapat masuk ke website ini, baris Disallow yang kosong maksudnya semua robot dapat mengakses/masuk kedalam semua direktori yang ada di website.
Aturan penulisan :
Baris Komentar
Jika kita ingin menuliskan baris komentar, diawali dengan tanda #, dan ditulis pada kolom pertama (tidak boleh ada spasi sebelum simbol #. Baris komentar tidak boleh sejajar dengan fungsi yang dipakai untuk robots.txt
contoh :
Aturan secara umum tidak boleh simbol asterik “*” pada baris Disallow, tapi di Google diijinkan menggunakan * yang diakhiri dengan simbol “$”
Contoh:
User-agent: Googlebot-Image
Disallow: /*.gif$
Disini User-agent harus dispesifikan karena hanya bot tersebut yang mendukung perintah itu. Pada baris Disallow itu berarti bahwa tidak diijinkan untuk mengakses semua file yang berekstension .gif.
Sumber : http://www.google.com/webmasters/remove.html
Yahoo:
Instruksi Crawl-delay: xx, dimana xx adalah waktu minimum search engine ada dalam website kita. secara default adalah 1 detik, waktu ini dapat disetting sesuai dengan keinginan kita
contoh:
User-agent: Yahoo-Blogs/v3.9
Crawl-delay: 20
Sumber : http://help.yahoo.com/help/us/ysearch/crawling/crawling-02.html
Ask/Teoma :
Mendukung instruksi Crawl-delaynya Yahoo
MSN:
Mendukung instruksi Crawl-Delay nya Yahoo dan juga asterik “*” Google
- Robot search engine akan mengunjungi directory web walaupun tidak tersimpan informasi (misalnya: cgi-bin, images, wilayah administrator, dll). Jika kita tidak membatasinya, robot search engine akan mengunjungi tempat tersebut dan tentu saja bandwith dari webserver yang kita gunakan akan meningkat.
- Dapat digunakan sebagai proteksi awal. Dengan adanya robots.txt dapat dijadikan proteksi awal agar halaman yang menjadi privasi buat kita tidak di konsumsi oleh publik
- Pemberian nama file harus “robots.txt” (huruf kecil semua).
- File harus yang mendukung tipe linux (misal untuk ganti baris linefeed,”n”). Kita dapat menggunakan editor yang mendukung mode unix atau menggunakan robots.txt generator yang sudah banyak beredar di internet.
- Harus disimpan dalam root direktori.
- Perlu mengetahui user-agent/bot nya search engine, ini kita butuhkan jika kita ingin menspesifikasikan secara khusus terhadap masing-masing robotnya search engine. Berikut beberapa user-agent / bot dari search engine :
User-Agent | search engine |
googlebot | |
msnbot | MSN |
yahoo-slurp | Yahoo |
teoma | Ask / Teoma |
gigabot | GigaBlast |
scrubby | Scrub The Web |
robozilla | Dmoz Checker |
nutch | Nutch |
ia_archiever | Alexa / Wayback |
baiduspider | Baidu |
googlebot-image | Google Image |
yahoo-mmcrawler | Yaho MM |
psbot | MSN pic search |
asterias | singing fish |
yahoo-blogs/v3.9 | Yahoo Blogs |
Contoh :
User-agent: *
Disallow:
Maksud perintah ini adalah pada baris User-agent, simbol * berarti bahwa semua robot search engine / search engine dapat masuk ke website ini, baris Disallow yang kosong maksudnya semua robot dapat mengakses/masuk kedalam semua direktori yang ada di website.
Aturan penulisan :
Baris Komentar
Jika kita ingin menuliskan baris komentar, diawali dengan tanda #, dan ditulis pada kolom pertama (tidak boleh ada spasi sebelum simbol #. Baris komentar tidak boleh sejajar dengan fungsi yang dipakai untuk robots.txt
contoh :
#untuk bot Google
Use-agent: Googlebot
Disallow:
- Tidak boleh ada spasi kosong sebelum User-agent dan Disallow dan 1 spasi kosong setelah “:”
- Penulisan User-agent harus benar tidak boleh huruf besar semua atau kecil semua, hanya huruf U yang besar dan lainnya kecil.
- Untuk Disallow setiap 1 direktori harus 1 disallow, tidak boleh dalam 1 baris untuk banyak direktori
- Tidak boleh ada baris kosong dalam file robots.txt
Disallow: /Administrator
Disallow: /Module
- Untuk mengecek kebenaran dari file robots.txt yang dibuat dapat menggunakan robots.txt validator http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
atau http://tool.motoricerca.info/robots-checker.phtml - Beberapa bots search engine kadang mempunyai aturan sendiri/perintah khusus
Aturan secara umum tidak boleh simbol asterik “*” pada baris Disallow, tapi di Google diijinkan menggunakan * yang diakhiri dengan simbol “$”
Contoh:
User-agent: Googlebot-Image
Disallow: /*.gif$
Disini User-agent harus dispesifikan karena hanya bot tersebut yang mendukung perintah itu. Pada baris Disallow itu berarti bahwa tidak diijinkan untuk mengakses semua file yang berekstension .gif.
Sumber : http://www.google.com/webmasters/remove.html
Yahoo:
Instruksi Crawl-delay: xx, dimana xx adalah waktu minimum search engine ada dalam website kita. secara default adalah 1 detik, waktu ini dapat disetting sesuai dengan keinginan kita
contoh:
User-agent: Yahoo-Blogs/v3.9
Crawl-delay: 20
Sumber : http://help.yahoo.com/help/us/ysearch/crawling/crawling-02.html
Ask/Teoma :
Mendukung instruksi Crawl-delaynya Yahoo
MSN:
Mendukung instruksi Crawl-Delay nya Yahoo dan juga asterik “*” Google
Terima kasih telah membaca artikel tentang Apa Itu "Robot.txt" di blog Angka Belia jika anda ingin menyebar-luaskan artikel ini dimohon untuk mencantumkan link sebagai Sumbernya, dan bila artikel ini bermanfaat silahkan bookmark halaman ini di web browser anda, dengan cara menekan Ctrl + D pada tombol keyboard anda.