Fungsi dan Cara Membuat file Robots.txt

Apa itu robots.txt? Robots.txt (remember, always plural!) sebenarnya hanyalah sebuah file .txt (teks) biasa yang disimpan di root sebuah website atau blog. Fungsinya adalah untuk membatasi atau mencegah spiders atau bot search engine untuk mengakses file-file pada website/ blog, atau sederhananya robots.txt memberitahu spiders atau bot mana yang boleh diakses dan mana yang tidak boleh.
Lalu, pentingkah robots.txt ini untuk sebuah website / blog? Jawabnya tentu saja, karena pembatasan akses yang dilakukan oleh robots.txt akan lebih mengarahkan bots untuk mengakses content-content yang dianggap penting saja atau yang tidak ingin dishare ke publik. Tentunya bisa dibayangkan bukan, jika terdapat ribuan file dalam website kita yang jika tidak dibatasi akan membiarkan bots meng-crawl (merayapi) file-file tersebut satu persatu. Sementara beberapa jenis file seperti .php, javascript .css, .inc sebenarnya tidak penting untuk di-crawl. Maka dengan menggunakan robots.txt ini bot dari search engine akan lebih fokus meng-crawl content-content penting saja dari website atau blog kita.
Cara kerja robots.txt sendiri pada dasarnya adalah melarang saja, karena robots search engine cenderung meng-crawl semua file. Sehingga penggunaan syntax dalam robotx.txt pun adalah Dissalow (melarang), untuk lebih jelasnya berikut contoh penggunaan file robots.txt:
Untuk mencegah semua robots
User-agent: *
Disallow: /
Catatan: tanda * (wildcard) artinya semua akses semua jenis robots dari search engine, sementara tanda / (slash) merujuk pada root directory.
Untuk memperbolehkan semua robots
User-agent: *
Disallow:
Catatan : Karena setelah parameter Dissalow dikosongkan akan memberi full akses, dengan kata lain “Dissalow : none”. Untuk memperbolehkan robots mengakses seluruh website, sobat juga dapat membuat file robots.txt kosong atau sama sekali tidak membuat file robots (tp gak dianjurkan :D )
Untuk memperbolehkan satu jenis robots
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Untuk mencegah sebagian directoy dan file (recommended)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /wp-admin/
Disallow: /wp-includes/
Mengingat pentingnya pembatasan dengan robots.txt seperti yang telah dijelaskan pada paragraf pertama tulisan ini. Maka saya sendiri memberikan pembatasan pada file dan directory tertentu dalam robots.txt yang saya gunakan. Berikut isi file robots.txt blog ini:
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.swf$
Disallow: /*.zip$
Disallow: /*?*
Disallow: /*?
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback/
Disallow: /feed/
Disallow: /author/
Disallow: /comments/
Sitemap: http://blog.finderonly.net/sitemap.xml
Sitemap: http://blog.finderonly.net/sitemap.xml.gz
Nah, sobatpun bisa melakukan pembatasan yang sama. Buat file robots.txt dengan menggunakan contoh robots.txt di atas dan simpan di root website atau blog sobat. Adapun untuk mengecek sudah valid atau belum robots.txt yang sobat gunakan. Sobat bisa mengeceknya di sini atau dengan mengklik tanda validasi di bawah ini:


Valid Robots.txt
Silahkan dicoba dan semoga bermanfaat.
Terima kasih telah membaca artikel tentang Fungsi dan Cara Membuat file Robots.txt di blog Angka Belia jika anda ingin menyebar-luaskan artikel ini dimohon untuk mencantumkan link sebagai Sumbernya, dan bila artikel ini bermanfaat silahkan bookmark halaman ini di web browser anda, dengan cara menekan Ctrl + D pada tombol keyboard anda.

Artikel terbaru :