Cara Menjauhkan Robot Dari Situs Web

By | December 1, 2021

dariberita.com merupakan media online yang mempunyai visi “Media Informasi Terpercaya”. Dengan misi menyediakan informasi terbaru seputar dunia teknologi, gadget, smartphone, social media, komputer dan seputar teknologi Politik Olahraga Sosial dan lainnya yang di himpun dari berbagai sumber yang bisa dipercaya dan dipertanggung jawabkan.

Anda tahu bahwa mesin pencari telah dibuat untuk membantu orang menemukan informasi dengan cepat di Internet, dan mesin pencari memperoleh banyak informasi mereka melalui robot (juga dikenal sebagai spider atau crawler), yang mencari halaman web untuk mereka.

Waspada! Ini Tips Mengenali Modus Platform Robot Trading Forex - Gizmologi

Robot laba-laba atau perayap menjelajahi web mencari dan merekam semua jenis informasi. Mereka biasanya mulai dengan URL yang dikirimkan oleh pengguna, atau dari tautan yang mereka temukan di situs web, file sitemap atau tingkat atas situs.

Setelah robot mengakses halaman beranda kemudian secara rekursif mengakses semua halaman yang terhubung dari halaman itu. Tetapi robot juga dapat memeriksa semua halaman yang dapat ditemukan di server tertentu.

Setelah robot menemukan halaman web itu berfungsi mengindeks judul, kata kunci, teks, dll. Tapi kadang-kadang Anda mungkin ingin mencegah mesin pencari mengindeks beberapa halaman web Anda seperti posting berita, dan halaman web yang ditandai secara khusus (misalnya: halaman afiliasi), tetapi apakah robot individu mematuhi konvensi ini adalah murni sukarela.

PROTOKOL PENGECUALIAN ROBOT

Jadi, jika Anda ingin robot keluar dari beberapa halaman web Anda, Anda dapat meminta robot untuk mengabaikan halaman web yang tidak ingin Anda indeks, dan untuk itu Anda dapat menempatkan file robots.txt di server root lokal situs Anda.

Misalnya, jika Anda memiliki direktori yang disebut e-book dan Anda ingin meminta robot untuk menghindarinya, file robots.txt Anda harus membaca:

User-agent: * Disallow: e-books /

Ketika Anda tidak memiliki kendali yang cukup atas server Anda untuk mengatur file robots.txt, Anda dapat mencoba menambahkan tag META ke bagian kepala dokumen HTML apa pun.

Misalnya, tag seperti yang berikut ini memberi tahu robot untuk tidak mengindeks dan tidak mengikuti tautan pada halaman tertentu:

meta name = “ROBOTS” content = “NOINDEX, NOFOLLOW”

Dukungan untuk tag META di antara robot tidak begitu sering seperti Protokol Pengecualian Robot, tetapi sebagian besar indeks web utama saat ini mendukungnya.

Mengapa ini menunjukkan 'Saya bukan robot' di browser, dan bagaimana cara  mengatasinya? - Quora

POS BERITA

Jika Anda ingin menjaga mesin pencari dari posting berita Anda, Anda dapat membuat baris “X-no-arsip” di header posting Anda:

X-no-arsip: ya

Tetapi meskipun klien berita umum, memungkinkan Anda untuk menambahkan garis X-no-arsip ke header posting berita Anda, beberapa dari mereka tidak mengizinkan Anda untuk melakukannya.

Masalahnya adalah sebagian besar mesin pencari menganggap bahwa semua informasi yang mereka temukan bersifat publik kecuali ditandai sebaliknya.

Jadi berhati-hatilah karena meskipun standar pengecualian robot dan arsip dapat membantu menjaga materi Anda dari mesin pencari utama, ada beberapa yang tidak menghormati aturan tersebut.

Jika Anda sangat prihatin tentang privasi e-mail dan postingan Usenet Anda, Anda harus menggunakan beberapa pengirim email dan PGP anonim. Anda dapat membacanya di sini:

http://www.well.com/user/abacard/remail.html http://www.io.com/~combs/htmls/crypto.html
http://world.std.com/~franl/pgp/

Meskipun Anda tidak terlalu peduli dengan privasi, ingatlah bahwa apa pun yang Anda tulis akan diindeks dan diarsipkan di suatu tempat untuk selamanya, jadi gunakan file robots.txt sebanyak yang Anda perlukan.

Ditulis oleh Dr. Roberto A. Bonomi

Leave a Reply

Your email address will not be published. Required fields are marked *