WEB CRAWLER

 

TUGAS RANGKUMAN

MATA KULIAH

PENGANTAR WEB SCIENCE

Web Crawler

 



 

Disusun Oleh :

Risda Novelia (51420112)

2IA18

 

 

TEKNIK INFORMATIKA

UNIVERSITAS GUNADARMA

2022

 

A. PENGERTIAN WEB CRAWLER


    Pengertian web crawler–atau sering juga disebut spiders— adalah sebuah tool untuk mengindeks dan mengunduh konten dari internet, lalu disimpan ke dalam database mesin pencari. Sehingga saat ada orang yang mencari suatu informasi, mesin pencari akan langsung menampilkan hasil yang relevan dari database tersebut.

    Web crawler menggali setiap data yang ada di internet seperti seperti : meta data, keyword, dan lain sebagainya. Kemudian web crawler atau si (spider man) ini akan meng index seluruh data kita ke dalam data base search engine.Sampai pada akhirnya halaman website akan ditampilkan di SERP (search engine rage page)

    Web crawler tak serta merta mengindeks semua yang ada di internet. Ia menentukan halaman mana yang perlu crawling, berdasarkan jumlah halaman lain yang menaruh link ke halaman tersebut dan jumlah pengunjung ke sana. Jadi, apabila suatu halaman muncul di banyak halaman lain dan mendapatkan pengunjung yang tak sedikit, kemungkinan besar halaman itu memang penting. Halaman penting ini biasanya berisi konten atau informasi yang dibutuhkan oleh banyak orang, sehingga mesin pencari pasti akan memasukkannya ke indeks agar orang-orang lebih mudah mengaksesnya.

    Indexing adalah proses yang terbilang cukup penting karena akan membantu pengguna menemukan kueri yang relevan dengan cepat. Indexing ini sendiri dapat di bandingkan dengan pengindeksan sebuah buku, di mana pengguna akan menemukan indeks dengan daftar pertanyaan dalam urutan abjad dan halaman yang menyebutkannya dalam buku teks. Hal sama juga diterapkan dalam search index, namun alih-alih melakukan penomoran halaman, mesin pencari akan menampilkan beberapa link di mana bisa mendapatkan atau mencari jawaban atas pertanyaan yang diinginkan.

 

B. CARA KERJA WEB CRAWLER


    Cara kerja Web Crawler yang pertama adalah dengan mencari URL yang dituju, kemudian menjelajahi daftar alamat web untuk check out. Web crawling akan mengunjungi setiap URL yang ada pada daftar, mengidentifikasi tautan di setiap halaman dan menambahkannya ke daftar URL untuk dikunjungi. Kemudian menambah indeks berupa teks, gambar, video dan file lainnya. Setelah itu, barulah memperbarui indeks, seperti konten, kata kunci untuk mencoba memahami halaman tersebut. Selanjutnya web frequency dan menggunakan protokol robots.txt untuk berkomunikasi dengan web crawler dan mengetahui mana konten mana saja yang dapat kita ekstrak datanya.

     Web crawler juga menentukan halaman mana yang perlu crawling berdasarkan keinginan robots.txt. Jadi sebelum crawling ke suatu website, ia akan mengecek robots.txt dari website itu terlebih dahulu. Robots.txt ini merupakan file di sebuah website yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tak boleh. 

 

C. FUNGSI WEB CRAWLER

    Fungsi utama dari web crawler memang mengindeks konten di internet. Namun di samping itu, ada beberapa fungsi lain yang juga tak kalah penting:

1. Membandingkan Harga 

Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat. Jadi, saat Anda mencari suatu produk, harga produk tersebut akan langsung muncul tanpa perlu masuk ke website penjualnya.

2. Data untuk Tools Analisis

Tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.

3. Data Untuk Statistik

Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik. Misalnya, hasil pencarian berita yang akan muncul di Google News. Untuk muncul di Google News, website memerlukan sitemap khsusus yang akan di-crawl oleh web crawler nantinya.

 

D. JENIS – JENIS WEB CRAWLER

1. Social Media Crawling

Tidak semua media sosial memungkinkan untuk dirayapi, karena beberapa jenis crawling bisa saja ilegal dan melanggar privasi data. Namun, terdapat beberapa penyedia platform media sosial yang terbuka terhadap hal ini, misalnya Twitter dan Pinterest. Mereka mengizinkan spider bot untuk memindai halaman jika tidak mengungkapkan informasi pribadi apa pun.

2. News Crawling

Dengan munculnya internet, berita-berita dari berbagai belahan dunia dapat diakses dengan cepat. Untuk mengambil data tersebut dari berbagai website tentu dapat tak terkendali. 

Terdapat banyak web crawlers yang dapat mengatasi hal ini. Perayap tersebut mengambil data dari konten berita baru, lama, dan yang diarsipkan, hingga membaca RSS feeds. Crawlers ini memindai informasi seperti tanggal penerbitan, nama penulis, paragraf utama, judul utama, dan bahasa dari konten berita tersebut.

3. Video Crawling

Menonton sebuah video terbilang jauh lebih mudah daripada membaca banyak konten sekaligus. Jika kamu menyematkan video YouTube, Soundcloud, atau konten video lainnya di website kamu, konten tersebut dapat diindeks juga oleh beberapa web crawlers. 

4. Email Crawling

Email crawling sangat berguna untuk mendapatkan leads karena jenis perayapan ini membantu memindai alamat email. Namun perlu dicatat bahwa crawling jenis ini bisa saja ilegal karena melanggar privasi serta tidak dapat digunakan tanpa izin dari pengguna.

5. Image Crawling

Jenis crawling ini diterapkan pada gambar. Internet dipenuhi dengan representasi visual. Karenanya, jenis bot ini membantu pengguna menemukan gambar yang relevan dari jutaan gambar yang terdapat di mesin pencari.

 

E. CONTOH WEB CRAWLER

    Banyak sekali mesin pencari yang menggunakan spider bots mereka sendiri. Berikut adalah beberapa contoh web crawlers, di antaranya:

1. DuckDuck Bot

DuckDuckGo mungkin adalah salah satu mesin pencari paling populer yang tidak melacak riwayat penggunanya dan mengikuti mereka di situs apa pun yang dikunjungi. DuckDuck Bot  web crawler membantu menemukan hasil yang paling relevan dan terbaik yang akan memenuhi kebutuhan pengguna.

2. Baiduspider

Crawler ini dioperasikan oleh mesin mencari Cina bernama Baidu. Seperti bot lainnya, Baiduspider merayap melalui berbagai halaman untuk mengindeks konten di mesin pencari.

3. Alexabot

Web crawler Amazon, Alexabot digunakan untuk identifikasi konten di website serta backlink. Jika kamu tidak ingin bot ini mengetahui beberapa informasi pribadi, kamu dapat mengecualikan Alexabot dari merayapi website kamu. 

4. Exabot

Mesin pencari Prancis, Exalead, menggunakan Exabot untuk pengindeksan konten agar dapat dimasukkan ke dalam mesin pencari.

5. Yahoo! Slurp Bot

Crawler milik Yahoo, Yahoo! Slurp Bot, digunakan untuk mengindeks halaman web guna meningkatkan konten yang dibuat khusus bagi pengguna.

6. Yandex Bot

Yandex Bot dimiliki oleh mesin pencari terbesar asal Rusia. Kamu pun juga dapat mengecualikan crawler ini dari pengindeksan konten jika kamu tidak berencana untuk memperbesar nama website kamu di negara tersebut.

7. Bingbot

Bingbot adalah salah satu web spiders paling populer yang didukung oleh Microsoft. Bingbot membantu mesin pencari, Bing, untuk membuat indeks yang paling relevan bagi penggunanya.

8. Facebook External Hit

Facebook juga memiliki perayap khusus. Sebagai contoh, ketika pengguna Facebook ingin berbagi link ke halaman konten eksternal dengan pengguna lainnya, crawler akan melakukan scraping pada kode HTML halaman dan memberikan kedua pengguna tersebut dengan judul, tag, hingga gambar pada konten.

 

F. KESIMPULAN

    Website Crawlers merupakan salah satu bagian penting dari mesin pencari yang digunakan untuk mengindeks dan menemukan konten. Banyak perusahaan mesin pencari yang memiliki bot mereka sendiri, seperti Googlebot yang didukung oleh Google, dan Bingbot oleh Microsoft. Selain itu, ada beberapa jenis crawling yang digunakan untuk memenuhi kebutuhan pengguna, seperti crawling dalam bentuk video, gambar, hingga media sosial.  Mempunyai website yang baik dengan kecepatan optimal jelas menjadi salah satu faktor crawlers dapat lebih mudah memindai konten di dalamnya. Kamu bisa menggunakan layanan Web Hosting serta Domain dari Exabytes. Tak hanya menawarkan peningkatan kecepatan, namun juga bantuan teknis profesional 24 jam yang bisa membantu mengatasi kendala yang kamu alami.

 

 

REFERENSI

https://www.exabytes.co.id/blog/apa-itu-web-crawler/

https://www.niagahoster.co.id/blog/apa-itu-web-crawler/

 

Komentar

Postingan Populer