WEB CRAWLER
TUGAS RANGKUMAN
MATA KULIAH
PENGANTAR WEB SCIENCE
Web Crawler
Disusun
Oleh :
Risda
Novelia (51420112)
2IA18
TEKNIK INFORMATIKA
UNIVERSITAS GUNADARMA
2022
A. PENGERTIAN WEB CRAWLER
Pengertian web
crawler–atau sering juga disebut spiders— adalah sebuah tool untuk
mengindeks dan mengunduh konten dari internet, lalu disimpan ke dalam database
mesin pencari. Sehingga saat ada orang yang mencari suatu informasi, mesin
pencari akan langsung menampilkan hasil yang relevan dari database tersebut.
Web crawler menggali
setiap data yang ada di internet seperti seperti : meta data, keyword, dan lain
sebagainya. Kemudian web crawler atau si (spider man) ini akan meng index
seluruh data kita ke dalam data base search engine.Sampai pada akhirnya halaman
website akan ditampilkan di SERP (search engine rage page)
Web crawler tak serta
merta mengindeks semua yang ada di internet. Ia menentukan halaman mana yang
perlu crawling, berdasarkan jumlah halaman lain yang menaruh link ke
halaman tersebut dan jumlah pengunjung ke sana. Jadi, apabila suatu halaman
muncul di banyak halaman lain dan mendapatkan pengunjung yang tak sedikit,
kemungkinan besar halaman itu memang penting. Halaman penting ini biasanya
berisi konten atau informasi yang dibutuhkan oleh banyak orang, sehingga mesin
pencari pasti akan memasukkannya ke indeks agar orang-orang lebih mudah
mengaksesnya.
Indexing adalah
proses yang terbilang cukup penting karena akan membantu pengguna menemukan
kueri yang relevan dengan cepat. Indexing ini sendiri dapat di
bandingkan dengan pengindeksan sebuah buku, di mana pengguna akan menemukan
indeks dengan daftar pertanyaan dalam urutan abjad dan halaman yang
menyebutkannya dalam buku teks. Hal sama juga diterapkan dalam search
index, namun alih-alih melakukan penomoran halaman, mesin pencari akan
menampilkan beberapa link di mana bisa mendapatkan atau mencari
jawaban atas pertanyaan yang diinginkan.
B. CARA KERJA WEB CRAWLER
C. FUNGSI WEB CRAWLER
Fungsi utama dari web
crawler memang mengindeks konten di internet. Namun di samping itu, ada
beberapa fungsi lain yang juga tak kalah penting:
1. Membandingkan
Harga
Web crawler bisa
membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data
dari produk tersebut bisa akurat. Jadi, saat Anda mencari suatu produk, harga
produk tersebut akan langsung muncul tanpa perlu masuk ke website penjualnya.
2. Data untuk Tools
Analisis
Tools analisis website
seperti Google
Search Console dan Screaming
Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan
melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan
terbaru.
3. Data Untuk Statistik
Web crawler juga
memberikan data-data penting yang bisa digunakan untuk website berita atau
website statistik. Misalnya, hasil pencarian berita yang akan muncul di Google News.
Untuk muncul di Google News, website memerlukan sitemap khsusus yang akan
di-crawl oleh web crawler nantinya.
D. JENIS – JENIS WEB
CRAWLER
1. Social Media
Crawling
Tidak semua media
sosial memungkinkan untuk dirayapi, karena beberapa jenis crawling bisa saja
ilegal dan melanggar privasi data. Namun, terdapat beberapa penyedia platform
media sosial yang terbuka terhadap hal ini, misalnya Twitter dan Pinterest.
Mereka mengizinkan spider bot untuk memindai halaman jika tidak
mengungkapkan informasi pribadi apa pun.
2. News Crawling
Dengan munculnya
internet, berita-berita dari berbagai belahan dunia dapat diakses dengan cepat.
Untuk mengambil data tersebut dari berbagai website tentu dapat tak
terkendali.
Terdapat banyak web
crawlers yang dapat mengatasi hal ini. Perayap tersebut mengambil data
dari konten berita baru, lama, dan yang diarsipkan, hingga membaca RSS
feeds. Crawlers ini memindai informasi seperti tanggal penerbitan,
nama penulis, paragraf utama, judul utama, dan bahasa dari konten berita tersebut.
3. Video Crawling
Menonton sebuah video
terbilang jauh lebih mudah daripada membaca banyak konten sekaligus. Jika kamu
menyematkan video YouTube, Soundcloud, atau konten video lainnya di website
kamu, konten tersebut dapat diindeks juga oleh beberapa web crawlers.
4. Email Crawling
Email crawling sangat
berguna untuk mendapatkan leads karena jenis perayapan ini membantu
memindai alamat email. Namun perlu dicatat bahwa crawling jenis ini
bisa saja ilegal karena melanggar privasi serta tidak dapat digunakan tanpa
izin dari pengguna.
5. Image Crawling
Jenis crawling ini
diterapkan pada gambar. Internet dipenuhi dengan representasi visual.
Karenanya, jenis bot ini membantu pengguna menemukan gambar yang relevan dari
jutaan gambar yang terdapat di mesin pencari.
E. CONTOH WEB CRAWLER
Banyak sekali mesin
pencari yang menggunakan spider bots mereka sendiri. Berikut adalah
beberapa contoh web crawlers, di antaranya:
1. DuckDuck Bot
DuckDuckGo mungkin
adalah salah satu mesin pencari paling populer yang tidak melacak riwayat
penggunanya dan mengikuti mereka di situs apa pun yang dikunjungi. DuckDuck
Bot web crawler membantu menemukan hasil yang paling relevan
dan terbaik yang akan memenuhi kebutuhan pengguna.
2. Baiduspider
Crawler ini
dioperasikan oleh mesin mencari Cina bernama Baidu. Seperti bot lainnya,
Baiduspider merayap melalui berbagai halaman untuk mengindeks konten di mesin
pencari.
3. Alexabot
Web crawler Amazon,
Alexabot digunakan untuk identifikasi konten di website serta backlink.
Jika kamu tidak ingin bot ini mengetahui beberapa informasi pribadi, kamu dapat
mengecualikan Alexabot dari merayapi website kamu.
4. Exabot
Mesin pencari Prancis,
Exalead, menggunakan Exabot untuk pengindeksan konten agar dapat dimasukkan ke
dalam mesin pencari.
5. Yahoo! Slurp Bot
Crawler milik
Yahoo, Yahoo! Slurp Bot, digunakan untuk mengindeks halaman web guna
meningkatkan konten yang dibuat khusus bagi pengguna.
6. Yandex Bot
Yandex Bot dimiliki
oleh mesin pencari terbesar asal Rusia. Kamu pun juga dapat mengecualikan crawler ini
dari pengindeksan konten jika kamu tidak berencana untuk memperbesar nama
website kamu di negara tersebut.
7. Bingbot
Bingbot adalah salah
satu web spiders paling populer yang didukung oleh Microsoft. Bingbot
membantu mesin pencari, Bing, untuk membuat indeks yang paling relevan bagi
penggunanya.
8. Facebook External
Hit
Facebook juga memiliki
perayap khusus. Sebagai contoh, ketika pengguna Facebook ingin berbagi link ke
halaman konten eksternal dengan pengguna lainnya, crawler akan
melakukan scraping pada kode HTML halaman dan memberikan kedua
pengguna tersebut dengan judul, tag, hingga gambar pada konten.
F. KESIMPULAN
Website Crawlers merupakan salah satu bagian penting dari mesin pencari yang digunakan untuk mengindeks dan menemukan konten. Banyak perusahaan mesin pencari yang memiliki bot mereka sendiri, seperti Googlebot yang didukung oleh Google, dan Bingbot oleh Microsoft. Selain itu, ada beberapa jenis crawling yang digunakan untuk memenuhi kebutuhan pengguna, seperti crawling dalam bentuk video, gambar, hingga media sosial. Mempunyai website yang baik dengan kecepatan optimal jelas menjadi salah satu faktor crawlers dapat lebih mudah memindai konten di dalamnya. Kamu bisa menggunakan layanan Web Hosting serta Domain dari Exabytes. Tak hanya menawarkan peningkatan kecepatan, namun juga bantuan teknis profesional 24 jam yang bisa membantu mengatasi kendala yang kamu alami.
REFERENSI
https://www.exabytes.co.id/blog/apa-itu-web-crawler/
https://www.niagahoster.co.id/blog/apa-itu-web-crawler/


Komentar
Posting Komentar