Dalam sebuah email kepada Motherboard, Eden mengatakan ia mengetahui img2dataset sedang mengais data situsnya, OpenBenches.
OpenBenches sendiri adalah situs yang mengundang pengguna untuk mengunggah foto dan lokasi memorial bench dari seluruh dunia.
Saat ini, OpenBenches telah memetakan 27.629 bangku, dan menampung 250GB foto.
ADVERTISEMENT
SCROLL TO CONTINUE WITH CONTENT
"Saya menyadarinya karena saya menerima peringatan dari host saya bahwa situs ini sedang diserang," kata Eden.
"Saya harus membayar untuk meningkatkan server saya, membayar ekstra untuk lalu lintas ekspor, dan menghabiskan sebagian waktu akhir pekan saya untuk memblokir penyalahgunaan yang disebabkan oleh bot khusus ini," imbuhnya.
Di sisi lain, Beaumont membela diri dengan membandingkan platformnya dengan cara Google mengindeks semua situs web secara online untuk memberi daya pada mesin pencarinya.
Jika Anda tidak ingin bot AI menggunakan konten web Anda, Anda bisa memblokirnya agar tidak mengakses situs Anda dengan menggunakan file robots.txt.
Sayangnya, Anda harus memblokir masing-masing bot dan menentukannya berdasarkan nama.
Sebagai contoh, bot Common Crawl bernama CCBot dan Anda bisa memblokirnya dengan menambahkan kode berikut ini ke file robots.txt Anda:
User-agent: CCBot
Disallow: /
Dikutip dari Makeusof, perintah ini akan memblokir Common Crawl agar tidak mengais data di situs web Anda, tetapi tidak akan menghapus data apa pun yang sudah dikumpulkan dari proses data scraping sebelumnya.
(lom/lth)