Mengintip Ulah AI Banjiri Trefik Situs Seperti yang Diklaim Elon Musk

CNN Indonesia
Selasa, 04 Jul 2023 19:30 WIB
AI ternyata dapat digunakan untuk membanjiri sebuah situs dengan trefik seperti yang dituduhkan Elon Musk.
AI ternyata bisa digunakan untuk membanjiri sebuah situs seperti yang ditudingkan Elon Musk. (REUTERS/FLORENCE LO)
Jakarta, CNN Indonesia --

Kecerdasan buatan (AI) menjadi teknologi yang sangat populer saat ini. Namun, Bos Twitter Elon Musk mengklaim platform AI membanjiri situs dengan trefik, salah satunya di Twitter.

Sebelumnya, Musk membatasi akses pengguna Twitter, baik yang terverifikasi maupun yang tak terverifikasi alias akun gratisan. Alasannya, ratusan organisasi atau lebih selama ini telah melakukan data scraping atau mengais data di Twitter "dengan sangat agresif".

Data scraping tersebut dilakukan di Twitter untuk melatih model bahasa besar mereka.

ADVERTISEMENT

SCROLL TO CONTINUE WITH CONTENT

Dikutip dari Cloudflare, data scraping mengacu pada teknik di mana program komputer mengekstrak data dari output yang dihasilkan dari program lain.

Data scraping biasanya terwujud dalam web scraping atau proses menggunakan aplikasi untuk mengekstrak informasi berguna dari situs tertentu.

Umumnya perusahaan tidak ingin konten mereka diunduh dan digunakan kembali untuk tujuan yang tidak jelas.

Akibatnya, mereka tidak mengekspos semua data melalui API yang dapat dengan mudah diakses.

Sebaliknya, bot scraper tertarik untuk mendapatkan data situs web dengan mengabaikan upaya pembatasan akses.

Akibatnya, permainan kucing-kucingan biasanya terjadi antara bot web scraper dan berbagai strategi proteksi konten, dengan masing-masing mencoba untuk mengalahkan yang lain.

Dalam sebuah laporan di Vice, pembuat alat pengais gambar internet img2dataset Romain Beaumont mengatakan kepada pemilik situs web untuk secara aktif menolak situs mereka jika tak ingin datanya diambil.

"Sangat menyedihkan bahwa beberapa dari Anda tidak memahami potensi AI dan Open AI dan sebagai konsekuensinya memutuskan untuk melawannya," ujar Beaumont di halaman GitHub.

"Anda akan memiliki banyak kesempatan di tahun-tahun mendatang untuk mendapatkan manfaat dari AI. Saya harap Anda dapat melihatnya lebih cepat daripada nanti. Sebagai pencipta, Anda memiliki lebih banyak kesempatan untuk mendapatkan keuntungan darinya," tambahnya.

Lihat Juga :

Img2dataset adalah alat gratis yang dibagikan Beaumont di GitHub yang memungkinkan pengguna untuk mengunduh secara otomatis, dan mengubah ukuran daftar URL.

Hasilnya adalah sebuah dataset gambar, jenis yang melatih model AI penghasil gambar seperti DALL-E dari OpenAI, model open source Stable Diffusion, dan Imagen dari Google.

Beaumont juga merupakan kontributor open source untuk LAION-5B, salah satu dataset gambar terbesar di dunia yang berisi lebih dari 5 miliar gambar dan digunakan oleh Imagen dan Stable Diffusion.

Img2dataset sendiri akan berusaha mengais gambar dari situs mana pun kecuali pemilik situs menambahkan header https seperti "X-Robots-Tag: noai," dan "X-Robots-Tag: noindex."

Artinya, tanggung jawab ada pada pemilik situs untuk menolak pengambilan data yang dilakukan img2dataset. Sayangnya, mungkin banyak pemilik situs tidak mengetahui adanya img2dataset.

Kasus semacam ini dialami seorang pengguna bernama Terence Eden. Eden mengunggah komentar di halaman Github yang mengatakan alat ini "menghantam" beberapa situsnya dan meminta agar alat ini dibuat menjadi opt-in.

"Saya tidak mengerti mengapa saya dibebankan untuk menambahkan tajuk baru ke situs saya untuk menolak alat ini. Tolong, bisakah Anda mengubah perilaku default sehingga hanya akan bekerja pada situs yang menetapkan X-Robots-Tag: YesAI?" kata Eden.

Merespons komentar tersebut, Beaumont mengatakan "jika Anda tidak ingin orang melihat gambar dari situs web Anda, cara terbaik adalah mematikannya."

Cara Memblokir Data Scraper

BACA HALAMAN BERIKUTNYA

HALAMAN:
1 2
LAINNYA DI DETIKNETWORK
LIVE REPORT
TERPOPULER