Dalam beberapa tahun terakhir, pelatihan model kecerdasan buatan semakin bergantung pada pengumpulan data jaringan sebagai sumber data yang penting, sikap situs berita terhadap perayap kecerdasan buatan secara langsung memengaruhi efek pelatihan model tersebut. Artikel ini akan menganalisis hasil penelitian terhadap situs berita yang memblokir crawler OpenAI dan menelusuri alasan serta potensi dampak di baliknya.
Sebuah studi menemukan bahwa hampir setengah situs berita populer memblokir crawler OpenAI. Situs web media cetak tradisional lebih banyak diblokir dari crawler OpenAI, dan model AI baru mungkin mengalami degradasi saat dilatih dengan model sebelumnya. Perayap kecerdasan buatan digunakan untuk mengumpulkan data guna melatih model bahasa, dan organisasi berita di negara-negara belahan bumi utara lebih cenderung memblokir perayap kecerdasan buatan.
Temuan ini menyoroti meningkatnya ketegangan antara situs berita dan pelatihan model kecerdasan buatan. Perilaku situs berita yang memblokir crawler dapat menyebabkan penurunan kualitas data pelatihan model kecerdasan buatan, sehingga memengaruhi performa dan keandalan model. Di masa depan, bagaimana menyeimbangkan kebutuhan pelatihan model kecerdasan buatan dan perlindungan hak dan kepentingan situs berita akan menjadi topik penting. Model kerja sama yang lebih efektif perlu dijajaki untuk mendorong pengembangan teknologi kecerdasan buatan dengan tetap menghormati hak kekayaan intelektual dan keamanan data organisasi berita.