Penggunaan Konten YouTube untuk Melatih Model AI
Ilustrasi .Foto:Dok/Ist.--
RAKYATEMPATLAWANG.BACAKORAN.CO - Laporan terbaru mengungkapkan bahwa perusahaan seperti Apple, Nvidia, Anthropic, dan lainnya menggunakan data yang tersedia untuk umum yang dihasilkan oleh pengguna untuk melatih model AI mereka.
Salah satu sumber data ini adalah video YouTube dengan subtitle.
Apple dilaporkan menggunakan puluhan ribu video YouTube dengan subtitle untuk melatih Apple Intelligence.
Hal ini bertentangan dengan kebijakan konten platform YouTube. Menurut penyelidikan, Apple dan perusahaan lainnya menggunakan kumpulan data yang disebut YouTube, yang mencakup transkrip 173.536 video YouTube dari lebih dari 48.000 saluran.
BACA JUGA:Kerusuhan di Mulia, Papua Tengah Membuat Penerbangan Sipil Dihentikan Sementara
BACA JUGA:Mengenal Desa Nglanggeran, Yogyakarta: Perpaduan Keindahan Alam dan Sejarah
Video dalam dataset ini mencakup berbagai saluran, mulai dari saluran pendidikan seperti Khan Academy dan MIT hingga situs berita seperti The Wall Street Journal, serta beberapa kreator terkenal seperti MrBeast dan Marques Brownlee.
Marques Brownlee, salah satu kreator terkenal yang videonya termasuk dalam dataset ini, menyatakan bahwa Apple secara teknis menghindari pelanggaran karena mereka mendapatkan sumber AI dari perusahaan yang menggunakan transkrip dari video YouTube, bukan data video secara langsung.
Namun, data/transkrip tersebut tetap berkontribusi pada model AI, yang mana para kreator telah menginvestasikan waktu dan uang mereka.
BACA JUGA:Desa Penglipuran, Bali: Desa Tradisional dengan Pesona Autentik
BACA JUGA:Desa Arborek, Raja Ampat, Papua: Surga Wisata Bahari dan Budaya
Proof News menciptakan alat bagi para kreator untuk mencari konten mereka di dataset.
Dataset Subtitle YouTube tidak menyertakan gambar dari video tetapi menyertakan beberapa subtitle terjemahan dalam berbagai bahasa.
Dataset ini dilaporkan dibuat oleh Eleuther AI, sebuah laboratorium penelitian nirlaba yang berfokus untuk mempromosikan norma-norma ilmu pengetahuan terbuka.