Birkaç büyük AI şirketi, AI'larını eğitmek için 173.000'den fazla YouTube videosundan altyazılar içeren bir veritabanını kullandı. İçerik oluşturucularından izin veya tazminat olmadan.
” Hırsızlıktan “, Nebula yayın hizmetinin patronu Dave Wiskus, büyük yapay zeka şirketlerinin içerik yaratıcılarını sömürme uygulamasını şöyle anlatıyor: Youtubeherhangi bir yetkilendirme ve hatta daha az tazminat olmaksızın. Proof News tarafından yapılan bir araştırma, KabloluAnthropic, Nvidia, Apple ve Salesforce'un 48.000'den fazla kanaldan sızdırılan 173.536 YouTube videosunun altyazılarını istismar ettiğini doğruladı.
Yapay zekalar geçen her şeyi alır
Bu şirketler, kuralları platformunu izinsiz toplamayı yasaklayan YouTube'un altyazılarına doğrudan erişmedi, ancak 2020'de EleutherAI tarafından yayınlanan YouTube Altyazıları veritabanını kullandı. MrBeast, MKBHD, PewDiePie gibi çok popüler içerik oluşturucularının birçok videosu için altyazılar içeriyor… ancak aynı zamanda büyük medya kuruluşları tarafından üretilen eğitim videoları ve içerikler de içeriyor (BBC, WSJvesaire.).
Proof News, bir YouTube kanalının çalınıp çalınmadığını bulmak için çevrimiçi bir araç oluşturdu. Dave Wiskus, yaratıcıların eserlerini onların izni olmadan kullanmanın ” saygısız “.” Bu mu [ces grandes entreprises] bu verileri sanatçıları istismar etmek ve onlara zarar vermek için mi kullanacak? Evet, kesinlikle ” diyor açıkça.
Açık ve erişilebilir yapay zeka geliştirmeye adanmış, kâr amacı gütmeyen bir araştırma kuruluşu olan EleutherAI, YouTube Altyazıları'nın, Wikipedia, Avrupa Parlamentosu ve hatta Enron çalışanlarının e-postalarından büyük hacimli metinler içeren The Pile adlı daha da büyük bir kazınmış içerik veritabanının parçası olduğunu açıkladı.
The Pile'ın çoğu, yeterli depolama alanına ve onu kullanmak için çok fazla işlem gücüne sahip olmaları koşuluyla herkes tarafından erişilebilir. Bu veritabanının, Apple'daki OpenELM gibi büyük dil modellerini (LLM) eğitmek için kullanılan bilgilerin bir parçası olduğunu doğrulayan bu büyük gruplar için bir sorun değil.
Bu ifşalar sürpriz değil: AI şirketleri LLM'lerini beslemek için her türlü numarayı kullanıyor, bazıları yasallığın sınırında. Yayıncılar tarafından saldırıya uğrayan birçoğu “adil kullanım”ın veya hatta alıntı yapma hakkının arkasına sığınıyor. Apple gibi diğerleri ise internette yayınlanan içeriklerin yağmalanmasını meşrulaştırmak için “açık web”den bahsediyor.
Kablolu
” Hırsızlıktan “, Nebula yayın hizmetinin patronu Dave Wiskus, büyük yapay zeka şirketlerinin içerik yaratıcılarını sömürme uygulamasını şöyle anlatıyor: Youtubeherhangi bir yetkilendirme ve hatta daha az tazminat olmaksızın. Proof News tarafından yapılan bir araştırma, KabloluAnthropic, Nvidia, Apple ve Salesforce'un 48.000'den fazla kanaldan sızdırılan 173.536 YouTube videosunun altyazılarını istismar ettiğini doğruladı.
Yapay zekalar geçen her şeyi alır
Bu şirketler, kuralları platformunu izinsiz toplamayı yasaklayan YouTube'un altyazılarına doğrudan erişmedi, ancak 2020'de EleutherAI tarafından yayınlanan YouTube Altyazıları veritabanını kullandı. MrBeast, MKBHD, PewDiePie gibi çok popüler içerik oluşturucularının birçok videosu için altyazılar içeriyor… ancak aynı zamanda büyük medya kuruluşları tarafından üretilen eğitim videoları ve içerikler de içeriyor (BBC, WSJvesaire.).
Proof News, bir YouTube kanalının çalınıp çalınmadığını bulmak için çevrimiçi bir araç oluşturdu. Dave Wiskus, yaratıcıların eserlerini onların izni olmadan kullanmanın ” saygısız “.” Bu mu [ces grandes entreprises] bu verileri sanatçıları istismar etmek ve onlara zarar vermek için mi kullanacak? Evet, kesinlikle ” diyor açıkça.
Açık ve erişilebilir yapay zeka geliştirmeye adanmış, kâr amacı gütmeyen bir araştırma kuruluşu olan EleutherAI, YouTube Altyazıları'nın, Wikipedia, Avrupa Parlamentosu ve hatta Enron çalışanlarının e-postalarından büyük hacimli metinler içeren The Pile adlı daha da büyük bir kazınmış içerik veritabanının parçası olduğunu açıkladı.
The Pile'ın çoğu, yeterli depolama alanına ve onu kullanmak için çok fazla işlem gücüne sahip olmaları koşuluyla herkes tarafından erişilebilir. Bu veritabanının, Apple'daki OpenELM gibi büyük dil modellerini (LLM) eğitmek için kullanılan bilgilerin bir parçası olduğunu doğrulayan bu büyük gruplar için bir sorun değil.
Bu ifşalar sürpriz değil: AI şirketleri LLM'lerini beslemek için her türlü numarayı kullanıyor, bazıları yasallığın sınırında. Yayıncılar tarafından saldırıya uğrayan birçoğu “adil kullanım”ın veya hatta alıntı yapma hakkının arkasına sığınıyor. Apple gibi diğerleri ise internette yayınlanan içeriklerin yağmalanmasını meşrulaştırmak için “açık web”den bahsediyor.
AI'yı Okuyun: OpenAI, Google ve Meta'nın veri kıtlığını aşma planları
Kaynak :01net'ten hiçbir haberi kaçırmamak için bizi Google Haberler ve WhatsApp'tan takip edin.
Kablolu