Hannover. Bu, yapay zeka endüstrisindeki bir sonraki büyük gelişme ve eğlence endüstrisini sonsuza dek değiştirebilecek bir şey. Ya da belki değil?
Yayın sağlayıcısı Spotify, podcast’lerin yapay zeka kullanılarak başka dillere çevrilmesine olanak tanıyan bir işlevi test ediyor. Vurgu: Konuşmacının sesi ve konuşma tarzı korunmalıdır; yalnızca söylenen sözcük değişir. İşlev pazara hazır olduğunda, uluslararası dinleyiciler gelecekte “Lanz und Precht”, “Fest und Flüschig” veya “Gemischtes Hack” gibi Almanca podcast’lerin de keyfini çıkarabilecekler. En azından teoride.
İsveç yayın hizmetine ilişkin ilk planlar bu yılın Mayıs ayında açıklandı. Spotify artık resmi olarak AI destekli işlevin yanı sıra sonuçların bir test olarak duyulabileceği üç İngilizce podcast’i de sundu. İngilizce dilindeki “Lex Fridman Podcast’leri”, “Koltuk Uzmanı” ve “Bir CEO’nun Günlüğü” programları yapay zeka tarafından kısmen İspanyolcaya çevrildi. Çevirileri bu sayfada dinleyebilirsiniz; Almanca ve Fransızca çeviriler önümüzdeki haftalarda yapılacaktır.
ChatGPT’nin yaratıcısından program
Yeni işlevin arkasındaki teknolojiye Whisper adı veriliyor. Bu, Spotify’ın bir icadı değil, zaten ChatGPT sohbet programıyla tanınan OpenAI şirketinin bir programıdır. Otomatik konuşma tanıma sistemi yüz binlerce ses verisi ile eğitilmiştir ve konuşulan kelimeleri güvenilir bir şekilde yazılı metne dönüştürebilmektedir.
Bu tür transkripsiyon araçları tamamen yeni değil; ancak Whisper, hassasiyeti bakımından farklılık gösteriyor: Program, yapay zekanın yardımıyla son derece sağlam ve şaşırtıcı derecede güvenilir bir şekilde çalışıyor. Whisper’ı daha önce deneyen kişilerin gönderileri, yapay zekanın hızlı konuşmaları, mırıldanmaları, aksanları, teknik dili, özel isimleri veya yüksek arka plan seslerini bile idare edebildiğini ve konuşulan metinleri oldukça doğru bir şekilde yazılı kelimeye çevirebildiğini gösteriyor.
Sadece bu da değil: Whisper aynı zamanda konuşulan sözcüğü diğer dillere de çevirebilir. Ancak mevcut gelişme durumuna göre bu durum hâlâ Spotify’ın da tabi olduğu kısıtlamalarla ilişkilidir. İngilizce’den diğer dillere yapılan çeviriler sorunsuz çalışır – tıpkı bunun tersi gibi. Ancak bir metni Almancadan Fransızcaya çevirmek istediğinizde program ilk önce İngilizce üzerinden dönüş yapıyor. Ancak aracın diğer dillere de daha iyi hakim olması muhtemelen sadece zaman meselesi olacaktır.
Sesi bile taklit ediliyor
Yayın hizmeti, Spotify’ın gelecekte aracı tam olarak nasıl kullanmayı ve entegre etmeyi planladığını henüz açıklamadı ve yeni işlevin çıkış tarihi de hala belirsiz.
Ancak uzun vadede podcast yapımcılarının tek tuşla programlarını başka dillere çevirebilmeleri de düşünülebilir. Dinleyicilere, konumlarına bağlı olarak, ilgili podcast’in doğru dil versiyonunun gösterilmesi de mümkün olacaktır.
Özellikle umut verici olan şey, programların yalnızca mekanik robot sesleriyle değil, ilgili sunum yapan kişinin sesiyle çevrilmesidir. OpenAI’nin yeni bir geliştirmesi de şunu sağlıyor: ilgili dil dosyası yalnızca yazıya dökülmüyor ve çevrilmiyor. Dolgu sözcükleri veya duraklamalar gibi özel özellikler de dahil olmak üzere ses tonları da taklit edilir.
Diğer şirketler de yapay zeka çevirmenleri geliştiriyor
Bunların hepsi oldukça fütüristik görünse de Spotify, bu tür işlevleri deneyen ilk sağlayıcı olmaktan çok uzak. Son haftalarda HeyGen platformundan videolar sosyal ağlarda sıklıkla paylaşılıyor. Burada iki dakikaya kadar video klip yükleyip yapay zeka kullanarak farklı dillere tercüme ettirmek mümkün.
Teknoloji, Spotify’ın planlarından biraz daha etkileyici: Çeviri sırasında yalnızca konuşmacının sesi taklit edilmiyor; görüntü ve dudak hareketleri de sanki dinleyicilerle başka bir dilde konuşuyormuşsunuz gibi görünecek şekilde ayarlanıyor.
Sonuçlar şaşırtıcı ve sosyal ağlardaki heyecan nedeniyle Kaliforniyalı yapay zeka sağlayıcısının web sitesi yakın zamanda birkaç kez durma noktasına geldi.
Dünya çapında Youtube videoları
Teknoloji devi Google’a ait video platformu YouTube da bu tür çeviri çözümleri üzerinde çalışıyor. Platform, birkaç hafta önce video yapımcılarına uzun vadede yeni yapay zeka araçları sağlayacağını duyurmuştu. O zaman sistemin şu şekilde çalışması gerekiyor: Yapay zeka öncelikle bir YouTube videosunda söylenenleri dinliyor ve bunu bir belgeye dönüştürüyor. Bu zaten altyazılarla çalışıyor. Video yapımcıları daha sonra çevrilmiş metni yeniden okuyabilir ve düzeltebilir.
Her şey yolundaysa yapay zeka metni çevirir ve video için dublaj sesi oluşturur. Bu aynı zamanda farklı dillerde de çalışır; orijinal videoda müzik çalıyor olsa veya başka rahatsız edici sesler duyulsa bile. İzleyiciler daha sonra video oynatıcıdaki aracı kullanarak çeviri sürümünü seçebilir. İşlev şu anda seçilmiş birkaç YouTuber ile test ediliyor. Böyle bir çeviri Amoeba Sisters tarafından hazırlanan bir videoya entegre edildi.
Bu durumda Google’ın Aloud adlı kendi teknolojisi kullanılıyor. Yapay zeka şirketi ilk olarak 2022’nin başında Google’ın sürekli olarak heyecan verici teknolojik gelişmeler üreten teknoloji şirketi için bir tür laboratuvar olan “Area 120” projesinin bir parçası olarak tanıtıldı. İlgilenen YouTuber’lar bekleme listesine alınabilir.
Google aynı zamanda özel kullanıma yönelik çeviri işlevleri üzerinde de çalışıyor. Audio-Palm, gelecekte seyahat ederken kullanıcılara yardımcı olmayı amaçlıyor ve konuşulan kelimeleri birkaç saniye içinde çeviriyor. Bu işlev henüz özel kullanıcılar tarafından kullanılamamaktadır. Bu özelliğin gelecekte Google Çevirmen’e de girmesi düşünülebilir.
Youtuber şimdiden heyecanlı
Tüm yapay zeka gelişmelerinde olduğu gibi, bir kez daha büyük bir soru ortaya çıkıyor: Yeni teknoloji tüm endüstrileri değiştirecek özelliklere sahip mi?
Bu düşünülebilir. Bazı insanlar şimdiden seslendirme sanatçılarının gelecekte işe yaramaz hale gelebileceğinden korkuyor; İngilizce filmler daha sonra yapay zeka kullanılarak kolayca Almancaya çevrilebilir. Bu arada, yaratıcı sahnenin diğer kısımları şimdiden seviniyor.
YouTube’da bir milyondan fazla abonesi olan YouTuber Dave Henrichs, yakın zamanda meslektaşı Tim Gabel’in podcast’inde övgüler yağdırdı: YouTube’da yapay zeka çevirisi kullanıma sunulursa, “İspanya pazarının tamamı sonunda tüm Almanlara, Türk pazarının tamamına açılacak. Fransız, İtalyan pazarı. Aynı şey tam tersi için de geçerlidir.”
Henrichs şöyle devam etti: “Bu, beklediğim bir araç. Çünkü içeriğim 80 milyon kişi yerine 7 milyar kişi tarafından görüntülenebiliyor ve anlaşılabiliyor.” Bu mantığa göre, Spotify’ın podcast işlevi aynı zamanda tüm sektörleri değiştirme potansiyeline sahip ve yaratıcılara yeni satış fırsatları sunacak.
Yapay zekanın da duyguları olabilir mi?
Gerçekten bu kadar basit olup olmadığı başka bir konudur. Çünkü aşılması gereken ve yapay zekanın bile çözemediği bazı engeller mutlaka vardır. Spotify veya YouTube’daki pek çok Alman programı tematik veya kültürel olarak Alman pazarına yöneliktir – bu diğer ülkelerde de farklı olmamalıdır. Lanz ve Precht’in Annalena Baerbock hakkında konuşması veya Böhmermann ve Schulz’un klasik Alman tatlıları hakkında konuşması veya Helene Fischer hakkında konuşması bir ABD vatandaşının gerçekten ilgilenip ilgilenmeyeceğini zaman gösterecek.
Öte yandan yapay zeka araçlarının ilgili yapımların duygusunu gerçekte ne kadar iyi aktarabileceği henüz tam olarak belli değil. Yapay zeka her ne kadar insanları taklit edebilse de sonuçta yine de yapay kalıyor. Çeviri araçları ironiyi anlayıp bunu bu şekilde sunabilecek mi? Gerçekten orijinal dilde olduğu gibi duyguları, can alıcı noktaları ve retorik hileleri tasvir edebilecekler mi?
Spotify podcast’lerinden ses örneklerini dinlerseniz, en azından bu noktada bundan şüphe duyabilirsiniz. Her ne kadar İngilizce orijinali İspanyolcaya oldukça doğru bir şekilde çevrilmiş gibi görünse de, gösterinin açılış jeneriği sırasında yüksek sesli fon müziği çaldığında bile işe yarıyor. Ancak yapay zeka versiyonu hiçbir şekilde İspanyolca konuşan iki kişinin birbiriyle konuştuğu hissini vermiyor.
İspanyolca dili, İngilizce veya Almanca’dan çok daha coşkulu, daha hızlı ve daha duygusaldır. Örnek podcast’te ayrıca, hemen teknik manipülasyonu akla getiren ve yayının insan unsurunu ortadan kaldıran oldukça doğal olmayan duraklamalar da duyabilirsiniz.
Podcast’ler özgünlükle gelişir
Yeni araçlar kesinlikle izleyiciler ve dinleyiciler için tamamen yeni olanaklar açacak. Birdenbire, daha önce dil engeli nedeniyle imkansız olan videolar ve podcast’ler yoluyla bilgi emilebiliyor. Belki yapay zeka da bu ürünler aracılığıyla dünyanın birbirine biraz daha yakınlaşmasını sağlayacak.
Ancak: Podcast’ler ve YouTube videoları yalnızca bilgiyle değil, aynı zamanda kahramanlarının kişiliği, eğlence değeri ve özgünlüğüyle de gelişir. Bu aynı zamanda profesyonel dublajlı filmler için de geçerli olmalıdır.
Sonuç ne kadar profesyonel olursa olsun, teknoloji müdahale edip ürünü insanlıktan çıkardığında tüm bu değerler oldukça hızlı bir şekilde buharlaşır. Yapay zeka tarafından üretilen bu tür ürünlerin gerçekten sadık bir dinleyici veya izleyici tabanı oluşturup oluşturamayacağı henüz bilinmiyor.
Yayın sağlayıcısı Spotify, podcast’lerin yapay zeka kullanılarak başka dillere çevrilmesine olanak tanıyan bir işlevi test ediyor. Vurgu: Konuşmacının sesi ve konuşma tarzı korunmalıdır; yalnızca söylenen sözcük değişir. İşlev pazara hazır olduğunda, uluslararası dinleyiciler gelecekte “Lanz und Precht”, “Fest und Flüschig” veya “Gemischtes Hack” gibi Almanca podcast’lerin de keyfini çıkarabilecekler. En azından teoride.
İsveç yayın hizmetine ilişkin ilk planlar bu yılın Mayıs ayında açıklandı. Spotify artık resmi olarak AI destekli işlevin yanı sıra sonuçların bir test olarak duyulabileceği üç İngilizce podcast’i de sundu. İngilizce dilindeki “Lex Fridman Podcast’leri”, “Koltuk Uzmanı” ve “Bir CEO’nun Günlüğü” programları yapay zeka tarafından kısmen İspanyolcaya çevrildi. Çevirileri bu sayfada dinleyebilirsiniz; Almanca ve Fransızca çeviriler önümüzdeki haftalarda yapılacaktır.
ChatGPT’nin yaratıcısından program
Yeni işlevin arkasındaki teknolojiye Whisper adı veriliyor. Bu, Spotify’ın bir icadı değil, zaten ChatGPT sohbet programıyla tanınan OpenAI şirketinin bir programıdır. Otomatik konuşma tanıma sistemi yüz binlerce ses verisi ile eğitilmiştir ve konuşulan kelimeleri güvenilir bir şekilde yazılı metne dönüştürebilmektedir.
Bu tür transkripsiyon araçları tamamen yeni değil; ancak Whisper, hassasiyeti bakımından farklılık gösteriyor: Program, yapay zekanın yardımıyla son derece sağlam ve şaşırtıcı derecede güvenilir bir şekilde çalışıyor. Whisper’ı daha önce deneyen kişilerin gönderileri, yapay zekanın hızlı konuşmaları, mırıldanmaları, aksanları, teknik dili, özel isimleri veya yüksek arka plan seslerini bile idare edebildiğini ve konuşulan metinleri oldukça doğru bir şekilde yazılı kelimeye çevirebildiğini gösteriyor.
Sadece bu da değil: Whisper aynı zamanda konuşulan sözcüğü diğer dillere de çevirebilir. Ancak mevcut gelişme durumuna göre bu durum hâlâ Spotify’ın da tabi olduğu kısıtlamalarla ilişkilidir. İngilizce’den diğer dillere yapılan çeviriler sorunsuz çalışır – tıpkı bunun tersi gibi. Ancak bir metni Almancadan Fransızcaya çevirmek istediğinizde program ilk önce İngilizce üzerinden dönüş yapıyor. Ancak aracın diğer dillere de daha iyi hakim olması muhtemelen sadece zaman meselesi olacaktır.
Sesi bile taklit ediliyor
Yayın hizmeti, Spotify’ın gelecekte aracı tam olarak nasıl kullanmayı ve entegre etmeyi planladığını henüz açıklamadı ve yeni işlevin çıkış tarihi de hala belirsiz.
Ancak uzun vadede podcast yapımcılarının tek tuşla programlarını başka dillere çevirebilmeleri de düşünülebilir. Dinleyicilere, konumlarına bağlı olarak, ilgili podcast’in doğru dil versiyonunun gösterilmesi de mümkün olacaktır.
Özellikle umut verici olan şey, programların yalnızca mekanik robot sesleriyle değil, ilgili sunum yapan kişinin sesiyle çevrilmesidir. OpenAI’nin yeni bir geliştirmesi de şunu sağlıyor: ilgili dil dosyası yalnızca yazıya dökülmüyor ve çevrilmiyor. Dolgu sözcükleri veya duraklamalar gibi özel özellikler de dahil olmak üzere ses tonları da taklit edilir.
Diğer şirketler de yapay zeka çevirmenleri geliştiriyor
Bunların hepsi oldukça fütüristik görünse de Spotify, bu tür işlevleri deneyen ilk sağlayıcı olmaktan çok uzak. Son haftalarda HeyGen platformundan videolar sosyal ağlarda sıklıkla paylaşılıyor. Burada iki dakikaya kadar video klip yükleyip yapay zeka kullanarak farklı dillere tercüme ettirmek mümkün.
Teknoloji, Spotify’ın planlarından biraz daha etkileyici: Çeviri sırasında yalnızca konuşmacının sesi taklit edilmiyor; görüntü ve dudak hareketleri de sanki dinleyicilerle başka bir dilde konuşuyormuşsunuz gibi görünecek şekilde ayarlanıyor.
Sonuçlar şaşırtıcı ve sosyal ağlardaki heyecan nedeniyle Kaliforniyalı yapay zeka sağlayıcısının web sitesi yakın zamanda birkaç kez durma noktasına geldi.
Dünya çapında Youtube videoları
Teknoloji devi Google’a ait video platformu YouTube da bu tür çeviri çözümleri üzerinde çalışıyor. Platform, birkaç hafta önce video yapımcılarına uzun vadede yeni yapay zeka araçları sağlayacağını duyurmuştu. O zaman sistemin şu şekilde çalışması gerekiyor: Yapay zeka öncelikle bir YouTube videosunda söylenenleri dinliyor ve bunu bir belgeye dönüştürüyor. Bu zaten altyazılarla çalışıyor. Video yapımcıları daha sonra çevrilmiş metni yeniden okuyabilir ve düzeltebilir.
Her şey yolundaysa yapay zeka metni çevirir ve video için dublaj sesi oluşturur. Bu aynı zamanda farklı dillerde de çalışır; orijinal videoda müzik çalıyor olsa veya başka rahatsız edici sesler duyulsa bile. İzleyiciler daha sonra video oynatıcıdaki aracı kullanarak çeviri sürümünü seçebilir. İşlev şu anda seçilmiş birkaç YouTuber ile test ediliyor. Böyle bir çeviri Amoeba Sisters tarafından hazırlanan bir videoya entegre edildi.
Bu durumda Google’ın Aloud adlı kendi teknolojisi kullanılıyor. Yapay zeka şirketi ilk olarak 2022’nin başında Google’ın sürekli olarak heyecan verici teknolojik gelişmeler üreten teknoloji şirketi için bir tür laboratuvar olan “Area 120” projesinin bir parçası olarak tanıtıldı. İlgilenen YouTuber’lar bekleme listesine alınabilir.
Google aynı zamanda özel kullanıma yönelik çeviri işlevleri üzerinde de çalışıyor. Audio-Palm, gelecekte seyahat ederken kullanıcılara yardımcı olmayı amaçlıyor ve konuşulan kelimeleri birkaç saniye içinde çeviriyor. Bu işlev henüz özel kullanıcılar tarafından kullanılamamaktadır. Bu özelliğin gelecekte Google Çevirmen’e de girmesi düşünülebilir.
Youtuber şimdiden heyecanlı
Tüm yapay zeka gelişmelerinde olduğu gibi, bir kez daha büyük bir soru ortaya çıkıyor: Yeni teknoloji tüm endüstrileri değiştirecek özelliklere sahip mi?
Bu düşünülebilir. Bazı insanlar şimdiden seslendirme sanatçılarının gelecekte işe yaramaz hale gelebileceğinden korkuyor; İngilizce filmler daha sonra yapay zeka kullanılarak kolayca Almancaya çevrilebilir. Bu arada, yaratıcı sahnenin diğer kısımları şimdiden seviniyor.
YouTube’da bir milyondan fazla abonesi olan YouTuber Dave Henrichs, yakın zamanda meslektaşı Tim Gabel’in podcast’inde övgüler yağdırdı: YouTube’da yapay zeka çevirisi kullanıma sunulursa, “İspanya pazarının tamamı sonunda tüm Almanlara, Türk pazarının tamamına açılacak. Fransız, İtalyan pazarı. Aynı şey tam tersi için de geçerlidir.”
Henrichs şöyle devam etti: “Bu, beklediğim bir araç. Çünkü içeriğim 80 milyon kişi yerine 7 milyar kişi tarafından görüntülenebiliyor ve anlaşılabiliyor.” Bu mantığa göre, Spotify’ın podcast işlevi aynı zamanda tüm sektörleri değiştirme potansiyeline sahip ve yaratıcılara yeni satış fırsatları sunacak.
Yapay zekanın da duyguları olabilir mi?
Gerçekten bu kadar basit olup olmadığı başka bir konudur. Çünkü aşılması gereken ve yapay zekanın bile çözemediği bazı engeller mutlaka vardır. Spotify veya YouTube’daki pek çok Alman programı tematik veya kültürel olarak Alman pazarına yöneliktir – bu diğer ülkelerde de farklı olmamalıdır. Lanz ve Precht’in Annalena Baerbock hakkında konuşması veya Böhmermann ve Schulz’un klasik Alman tatlıları hakkında konuşması veya Helene Fischer hakkında konuşması bir ABD vatandaşının gerçekten ilgilenip ilgilenmeyeceğini zaman gösterecek.
Öte yandan yapay zeka araçlarının ilgili yapımların duygusunu gerçekte ne kadar iyi aktarabileceği henüz tam olarak belli değil. Yapay zeka her ne kadar insanları taklit edebilse de sonuçta yine de yapay kalıyor. Çeviri araçları ironiyi anlayıp bunu bu şekilde sunabilecek mi? Gerçekten orijinal dilde olduğu gibi duyguları, can alıcı noktaları ve retorik hileleri tasvir edebilecekler mi?
Spotify podcast’lerinden ses örneklerini dinlerseniz, en azından bu noktada bundan şüphe duyabilirsiniz. Her ne kadar İngilizce orijinali İspanyolcaya oldukça doğru bir şekilde çevrilmiş gibi görünse de, gösterinin açılış jeneriği sırasında yüksek sesli fon müziği çaldığında bile işe yarıyor. Ancak yapay zeka versiyonu hiçbir şekilde İspanyolca konuşan iki kişinin birbiriyle konuştuğu hissini vermiyor.
İspanyolca dili, İngilizce veya Almanca’dan çok daha coşkulu, daha hızlı ve daha duygusaldır. Örnek podcast’te ayrıca, hemen teknik manipülasyonu akla getiren ve yayının insan unsurunu ortadan kaldıran oldukça doğal olmayan duraklamalar da duyabilirsiniz.
Podcast’ler özgünlükle gelişir
Yeni araçlar kesinlikle izleyiciler ve dinleyiciler için tamamen yeni olanaklar açacak. Birdenbire, daha önce dil engeli nedeniyle imkansız olan videolar ve podcast’ler yoluyla bilgi emilebiliyor. Belki yapay zeka da bu ürünler aracılığıyla dünyanın birbirine biraz daha yakınlaşmasını sağlayacak.
Ancak: Podcast’ler ve YouTube videoları yalnızca bilgiyle değil, aynı zamanda kahramanlarının kişiliği, eğlence değeri ve özgünlüğüyle de gelişir. Bu aynı zamanda profesyonel dublajlı filmler için de geçerli olmalıdır.
Sonuç ne kadar profesyonel olursa olsun, teknoloji müdahale edip ürünü insanlıktan çıkardığında tüm bu değerler oldukça hızlı bir şekilde buharlaşır. Yapay zeka tarafından üretilen bu tür ürünlerin gerçekten sadık bir dinleyici veya izleyici tabanı oluşturup oluşturamayacağı henüz bilinmiyor.