Massachusetts Teknoloji Enstitüsünde (MIT) geliştirilen DenseAV, multimedya arama, dil öğrenme ve robot bilimindeki potansiyel uygulamalarla yalnızca konuşan insanların videolarını izleyerek dilin anlamını ayrıştırmayı ve anlamayı öğreniyor.
Bu yeni algoritma hayvanlar arasındaki iletişimi çözebilir
Elektrik mühendisliği ve bilgisayar bilimleri alanında doktora öğrencisi olan Mark Hamilton, bu projeyi MIT'nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı'ndaki meslektaşlarıyla birlikte yönetiyor. İnsan dili ediniminden başlayarak hayvan iletişimini çözmek için makinelerden yararlanmayı amaçlıyorlar.
Bu yeni algoritmanın ilham kaynağı ise bir film. Bir sahnesinde penguen yere düşüyor ve kalkmaya çalışırken inliyor. Hamilton, bu iniltinin bir kelimeyi ima ediyor gibi göründüğünü gözlemleyerek ses ve videonun bir algoritmaya dil öğretmek için birlikte kullanılabileceği fikrini düşünüyor.
Bu fikir, görsel içeriği sesten tahmin ederek dili öğrenmek için tasarlanmış bir model olan DenseAV'ın ortaya çıkmasına yol açtı. Örneğin, "pastayı 350'de pişir" ifadesini duymak modelin bir pasta veya fırın görseli beklemesine neden olacaktır.
Ancak milyonlarca video arasında ses-görüntü eşleşmesini mümkün kılmak için DenseAV'ın insanların tartıştığı bağlamı öğrenmesi gerekiyor. Araştırma ekibi, DenseAV'ı bu eşleştirme görevi konusunda eğittikten sonra modelin sesleri işlerken hangi piksellere odaklandığını inceledi.
"Köpek" kelimesi söylendiğinde algoritma, video akışında köpek görsellerini aradı ve bu da kelimenin anlamını anladığını gösterdi. Benzer şekilde bir köpeğin havlamasını duyduğunda videodaki köpekleri aradı.
Ekip, DenseAV'ın "köpek" kelimesi ile köpek havlaması sesi arasında ayrım yapıp yapamayacağını merak ediyordu. DenseAV'a çift beyinli bir yaklaşım uygulayarak, bir tarafın doğal olarak "köpek" kelimesi gibi dile odaklandığını, diğer tarafın ise havlama gibi seslere odaklandığını keşfettiler.
Ekip, önceden eğitilmiş dil modellerini kullanmadan dilin özünü sıfırdan yeniden keşfetmeyi hedeflediğinden, metin girişi olmadan dil öğrenme konusunda zorlu bir görevle karşı karşıya kaldı. Bu yöntem, çocukların çevrelerini gözlemleyerek ve dinleyerek dili nasıl öğrendiklerinden ilham almaktadır.
Bu yeni algoritma hayvanlar arasındaki iletişimi çözebilir
Elektrik mühendisliği ve bilgisayar bilimleri alanında doktora öğrencisi olan Mark Hamilton, bu projeyi MIT'nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı'ndaki meslektaşlarıyla birlikte yönetiyor. İnsan dili ediniminden başlayarak hayvan iletişimini çözmek için makinelerden yararlanmayı amaçlıyorlar.
Bu yeni algoritmanın ilham kaynağı ise bir film. Bir sahnesinde penguen yere düşüyor ve kalkmaya çalışırken inliyor. Hamilton, bu iniltinin bir kelimeyi ima ediyor gibi göründüğünü gözlemleyerek ses ve videonun bir algoritmaya dil öğretmek için birlikte kullanılabileceği fikrini düşünüyor.
Ayrıca Bkz.YouTube, yapay zeka özetleyicisini Shorts'ta deniyor
Bu fikir, görsel içeriği sesten tahmin ederek dili öğrenmek için tasarlanmış bir model olan DenseAV'ın ortaya çıkmasına yol açtı. Örneğin, "pastayı 350'de pişir" ifadesini duymak modelin bir pasta veya fırın görseli beklemesine neden olacaktır.
Ancak milyonlarca video arasında ses-görüntü eşleşmesini mümkün kılmak için DenseAV'ın insanların tartıştığı bağlamı öğrenmesi gerekiyor. Araştırma ekibi, DenseAV'ı bu eşleştirme görevi konusunda eğittikten sonra modelin sesleri işlerken hangi piksellere odaklandığını inceledi.
"Köpek" kelimesi söylendiğinde algoritma, video akışında köpek görsellerini aradı ve bu da kelimenin anlamını anladığını gösterdi. Benzer şekilde bir köpeğin havlamasını duyduğunda videodaki köpekleri aradı.
[youtube=https://www.youtube.com/watch?v=WaAaz49H-VU&t=4s]
Ekip, DenseAV'ın "köpek" kelimesi ile köpek havlaması sesi arasında ayrım yapıp yapamayacağını merak ediyordu. DenseAV'a çift beyinli bir yaklaşım uygulayarak, bir tarafın doğal olarak "köpek" kelimesi gibi dile odaklandığını, diğer tarafın ise havlama gibi seslere odaklandığını keşfettiler.
Ekip, önceden eğitilmiş dil modellerini kullanmadan dilin özünü sıfırdan yeniden keşfetmeyi hedeflediğinden, metin girişi olmadan dil öğrenme konusunda zorlu bir görevle karşı karşıya kaldı. Bu yöntem, çocukların çevrelerini gözlemleyerek ve dinleyerek dili nasıl öğrendiklerinden ilham almaktadır.
Kaynak:https://www.techtimes.com/articles/305612/20240612/mit-unveils-new-algorithm-learns-language-watching-videos.htm
Kaynak:https://news.mit.edu/2024/denseav-algorithm-discovers-language-just-watching-videos-0611
Haberi Portalda Gör