Meta, ses işlemede devrim yaratan SAM Audio modelini tanıttı

Aşağı Git Tüm Forumlar Donanım / Hardware Anasayfa Haberleri Meta, ses işlemede devrim yaratan SAM Audio modelini tanıttı

Bu konudaki kullanıcılar: 1 misafir, 1 mobil kullanıcı

4
Cevap 352
Tıklama 6
Öne Çıkarma

1. sayfa

Meta, ses işlemede devrim yaratan SAM Audio modelini tanıttı

Cevap Yaz

Metin Yasir Akpınar

3 gün (11071 mesaj)

Yarbay

Konu Sahibi

Meta, ses işlemede devrim yaratan SAM Audio modelini tanıttı — **Meta**, ses işleme alanında çığır açacak yeni bir model olan **SAM Audio**’yu tanıttı. Görsel dünyada Segment Anything Model (SAM) ile öne çıkan Meta, şimdi benzer bir yaklaşımı ses dünyasına taşıyor. SAM Audio, karmaşık ses karışımlarından herhangi bir sesi izole etmeyi çok modlu girdilerle mümkün kılıyor. Bu yöntem, insanların sesi algılama biçimini taklit ederek ses ayrıştırmayı hem daha erişilebilir hem de kullanışlı hale getiriyor.

Ses düzenlemede yeni dönem

Modelin merkezinde yer alan Perception Encoder Audiovisual (PE-AV), SAM Audio’nun gelişmiş performansını sağlayan teknik motor olarak öne çıkıyor. Daha önce açık kaynak olarak paylaşılan modelin geliştirilmiş versiyonu olan PE-AV, görsel ve işitsel verileri zaman ekseninde hizalayarak yüksek doğrulukta çok modlu ses ayrıştırmayı mümkün kılıyor. Bu sayede ekrandaki konuşmacılar veya enstrümanlar gibi görsel olarak belirgin kaynaklar kolayca izole edilebiliyor, hatta sahne bağlamına göre ekran dışındaki olaylar da tahmin edilebiliyor.

Detaylarda neler var?

Modelin mimarisi, akış eşleştirme difüzyon dönüştürücüsü üzerine inşa edilmiş bir üretken modelleme çerçevesi üzerine kurulmuş bir üretici çerçeve kullanıyor. Bu yapı, ses karışımını ve girdileri ortak bir temsil alanına kodlayarak hedef ve kalan ses parçalarını oluşturuyor. Eğitim verisi, konuşma, müzik ve genel ses olaylarını kapsayan hem gerçek hem de sentetik karışımlardan oluşuyor. Gelişmiş veri sentezi ve otomatik çok modlu ipucu üretimi ile modelin gerçek dünyada yüksek performans göstermesi sağlanıyor.

Ayrıca Bkz.Güney Kore, yapay zeka düzenlemelerini fiilen uygulayan ilk ülke olacak

Ancak SAM Audio’nun yetenekleri beraberinde bazı güvenlik kaygılarını da getiriyor. Model, kullanıcı taleplerine göre belirli sesleri izole edebildiği için, potansiyel olarak halka açık kayıtlardaki konuşmaları ayırmak ve dinlemek gibi kötüye kullanım senaryoları gündeme gelebiliyor.

Modeli buradan deneyebilir veya buradan indirebilirsiniz.

http://www.youtube.com/watch?v=gPj_cQL_wvg

Kaynak:https://ai.meta.com/blog/sam-audio/

Haberi Portalda Gör