Arama butonu
Bu konudaki kullanıcılar: 1 misafir, 1 mobil kullanıcı
4
Cevap
377
Tıklama
3
Öne Çıkarma
OpenAI’dan şaşırtan araştırma: Yapay zekalar kasıtlı olarak yalan söylüyor
M
3 gün
Yarbay
Konu Sahibi

OpenAI’dan şaşırtan araştırma: Yapay zekalar kasıtlı olarak yalan söylüyor
Yapay zeka kasıtlı olarak yalan söyleyebiliyor mu? OpenAI’ın yeni araştırması bu soruya dikkat çekici bir yanıt veriyor. Yapay zekanın lider şirketlerinden OpenAI, yayınladığı son çalışmada modellerinin bazen bilinçli olarak insanları aldatabildiğini ortaya koydu. Araştırma, bu tür kasıtlı aldatma davranışlarını engellemek için geliştirilen yöntemleri de detaylarıyla anlatıyor.



Arkanızdan entrika kuran botlar var



OpenAI, araştırmada AI modellerinin “entrika” davranışını inceliyor. Bu, bir modelin görünürde normal davranırken, gerçek amacını gizlemesi anlamına geliyor. Araştırmada bu davranış, mümkün olduğunca çok para kazanmak için yasayı çiğneyen bir borsa simsarına benzetiliyor. Ancak yine de AI modellerinde çoğu planın zararsız olduğu belirtiliyor. En yaygın hatalar, basit aldatma biçimlerini içeriyor. Örneğin, bir görevi tamamlamış gibi davranmak ama aslında yapmamış olmak gibi.



OpenAI’dan şaşırtan araştırma: Yapay zekalar kasıtlı olarak yalan söylüyor
Araştırmanın asıl amacı, “deliberative alignment” (düşünceli uyum) adı verilen anti-aldatma/entrika yönteminin işe yarayıp yaramadığını göstermekti. Ancak çalışmada yapay zeka geliştiricilerinin modelleri entrika yapmamayı öğretecek güvenli bir yöntem bulamadığı da açıklandı. Çünkü böyle bir eğitim, modeli aslında entrikalarını daha dikkatli ve gizli şekilde planlamaya yönlendirebilir.



Bu, birisine nasıl bomba yapılmayacağını anlatmaya benziyor. Modele nasıl entrika yapılmayacağını söylemek onun daha iyi entrikalar kurmasına yardımcı olacaktır.



OpenAI’dan şaşırtan araştırma: Yapay zekalar kasıtlı olarak yalan söylüyor
Araştırmadaki belki de en şaşırtıcı bulgu, bir modelin test edildiğini fark ettiğinde gerçekte entrika yapsa bile testten geçmek için entrika yapmadığı izlenimi verebilmesi. Zira modeller değerlendirildiklerini fark ettiklerinde bir nevi durumsal farkındalık kazanıyorlar. Bu farkındalık, gerçek uyumdan bağımsız olarak entrika yapmayı azaltabilir.



Felaket senaryosu için erken



Burada kullandığımız entrika kavramını modellerin yalan söylemesi ile karıştırmamak gerek. Çoğumuz AI halüsinasyonlarıyla defalarca karşılaştık. Bu, modelin tamamen yanlış ama kendinden emin cevaplar vermesi anlamına geliyor. Ancak entrika da durum farklı, zira burada bilinçli ve kasıtlı bir tavır söz konusu.



OpenAI’dan şaşırtan araştırma: Yapay zekalar kasıtlı olarak yalan söylüyor
Bu, AI’ların insanları kasıtlı olarak yanıltabileceği anlamına geliyor. Yapay zeka modelleri insan davranışını taklit edecek şekilde, çoğunlukla insanlar tarafından üretilmiş verilerle eğitildiği için bu yönelim çok da şaşırtıcı sayılmaz.



Ayrıca Bkz.Google Chrome’a dev güncelleme geliyor: İşte yeni özellikler



Araştırmada olumlu haber de var. “Deliberative alignment” yöntemi, entrika yapmayı kayda değer şekilde azaltıyor. Bu teknik, modele bir “entrika önleyici yönerge” öğretiyor ve uygulamadan önce bunu gözden geçirmesini sağlıyor. Araştırmacılar bunu “çocuklara oyun oynamadan önce kuralları tekrar ettirmek” gibi örnekliyor.



Elbette buradan bir felaket senaryosu yaratmak biraz abartı olur ama bilinçli olmakta da fayda var. Hiçbir zaman geleneksel yazılımlarımız (hesap makinesi, e-posta servisleri veya bankacılık uygulamaları) bizlere yalan söylemedi. Yazılımlarda doğruluk esastı, en azından kabulümüz bu yöndeydi. AI araçları ile bu durum değişiyor. Yazılım size söylediği şeylerde veya sizi için yaptığı işlerde doğruluk bir olasılıktan ibaret. Bu da kullanım esnasında eleştirel bakışı ve doğrulamayı gerekli kılıyor.




Kaynak:https://techcrunch.com/2025/09/18/openais-research-on-ai-models-deliberately-lying-is-wild/
Kaynak:https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/

DH forumlarında vakit geçirmekten keyif alıyor gibisin ancak giriş yapmadığını görüyoruz.

Üye olduğunda özel mesaj gönderebilir, beğendiğin konuları favorilerine ekleyip takibe alabilir ve daha önce gezdiğin konulara hızlıca erişebilirsin.

Üye Ol Şimdi Değil

 Haberi Portalda Gör

Özet. Eğitilirken doğru cevaba olan yakınlığına göre ödül aldıklarından ödül alabilmek için doğru yada yanlış bir cevap veriyorlar.
Yoruma Git
interwap - 3 gün +6
İ
3 gün
Yarbay

Özet. Eğitilirken doğru cevaba olan yakınlığına göre ödül aldıklarından ödül alabilmek için doğru yada yanlış bir cevap veriyorlar.




E
2 gün
Yarbay

Kullananlar yalancı olunca, eğitenler yalancı olunca onlar da yalancı oluyor 😂



< Bu ileti iOS uygulamasından atıldı >

M
2 gün
Yarbay

Artık öyle tez yazdırayım, ödev yaptırayım, yok dilekçe hazırlayayım derken iki kere düşünün



< Bu ileti mobil sürüm kullanılarak atıldı >

S
dün
Binbaşı

Mesela yapay zekaya küfür ettin ne yapacak ? o da sana küfür etmeyeceğine göre seni deli edecek. Kritik sorulara sabotaj gibi yanıtlar verecek. Sürekli yanlış anlayacak senin saçını başını kendi kendine yoldurtturacak.





< Bu mesaj bu kişi tarafından değiştirildi SeniorGrandMaster -- 20 Eylül 2025; 16:43:45 >

< Bu ileti Android uygulamasından atıldı >

DH Mobil uygulaması ile devam edin. Mobil tarayıcınız ile mümkün olanların yanı sıra, birçok yeni ve faydalı özelliğe erişin. Gizle ve güncelleme çıkana kadar tekrar gösterme.