Yapay zeka kasıtlı olarak yalan söyleyebiliyor mu? OpenAI’ın yeni araştırması bu soruya dikkat çekici bir yanıt veriyor. Yapay zekanın lider şirketlerinden OpenAI, yayınladığı son çalışmada modellerinin bazen bilinçli olarak insanları aldatabildiğini ortaya koydu. Araştırma, bu tür kasıtlı aldatma davranışlarını engellemek için geliştirilen yöntemleri de detaylarıyla anlatıyor.
Arkanızdan entrika kuran botlar var
OpenAI, araştırmada AI modellerinin “entrika” davranışını inceliyor. Bu, bir modelin görünürde normal davranırken, gerçek amacını gizlemesi anlamına geliyor. Araştırmada bu davranış, mümkün olduğunca çok para kazanmak için yasayı çiğneyen bir borsa simsarına benzetiliyor. Ancak yine de AI modellerinde çoğu planın zararsız olduğu belirtiliyor. En yaygın hatalar, basit aldatma biçimlerini içeriyor. Örneğin, bir görevi tamamlamış gibi davranmak ama aslında yapmamış olmak gibi.
Araştırmanın asıl amacı, “deliberative alignment” (düşünceli uyum) adı verilen anti-aldatma/entrika yönteminin işe yarayıp yaramadığını göstermekti. Ancak çalışmada yapay zeka geliştiricilerinin modelleri entrika yapmamayı öğretecek güvenli bir yöntem bulamadığı da açıklandı. Çünkü böyle bir eğitim, modeli aslında entrikalarını daha dikkatli ve gizli şekilde planlamaya yönlendirebilir.
Bu, birisine nasıl bomba yapılmayacağını anlatmaya benziyor. Modele nasıl entrika yapılmayacağını söylemek onun daha iyi entrikalar kurmasına yardımcı olacaktır.
Araştırmadaki belki de en şaşırtıcı bulgu, bir modelin test edildiğini fark ettiğinde gerçekte entrika yapsa bile testten geçmek için entrika yapmadığı izlenimi verebilmesi. Zira modeller değerlendirildiklerini fark ettiklerinde bir nevi durumsal farkındalık kazanıyorlar. Bu farkındalık, gerçek uyumdan bağımsız olarak entrika yapmayı azaltabilir.
Felaket senaryosu için erken
Burada kullandığımız entrika kavramını modellerin yalan söylemesi ile karıştırmamak gerek. Çoğumuz AI halüsinasyonlarıyla defalarca karşılaştık. Bu, modelin tamamen yanlış ama kendinden emin cevaplar vermesi anlamına geliyor. Ancak entrika da durum farklı, zira burada bilinçli ve kasıtlı bir tavır söz konusu.
Bu, AI’ların insanları kasıtlı olarak yanıltabileceği anlamına geliyor. Yapay zeka modelleri insan davranışını taklit edecek şekilde, çoğunlukla insanlar tarafından üretilmiş verilerle eğitildiği için bu yönelim çok da şaşırtıcı sayılmaz.
Araştırmada olumlu haber de var. “Deliberative alignment” yöntemi, entrika yapmayı kayda değer şekilde azaltıyor. Bu teknik, modele bir “entrika önleyici yönerge” öğretiyor ve uygulamadan önce bunu gözden geçirmesini sağlıyor. Araştırmacılar bunu “çocuklara oyun oynamadan önce kuralları tekrar ettirmek” gibi örnekliyor.
Elbette buradan bir felaket senaryosu yaratmak biraz abartı olur ama bilinçli olmakta da fayda var. Hiçbir zaman geleneksel yazılımlarımız (hesap makinesi, e-posta servisleri veya bankacılık uygulamaları) bizlere yalan söylemedi. Yazılımlarda doğruluk esastı, en azından kabulümüz bu yöndeydi. AI araçları ile bu durum değişiyor. Yazılım size söylediği şeylerde veya sizi için yaptığı işlerde doğruluk bir olasılıktan ibaret. Bu da kullanım esnasında eleştirel bakışı ve doğrulamayı gerekli kılıyor.
Mesela yapay zekaya küfür ettin ne yapacak ? o da sana küfür etmeyeceğine göre seni deli edecek. Kritik sorulara sabotaj gibi yanıtlar verecek. Sürekli yanlış anlayacak senin saçını başını kendi kendine yoldurtturacak.
< Bu mesaj bu kişi tarafından değiştirildi SeniorGrandMaster -- 20 Eylül 2025; 16:43:45 >
Arkanızdan entrika kuran botlar var
OpenAI, araştırmada AI modellerinin “entrika” davranışını inceliyor. Bu, bir modelin görünürde normal davranırken, gerçek amacını gizlemesi anlamına geliyor. Araştırmada bu davranış, mümkün olduğunca çok para kazanmak için yasayı çiğneyen bir borsa simsarına benzetiliyor. Ancak yine de AI modellerinde çoğu planın zararsız olduğu belirtiliyor. En yaygın hatalar, basit aldatma biçimlerini içeriyor. Örneğin, bir görevi tamamlamış gibi davranmak ama aslında yapmamış olmak gibi.
Bu, birisine nasıl bomba yapılmayacağını anlatmaya benziyor. Modele nasıl entrika yapılmayacağını söylemek onun daha iyi entrikalar kurmasına yardımcı olacaktır.
Felaket senaryosu için erken
Burada kullandığımız entrika kavramını modellerin yalan söylemesi ile karıştırmamak gerek. Çoğumuz AI halüsinasyonlarıyla defalarca karşılaştık. Bu, modelin tamamen yanlış ama kendinden emin cevaplar vermesi anlamına geliyor. Ancak entrika da durum farklı, zira burada bilinçli ve kasıtlı bir tavır söz konusu.
Ayrıca Bkz.Google Chrome’a dev güncelleme geliyor: İşte yeni özellikler
Araştırmada olumlu haber de var. “Deliberative alignment” yöntemi, entrika yapmayı kayda değer şekilde azaltıyor. Bu teknik, modele bir “entrika önleyici yönerge” öğretiyor ve uygulamadan önce bunu gözden geçirmesini sağlıyor. Araştırmacılar bunu “çocuklara oyun oynamadan önce kuralları tekrar ettirmek” gibi örnekliyor.
Elbette buradan bir felaket senaryosu yaratmak biraz abartı olur ama bilinçli olmakta da fayda var. Hiçbir zaman geleneksel yazılımlarımız (hesap makinesi, e-posta servisleri veya bankacılık uygulamaları) bizlere yalan söylemedi. Yazılımlarda doğruluk esastı, en azından kabulümüz bu yöndeydi. AI araçları ile bu durum değişiyor. Yazılım size söylediği şeylerde veya sizi için yaptığı işlerde doğruluk bir olasılıktan ibaret. Bu da kullanım esnasında eleştirel bakışı ve doğrulamayı gerekli kılıyor.
Kaynak:https://techcrunch.com/2025/09/18/openais-research-on-ai-models-deliberately-lying-is-wild/
Kaynak:https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
DH forumlarında vakit geçirmekten keyif alıyor gibisin ancak giriş yapmadığını görüyoruz.
Üye Ol Şimdi DeğilÜye olduğunda özel mesaj gönderebilir, beğendiğin konuları favorilerine ekleyip takibe alabilir ve daha önce gezdiğin konulara hızlıca erişebilirsin.
Haberi Portalda Gör