Samsung, TRUEBench'i Tanıttı: Gerçek Dünyadaki Yapay Zeka Üretkenliği için Bir Referans Noktası
Kore 25 Eylül 2025
Özel kıyaslama, mevcut AI kıyaslamalarındaki boşlukları ele alarak çok dilli verimlilik senaryolarını destekler
Samsung Electronics bugün, yapay zeka üretkenliğini değerlendirmek için Samsung Research tarafından geliştirilen tescilli bir kıyaslama olan TRUEBench'i (Güvenilir Gerçek Dünya Kullanım Değerlendirme Karşılaştırması) tanıttı.
TRUEBench, büyük dil modellerinin (LLM'ler) gerçek dünyadaki işyeri verimlilik uygulamalarında ne kadar performans gösterdiğini ölçmek için kapsamlı bir ölçüm seti sağlar. Gerçekçi değerlendirme sağlamak için çeşitli diyalog senaryolarını ve çok dilli koşulları içerir.
Samsung'un üretkenlik için şirket içi yapay zeka kullanımından yararlanan TRUEBench, içerik oluşturma, veri analizi, özetleme ve çeviri gibi yaygın olarak kullanılan kurumsal görevleri 10 kategori ve 46 alt kategoride değerlendiriyor. Kıyaslama, hem insanlar hem de yapay zeka tarafından işbirliği içinde tasarlanan ve iyileştirilen kriterlere dayalı yapay zeka destekli otomatik değerlendirme ile güvenilir puanlama sağlar.
Samsung Electronics DX Bölümü CTO'su ve Samsung Araştırma Başkanı Paul (Kyungwhoon) Cheun, "Samsung Research, gerçek dünyadaki yapay zeka deneyimi aracılığıyla derin bir uzmanlık ve rekabet avantajı sağlıyor" dedi. "TRUEBench'in üretkenlik için değerlendirme standartları oluşturmasını ve Samsung'un teknolojik liderliğini sağlamlaştırmasını bekliyoruz."
Son zamanlarda, şirketler görevler için yapay zekayı benimsedikçe, LLM'lerin üretkenliğini ölçmek için artan bir talep var. Bununla birlikte, mevcut kıyaslamalar öncelikle genel performansı ölçer, çoğunlukla İngilizce merkezlidir ve tek turlu soru-cevap yapılarıyla sınırlıdır. Bu, gerçek çalışma ortamlarını yansıtma yeteneklerini kısıtlar.
Bu sınırlamaları gidermek için TRUEBench, 10 kategoride ve 12 dildetoplam 2.485 test setinden oluşur ve aynı zamanda diller arası senaryoları da destekler. Test setleri, yapay zeka modellerinin gerçekte neleri çözebileceğini inceliyor ve Samsung Research, basit isteklerden uzun belge özetlemeye kadar görevleri yansıtan, 8 karakterden 20.000'den fazla karaktere kadar değişen test setleri uyguladı.
Yapay zeka modellerinin performansını değerlendirmek için, yapay zekanın yanıtlarının doğru olup olmadığına karar vermek için net kriterlere sahip olmak önemlidir. Gerçek dünyadaki durumlarda, tüm kullanıcı amaçları talimatlarda açıkça belirtilmeyebilir. TRUEBench, yalnızca cevapların doğruluğunu değil, aynı zamanda kullanıcıların örtülü ihtiyaçlarını karşılayan ayrıntılı koşulları da göz önünde bulundurarak gerçekçi değerlendirme sağlamak üzere tasarlanmıştır.
Samsung Research, insanlar ve yapay zeka arasındaki işbirliği yoluyla değerlendirme öğelerini doğruladı. İlk olarak, insan yorumcular değerlendirme kriterlerini oluşturur ve ardından yapay zeka, hataları, çelişkileri veya gereksiz kısıtlamaları kontrol etmek için bunu inceler. Daha sonra, insan yorumcular kriterleri yeniden hassaslaştırır ve giderek daha kesin değerlendirme standartlarını uygulamak için bu süreci tekrarlar. Bu çapraz doğrulanmış kriterlere dayanarak, yapay zeka modellerinin otomatik değerlendirmesi yapılarak öznel önyargı en aza indirilir ve tutarlılık sağlanır. Ayrıca her test için modelin geçebilmesi için tüm koşulların yerine getirilmesi gerekir. Bu, görevler arasında daha ayrıntılı ve hassas puanlama sağlar.
TRUEBench'in veri örnekleri ve liderlik tabloları, kullanıcıların en fazla beş modeli karşılaştırmasına olanak tanıyan ve bir bakışta kapsamlı yapay zeka modeli performans karşılaştırmalarına olanak tanıyan küresel açık kaynak platformu Hugging Face'te mevcuttur. Ayrıca, yanıt sonuçlarının ortalama uzunluğuna ilişkin veriler de yayınlanarak hem performansın hem de verimliliğin eş zamanlı olarak karşılaştırılmasına olanak sağlanır. Detaylı bilgiye adresindeki TRUEBench Hugging Face sayfasından ulaşabilirsiniz.
250916031.0.121.1 https://softwarecenter.qualcomm.com/catalog/item/Windows_Graphics_Driver < Resime gitmek için tıklayın > CHANGELOG This release notes lists changes from the previously released version, v31.0.112.0 Game Stability/Quality Improvements • Coral Island • DIRT 5 • Dota 2 • FINAL FANTASY XV • Ghost Recon Breakpoint • Granblue Fantasy: Relink • Horizon Zero Dawn • Red Dead Redemption 2 • Valheim • World War Z Game Performance Improvements • Alien: Rogue Incursion Evolved Edition • Fortnite App Stability & Performance Improvements • AutoCAD • Adobe Camera Raw (v16.5) Display Fixes • Added support for High Bit Rate 2 (HBR2) mode on DisplayPort 1.1 to account for some hardware on displays. • Implemented a fallback mechanism for reading display information in failure scenarios - Enhances compatibility and reliability with a wider range of displays. • Fixed a bug where displays were connected via a Digital Flat Panel (DFP) port, to account for maximum pixel rate. This ensures only supported display modes are selected, improving stability and preventing display issues due to unsupported configurations. Changes Targeting Software Developers • Added OpenCL support for the cl_khr_external_semaphore_dx_fence extension.
Kore 25 Eylül 2025
Samsung Electronics bugün, yapay zeka üretkenliğini değerlendirmek için Samsung Research tarafından geliştirilen tescilli bir kıyaslama olan TRUEBench'i (Güvenilir Gerçek Dünya Kullanım Değerlendirme Karşılaştırması) tanıttı.
TRUEBench, büyük dil modellerinin (LLM'ler) gerçek dünyadaki işyeri verimlilik uygulamalarında ne kadar performans gösterdiğini ölçmek için kapsamlı bir ölçüm seti sağlar. Gerçekçi değerlendirme sağlamak için çeşitli diyalog senaryolarını ve çok dilli koşulları içerir.
Samsung'un üretkenlik için şirket içi yapay zeka kullanımından yararlanan TRUEBench, içerik oluşturma, veri analizi, özetleme ve çeviri gibi yaygın olarak kullanılan kurumsal görevleri 10 kategori ve 46 alt kategoride değerlendiriyor. Kıyaslama, hem insanlar hem de yapay zeka tarafından işbirliği içinde tasarlanan ve iyileştirilen kriterlere dayalı yapay zeka destekli otomatik değerlendirme ile güvenilir puanlama sağlar.
Samsung Electronics DX Bölümü CTO'su ve Samsung Araştırma Başkanı Paul (Kyungwhoon) Cheun, "Samsung Research, gerçek dünyadaki yapay zeka deneyimi aracılığıyla derin bir uzmanlık ve rekabet avantajı sağlıyor" dedi. "TRUEBench'in üretkenlik için değerlendirme standartları oluşturmasını ve Samsung'un teknolojik liderliğini sağlamlaştırmasını bekliyoruz."
Son zamanlarda, şirketler görevler için yapay zekayı benimsedikçe, LLM'lerin üretkenliğini ölçmek için artan bir talep var. Bununla birlikte, mevcut kıyaslamalar öncelikle genel performansı ölçer, çoğunlukla İngilizce merkezlidir ve tek turlu soru-cevap yapılarıyla sınırlıdır. Bu, gerçek çalışma ortamlarını yansıtma yeteneklerini kısıtlar.
Bu sınırlamaları gidermek için TRUEBench, 10 kategoride ve 12 dildetoplam 2.485 test setinden oluşur ve aynı zamanda diller arası senaryoları da destekler. Test setleri, yapay zeka modellerinin gerçekte neleri çözebileceğini inceliyor ve Samsung Research, basit isteklerden uzun belge özetlemeye kadar görevleri yansıtan, 8 karakterden 20.000'den fazla karaktere kadar değişen test setleri uyguladı.
Yapay zeka modellerinin performansını değerlendirmek için, yapay zekanın yanıtlarının doğru olup olmadığına karar vermek için net kriterlere sahip olmak önemlidir. Gerçek dünyadaki durumlarda, tüm kullanıcı amaçları talimatlarda açıkça belirtilmeyebilir. TRUEBench, yalnızca cevapların doğruluğunu değil, aynı zamanda kullanıcıların örtülü ihtiyaçlarını karşılayan ayrıntılı koşulları da göz önünde bulundurarak gerçekçi değerlendirme sağlamak üzere tasarlanmıştır.
Samsung Research, insanlar ve yapay zeka arasındaki işbirliği yoluyla değerlendirme öğelerini doğruladı. İlk olarak, insan yorumcular değerlendirme kriterlerini oluşturur ve ardından yapay zeka, hataları, çelişkileri veya gereksiz kısıtlamaları kontrol etmek için bunu inceler. Daha sonra, insan yorumcular kriterleri yeniden hassaslaştırır ve giderek daha kesin değerlendirme standartlarını uygulamak için bu süreci tekrarlar. Bu çapraz doğrulanmış kriterlere dayanarak, yapay zeka modellerinin otomatik değerlendirmesi yapılarak öznel önyargı en aza indirilir ve tutarlılık sağlanır. Ayrıca her test için modelin geçebilmesi için tüm koşulların yerine getirilmesi gerekir. Bu, görevler arasında daha ayrıntılı ve hassas puanlama sağlar.
TRUEBench'in veri örnekleri ve liderlik tabloları, kullanıcıların en fazla beş modeli karşılaştırmasına olanak tanıyan ve bir bakışta kapsamlı yapay zeka modeli performans karşılaştırmalarına olanak tanıyan küresel açık kaynak platformu Hugging Face'te mevcuttur. Ayrıca, yanıt sonuçlarının ortalama uzunluğuna ilişkin veriler de yayınlanarak hem performansın hem de verimliliğin eş zamanlı olarak karşılaştırılmasına olanak sağlanır. Detaylı bilgiye adresindeki TRUEBench Hugging Face sayfasından ulaşabilirsiniz.
https://huggingface.co/spaces/SamsungResearch/TRUEBench
https://softwarecenter.qualcomm.com/catalog/item/Windows_Graphics_Driver
< Resime gitmek için tıklayın >
CHANGELOG
This release notes lists changes from the previously released version, v31.0.112.0
Game Stability/Quality Improvements
• Coral Island
• DIRT 5
• Dota 2
• FINAL FANTASY XV
• Ghost Recon Breakpoint
• Granblue Fantasy: Relink
• Horizon Zero Dawn
• Red Dead Redemption 2
• Valheim
• World War Z
Game Performance Improvements
• Alien: Rogue Incursion Evolved Edition
• Fortnite
App Stability & Performance Improvements
• AutoCAD
• Adobe Camera Raw (v16.5)
Display Fixes
• Added support for High Bit Rate 2 (HBR2) mode on DisplayPort 1.1 to account for some
hardware on displays.
• Implemented a fallback mechanism for reading display information in failure scenarios -
Enhances compatibility and reliability with a wider range of displays.
• Fixed a bug where displays were connected via a Digital Flat Panel (DFP) port, to account for
maximum pixel rate. This ensures only supported display modes are selected, improving
stability and preventing display issues due to unsupported configurations.
Changes Targeting Software Developers
• Added OpenCL support for the cl_khr_external_semaphore_dx_fence extension.