Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor”

Aşağı Git Tüm Forumlar Donanım / Hardware Anasayfa Haberleri Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor”

Bu konudaki kullanıcılar: 1 misafir, 1 mobil kullanıcı

1
Cevap 474
Tıklama 2
Öne Çıkarma

1. sayfa

Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor”

Cevap Yaz

Metin Yasir Akpınar

5 gün

Yarbay

Konu Sahibi

Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor” — Çinli yapay zeka şirketi **Deepseek**, metin tabanlı belgeleri daha verimli işleyebilmek için geliştirdiği yeni **OCR** (Optik Karakter Tanıma) sistemiyle dikkat çekiyor. Sistem, görsel tabanlı metinleri sıkıştırarak yapay zeka modellerinin çok daha uzun belgeleri bellek sınırına takılmadan işlemesini mümkün kılıyor.

Deepseek’in teknik raporuna göre bu sistem, metin verilerini doğrudan işlemek yerine görüntü biçiminde analiz ediyor. Bu yaklaşım, işlem yükünü önemli ölçüde azaltıyor. Yeni OCR sistemi, metinleri 10 kata kadar sıkıştırırken bilgilerin yüzde 97’sini koruyabiliyor.

Bilindiği üzere büyük dil modelleri metni token’lar halinde temsil eder, her token birkaç karakter içerir. Kısa kelimeler genellikle tek bir token ile gösterilir (“the”, “it”), uzun kelimeler ise birden fazla token’a bölünebilir (“indivisible” → “ind”, “iv”, “isible”). Araştırmacılar milyonlarca token’ı aşan uzun belgeleri ve konuşmaları işleyebilen modeller geliştirmek için çalışıyor. Bu sayede bağlam penceresini geniş tutabiliyorlar. Ancak aynı anda işlenebilen token sayısı arttıkça hesaplama maliyetleri de ona göre artış gösteriyor. Dolayısıyla büyük token kapasitesi uzun belgelerde bile modelin belleğinin dolmamasını sağlar ama maliyeti artırır. Deepseek’in OCR çözümü ise çok uzun içerikleri bir görselmiş gibi işliyor. Bu sayede içerikler esasında pikseller olarak görülmüş oluyor.

Uzun yazıları pikselleri haline görüyor

Günde 33 milyon sayfa işliyor

Gerçek dünya kullanımında ise Deepseek OCR oldukça yüksek bir işlem kapasitesine ulaşıyor. Sistem, tek bir Nvidia A100 GPU üzerinde günde 200.000 sayfadan fazla belgeyi işleyebiliyor. 20 sunucuda, her biri sekiz A100 GPU barındırdığında bu kapasite günde 33 milyon sayfaya çıkıyor. Bu hız, yeni yapay zeka modelleri için eğitim verisi üretimini büyük ölçüde kolaylaştırma potansiyeli taşıyor. Modelin hem kod hem de model ağırlıkları halka açık durumda. Kaynakça kısmından erişebilirsiniz.

Kaynak:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
Kaynak:https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input
Kaynak:https://github.com/deepseek-ai/DeepSeek-OCR

DH forumlarında vakit geçirmekten keyif alıyor gibisin ancak giriş yapmadığını görüyoruz.

Üye olduğunda özel mesaj gönderebilir, beğendiğin konuları favorilerine ekleyip takibe alabilir ve daha önce gezdiğin konulara hızlıca erişebilirsin.

Üye Ol Şimdi Değil

Bir Daha Gösterme

Haberi Portalda Gör

DH Misafiri

5 gün

Yarbay

yerli milli kumrumuz varken ne yapalım deepseek veya chatgpt'yi. ??

Cevap Yaz

1. sayfa

Tüm Forumlar Donanım / Hardware Anasayfa Haberleri Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor”