Çinli yapay zeka şirketi Deepseek, metin tabanlı belgeleri daha verimli işleyebilmek için geliştirdiği yeni OCR (Optik Karakter Tanıma) sistemiyle dikkat çekiyor. Sistem, görsel tabanlı metinleri sıkıştırarak yapay zeka modellerinin çok daha uzun belgeleri bellek sınırına takılmadan işlemesini mümkün kılıyor.
Deepseek’in teknik raporuna göre bu sistem, metin verilerini doğrudan işlemek yerine görüntü biçiminde analiz ediyor. Bu yaklaşım, işlem yükünü önemli ölçüde azaltıyor. Yeni OCR sistemi, metinleri 10 kata kadar sıkıştırırken bilgilerin yüzde 97’sini koruyabiliyor.
Bilindiği üzere büyük dil modelleri metni token’lar halinde temsil eder, her token birkaç karakter içerir. Kısa kelimeler genellikle tek bir token ile gösterilir (“the”, “it”), uzun kelimeler ise birden fazla token’a bölünebilir (“indivisible” → “ind”, “iv”, “isible”). Araştırmacılar milyonlarca token’ı aşan uzun belgeleri ve konuşmaları işleyebilen modeller geliştirmek için çalışıyor. Bu sayede bağlam penceresini geniş tutabiliyorlar. Ancak aynı anda işlenebilen token sayısı arttıkça hesaplama maliyetleri de ona göre artış gösteriyor. Dolayısıyla büyük token kapasitesi uzun belgelerde bile modelin belleğinin dolmamasını sağlar ama maliyeti artırır. Deepseek’in OCR çözümü ise çok uzun içerikleri bir görselmiş gibi işliyor. Bu sayede içerikler esasında pikseller olarak görülmüş oluyor.
Uzun yazıları pikselleri haline görüyor
Sistemin çekirdeğinde iki temel bileşen bulunuyor: DeepEncoder ve Deepseek3B-MoE. Görüntü işleme kısmını üstlenen DeepEncoder, 380 milyon parametreyle çalışıyor. Metin üretiminden sorumlu Deepseek3B-MoE ise 570 milyon aktif parametreye sahip. DeepEncoder, Meta’nın 80 milyon parametreli SAM (Segment Anything Model) sistemini ve OpenAI’ın 300 milyon parametreli CLIP modelini birleştiriyor. Arada yer alan 16x sıkıştırıcı, görüntü verilerini büyük ölçüde azaltarak işlem hızını artırıyor. Örneğin, 1.024 x 1.024 piksel boyutundaki bir görselin 4.096 token’ı, sıkıştırma sonrasında yalnızca 256 token’a indiriliyor.
Deepseek OCR, çözünürlüğe göre 64 ile 400 arasında “vision token” kullanarak çalışabiliyor. Bu sayı, klasik OCR sistemlerinde genellikle binlerce token gerektiren işlemleri oldukça hafif hale getiriyor. OmniDocBench testlerinde sistem, yalnızca 100 vision token kullanarak GOT-OCR 2.0’ı geride bıraktı. Ayrıca 800 token’ın altında çalışırken, MinerU 2.0’ın 6.000’den fazla token gerektiren performansını da aştı.
Farklı belge türlerine göre optimize edilen sistem, basit sunumlarda 64 token, kitap ve raporlarda 100 token, karmaşık gazetelerde ise “Gundam modu” adı verilen özel modla 800 token kullanıyor. Deepseek OCR, yalnızca metinleri değil, diyagramlar, kimyasal formüller ve geometrik şekiller gibi karmaşık görsel unsurları da işleyebiliyor. Ayrıca yaklaşık 100 dilde çalışıyor, biçimlendirmeyi koruyabiliyor ve istenirse düz metin ya da genel görsel açıklaması üretebiliyor.
Günde 33 milyon sayfa işliyor
Sistemin eğitimi için yaklaşık 30 milyon PDF sayfası kullanıldı. Bu verilerin 25 milyonu İngilizce ve Çince belgelerden, geri kalanı ise 10 milyon sentetik diyagram, 5 milyon kimyasal formül ve 1 milyon geometrik şekilden oluşuyor.
Gerçek dünya kullanımında ise Deepseek OCR oldukça yüksek bir işlem kapasitesine ulaşıyor. Sistem, tek bir Nvidia A100 GPU üzerinde günde 200.000 sayfadan fazla belgeyi işleyebiliyor. 20 sunucuda, her biri sekiz A100 GPU barındırdığında bu kapasite günde 33 milyon sayfaya çıkıyor. Bu hız, yeni yapay zeka modelleri için eğitim verisi üretimini büyük ölçüde kolaylaştırma potansiyeli taşıyor. Modelin hem kod hem de model ağırlıkları halka açık durumda. Kaynakça kısmından erişebilirsiniz.
Deepseek’in teknik raporuna göre bu sistem, metin verilerini doğrudan işlemek yerine görüntü biçiminde analiz ediyor. Bu yaklaşım, işlem yükünü önemli ölçüde azaltıyor. Yeni OCR sistemi, metinleri 10 kata kadar sıkıştırırken bilgilerin yüzde 97’sini koruyabiliyor.
Bilindiği üzere büyük dil modelleri metni token’lar halinde temsil eder, her token birkaç karakter içerir. Kısa kelimeler genellikle tek bir token ile gösterilir (“the”, “it”), uzun kelimeler ise birden fazla token’a bölünebilir (“indivisible” → “ind”, “iv”, “isible”). Araştırmacılar milyonlarca token’ı aşan uzun belgeleri ve konuşmaları işleyebilen modeller geliştirmek için çalışıyor. Bu sayede bağlam penceresini geniş tutabiliyorlar. Ancak aynı anda işlenebilen token sayısı arttıkça hesaplama maliyetleri de ona göre artış gösteriyor. Dolayısıyla büyük token kapasitesi uzun belgelerde bile modelin belleğinin dolmamasını sağlar ama maliyeti artırır. Deepseek’in OCR çözümü ise çok uzun içerikleri bir görselmiş gibi işliyor. Bu sayede içerikler esasında pikseller olarak görülmüş oluyor.
Uzun yazıları pikselleri haline görüyor
Günde 33 milyon sayfa işliyor
Gerçek dünya kullanımında ise Deepseek OCR oldukça yüksek bir işlem kapasitesine ulaşıyor. Sistem, tek bir Nvidia A100 GPU üzerinde günde 200.000 sayfadan fazla belgeyi işleyebiliyor. 20 sunucuda, her biri sekiz A100 GPU barındırdığında bu kapasite günde 33 milyon sayfaya çıkıyor. Bu hız, yeni yapay zeka modelleri için eğitim verisi üretimini büyük ölçüde kolaylaştırma potansiyeli taşıyor. Modelin hem kod hem de model ağırlıkları halka açık durumda. Kaynakça kısmından erişebilirsiniz.
Kaynak:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
Kaynak:https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input
Kaynak:https://github.com/deepseek-ai/DeepSeek-OCR
DH forumlarında vakit geçirmekten keyif alıyor gibisin ancak giriş yapmadığını görüyoruz.
Üye Ol Şimdi DeğilÜye olduğunda özel mesaj gönderebilir, beğendiğin konuları favorilerine ekleyip takibe alabilir ve daha önce gezdiğin konulara hızlıca erişebilirsin.
Haberi Portalda Gör