Arama butonu
Bu konudaki kullanıcılar: 1 misafir, 1 mobil kullanıcı
1
Cevap
474
Tıklama
2
Öne Çıkarma
Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor”
M
5 gün
Yarbay
Konu Sahibi

Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor”
Çinli yapay zeka şirketi Deepseek, metin tabanlı belgeleri daha verimli işleyebilmek için geliştirdiği yeni OCR (Optik Karakter Tanıma) sistemiyle dikkat çekiyor. Sistem, görsel tabanlı metinleri sıkıştırarak yapay zeka modellerinin çok daha uzun belgeleri bellek sınırına takılmadan işlemesini mümkün kılıyor.



Deepseek’in teknik raporuna göre bu sistem, metin verilerini doğrudan işlemek yerine görüntü biçiminde analiz ediyor. Bu yaklaşım, işlem yükünü önemli ölçüde azaltıyor. Yeni OCR sistemi, metinleri 10 kata kadar sıkıştırırken bilgilerin yüzde 97’sini koruyabiliyor.



Bilindiği üzere büyük dil modelleri metni token’lar halinde temsil eder, her token birkaç karakter içerir. Kısa kelimeler genellikle tek bir token ile gösterilir (“the”, “it”), uzun kelimeler ise birden fazla token’a bölünebilir (“indivisible” → “ind”, “iv”, “isible”). Araştırmacılar milyonlarca token’ı aşan uzun belgeleri ve konuşmaları işleyebilen modeller geliştirmek için çalışıyor. Bu sayede bağlam penceresini geniş tutabiliyorlar. Ancak aynı anda işlenebilen token sayısı arttıkça hesaplama maliyetleri de ona göre artış gösteriyor. Dolayısıyla büyük token kapasitesi uzun belgelerde bile modelin belleğinin dolmamasını sağlar ama maliyeti artırır. Deepseek’in OCR çözümü ise çok uzun içerikleri bir görselmiş gibi işliyor. Bu sayede içerikler esasında pikseller olarak görülmüş oluyor.



Uzun yazıları pikselleri haline görüyor



Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor”
Sistemin çekirdeğinde iki temel bileşen bulunuyor: DeepEncoder ve Deepseek3B-MoE. Görüntü işleme kısmını üstlenen DeepEncoder, 380 milyon parametreyle çalışıyor. Metin üretiminden sorumlu Deepseek3B-MoE ise 570 milyon aktif parametreye sahip. DeepEncoder, Meta’nın 80 milyon parametreli SAM (Segment Anything Model) sistemini ve OpenAI’ın 300 milyon parametreli CLIP modelini birleştiriyor. Arada yer alan 16x sıkıştırıcı, görüntü verilerini büyük ölçüde azaltarak işlem hızını artırıyor. Örneğin, 1.024 x 1.024 piksel boyutundaki bir görselin 4.096 token’ı, sıkıştırma sonrasında yalnızca 256 token’a indiriliyor.



Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor”
Deepseek OCR, çözünürlüğe göre 64 ile 400 arasında “vision token” kullanarak çalışabiliyor. Bu sayı, klasik OCR sistemlerinde genellikle binlerce token gerektiren işlemleri oldukça hafif hale getiriyor. OmniDocBench testlerinde sistem, yalnızca 100 vision token kullanarak GOT-OCR 2.0’ı geride bıraktı. Ayrıca 800 token’ın altında çalışırken, MinerU 2.0’ın 6.000’den fazla token gerektiren performansını da aştı.



Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor”
Farklı belge türlerine göre optimize edilen sistem, basit sunumlarda 64 token, kitap ve raporlarda 100 token, karmaşık gazetelerde ise “Gundam modu” adı verilen özel modla 800 token kullanıyor. Deepseek OCR, yalnızca metinleri değil, diyagramlar, kimyasal formüller ve geometrik şekiller gibi karmaşık görsel unsurları da işleyebiliyor. Ayrıca yaklaşık 100 dilde çalışıyor, biçimlendirmeyi koruyabiliyor ve istenirse düz metin ya da genel görsel açıklaması üretebiliyor.



Günde 33 milyon sayfa işliyor



Deepseek OCR: Yapay zeka artık metinleri okumuyor, “görüyor”
Sistemin eğitimi için yaklaşık 30 milyon PDF sayfası kullanıldı. Bu verilerin 25 milyonu İngilizce ve Çince belgelerden, geri kalanı ise 10 milyon sentetik diyagram, 5 milyon kimyasal formül ve 1 milyon geometrik şekilden oluşuyor.



Gerçek dünya kullanımında ise Deepseek OCR oldukça yüksek bir işlem kapasitesine ulaşıyor. Sistem, tek bir Nvidia A100 GPU üzerinde günde 200.000 sayfadan fazla belgeyi işleyebiliyor. 20 sunucuda, her biri sekiz A100 GPU barındırdığında bu kapasite günde 33 milyon sayfaya çıkıyor. Bu hız, yeni yapay zeka modelleri için eğitim verisi üretimini büyük ölçüde kolaylaştırma potansiyeli taşıyor. Modelin hem kod hem de model ağırlıkları halka açık durumda. Kaynakça kısmından erişebilirsiniz.




Kaynak:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
Kaynak:https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input
Kaynak:https://github.com/deepseek-ai/DeepSeek-OCR

DH forumlarında vakit geçirmekten keyif alıyor gibisin ancak giriş yapmadığını görüyoruz.

Üye olduğunda özel mesaj gönderebilir, beğendiğin konuları favorilerine ekleyip takibe alabilir ve daha önce gezdiğin konulara hızlıca erişebilirsin.

Üye Ol Şimdi Değil

 Haberi Portalda Gör

D
5 gün
Yarbay

yerli milli kumrumuz varken ne yapalım deepseek veya chatgpt'yi. ??




DH Mobil uygulaması ile devam edin. Mobil tarayıcınız ile mümkün olanların yanı sıra, birçok yeni ve faydalı özelliğe erişin. Gizle ve güncelleme çıkana kadar tekrar gösterme.