OCR (Optik Karakter Tanıma)

scanfan

Yönetici
25 Eyl 2013
7,211
75,231

OCR (Optik Karakter Tanıma)
PC Bilgisayar Dergisinin Eki
32 sayfa, 19 MB, CBZ

Kitap tarayanların ellerinin altından eksik etmedikleri yazılımlardan biri de Optik Karakter Tanıma (OCR) yazılımlarıdır. Bunların en ünlüsü ve en hatasız tarayanı da Rusların geliştirdiği Abbyy Fine Reader'dır. Özellikle Türkçe'yi çok iyi tanır ve birtakım başka özellikleriyle de Omnipage, Readiris vs gibi diğer OCR yazılımlarının biraz önündedir (hepsini denedim, oradan biliyorum!)

Bilindiği gibi bir dergi veya kitap tarandığı zaman sadece görüntü (fotoğraf) halindedir. Bu kitabı oluşturan sayfaların jpg görüntülerini CBR veya CBZ yapıp uygun readerlarda okuyabiliriz, ancak bu kitapların içinde herhangi bir sözcüğü aramaya kalksak, bunu yapamayız. Kitabın içinde bir veya birden fazla sözcüğü aranabilir hale getirmek için taradığımız jpeg (veya tiff vs) formatındaki görüntüleri bu tür OCR yazılımları ile işlediğimiz zaman onları işlenebilir metin haline getirip doc (word dosyası) veya txt vs olarak saklayabiliriz, üzerlerinde kelime işlemciler vasıtasıyla istediğimiz değişikliği yapabiliriz. Ayrıca jpeg dosyalarını OCR'dan geçirdikten sonra okunabilir pdf haline de getirebiliriz, böylece sayfanın ön planında sayfanın görüntüsü, bizim görmediğimiz (ama istediğimizde tek tuşla görünür hale de getirebileceğimiz) arka planında da metin formatı olacaktır (pdf/s). İşte bu kitapçıkta OCR işleminin detayları anlatılıyor. (çizgi romanları OCR yapmaya ve pdf/s olarak sunmaya gerek yoktur, zira onların içinde herhangi bir sözcük aramak genelde lüzumsuzdur. Bu nedenle çizgi romanları genelde CBR veya CBZ olarak sunuyoruz.)

Bu kitapçığı PC dergisi eski yıllarda ek olarak vermişti. Kütüphanemi temizlerken elime geçti, sizlerle paylaşmak istedim. Üzerinde tarih yazmıyor, ama hatırladığım kadarıyla arka kapakta reklamı verilen Fine Reader'ın 5.0 sürümü (şimdi versiyon 14 çıkmış) 2001 yılında piyasaya verilmişti. O halde bu dergi eki de 2001 yılında verilmiş olmalı. Ancak Optik Karakter Tanıma (OCR) işleminin temeli değişmeyeceğine göre kitapçık hâlâ işe yarayacaktır.

Bu kitapçığı özellikle "Resimli Anlatımlar" bölümüne koydum. "Diyar Kütüphanesi"ne koysaydım muhtemelen kısa sürede gözden kaybolup gidecekti.

Faydalı olması dileğiyle ve saygılarımla...


v0xcmuhnp9gw5w86g.jpg

(Yandex)

 
Moderatör tarafında düzenlendi:

abolardis

Onursal Üye
12 Şub 2011
6,630
24,325
Çok değerli bir çalışma kullandığım proğramlar arasında.
Çok teşekkür ederim.
Ellerinize sağlık.
 

ekenciz

Onursal Üye
Çeviri & Balonlama
13 Eyl 2009
2,988
13,484
Şu Abby bir de r ile ı'yı n gibi, r, ı ve n'yi m gibi algulamasa ne iyi oalcak. Buna benzer bir çok örnek aslında programa makina öğrenmesi entegre edilse çözülecek şeyler ama nedense öğretme modülü de pek bir işe yaramıyor bu gibi hatalarda. Bir de Abbby metni oluşturup benzeteceğim diye çok fazla font boyutu kullanıyor ve oluşturduğu sitilleri değiştirmek bıktırıcı bir hal aldığından karakter bazlı pdf yaparken ya görünüşten feragat etmek zorunda kalıyorsunuz ya da çok fazla font ve sitile razı geliyorsunuz. Sayfa düzenini korumak adına çok fazla yazı tip ve metin boyutu kullanması ve bu aşırı sayıda yapması programın en büyük derdi. Ama hala da ondan daha iyi tanıyanı yok.

1995 yılında omnipage kullanmıştım üç küsurlu bir versiyondu. O zaman için ve hatta bugün için bile çok iyi denebilecek sonuçlar alıyordum. İngilizcesi elbette Türkçesine göre daha ileriydi. Ama Abbynin yerini tutamaz o ayrı. Son zamanlarda ReadIris de fena değil sanki.

Not: 1995'ye kullandığım programa Omnipage demişim ama yanlış hatırlamışım. Kullandığım program Recognita idi ve bir Macar firmasının yazılımıydı.
 
Son düzenleme:

The_DarknesS

Yönetici
Çeviri & Balonlama
17 Nis 2010
9,538
28,575
İzmir
Abbyy, ismini çok duyduğum ama hiç kullanmadığım bir program.
Önce kitapcığı okuyup sonra programı deneyeceğim.
Teşekkürler üstadım.
 
Üst