Kompanija Google već nekoliko godina površno radi na OCR tehnologijama bez nekih većih rezultata a ovih dana Google je i zvanično predstavio svoj sledeći pokušaj da se na tržištu bolje kotira po tom pitanju. Kompanija sada vrši OCR na dokumentima koji označeni i koji se identifikuju kao skenirani PDF fajlovi ali problem je to što se postojeći tekst na dokumentima skladišti u vidu slika. Google je odlučio da je open-source OCRopus tehnologija koja je bazirana na softveru koji nosi naziv „Tesseract“ i koja je razvijena od strane kompanije HP dorasla tom zadatku i da će obezbediti označavanje skeniranih dokumenata koji sadrže kombinaciju teksta i slika.