Insomma, le applicazioni per l'OCR (Optical Character Recognition) sono ormai molto diffuse, non esiste però un vero e proprio standard di riferimento e in Rete sono disponibili decine di API alternative. Tra le interfacce più popolari presso gli sviluppatori vi sono per esempio quelle fornite da Google Vision, Microsoft Cognitive Services e AWS Rekognition.

Generalmente la Image Text Recognition è un processo che si struttura in due fasi: la prima consiste nella rilevazione del testo da un'immagine, definita tramite una bounding box, mentre la successiva si riassume nell'interpretazione dei caratteri.

A tal proposito il team di Dataturks ha testato a fondo i tre algoritmi citati dandogli in pasto 500 immagini contenenti un testo. Dal confronto effettuato è emerso che Google Vision riesce a registrare una precisione fino all'80% contro il 65% di Microsoft Cognitive Services e il 21% di AWS Rekognition.

Dunque il team di Mountain View sembrerebbe essere riuscito ad ottenere il risultato migliore, probabilmente per via di una lunga esperienza in questo settore maturata grazie alla funzionalità di riconoscimento del testo e traduzione di Google Translate.

Da anni Big G offre a tutti gli utenti del sistema operativo Android la possibilità di tradurre in tempo reale del testo semplicemente puntando la fotocamera su di esso, di riflesso il suo team ha accumulato una notevole esperienza in questo settore andando ad ottimizzare al meglio le proprie API.

Via Dataturks

CommentaDi' la tua

Il tuo indirizzo email non sarà mostrato pubblicamente. I campi obbligatori sono contrassegnati da *