Iskalni PDF
Skeniran dokument z dodano plastjo besedila, po kateri je mogoče iskati v običajnih PDF pregledovalnikih.
Dokumenti
Pri dokumentarnih arhivih lahko po dogovoru pripravimo PDF datoteke z OCR prepoznavo besedila, da je gradivo lažje iskati in uporabljati.
Iskalni dokumenti
OCR je prepoznava besedila iz skeniranih dokumentov. Če je izvedba uspešna, lahko uporabnik v PDF dokumentu išče po besedah, imenih, številkah, datumih ali drugih zapisih, namesto da bi moral ročno pregledovati vsako stran. To je posebej uporabno pri zapisnikih, katalogih, obrazcih, evidencah, internih aktih, glasilih, poročilih in drugih dokumentarnih arhivih.
Pri projektih digitalizacije dokumentov najprej ocenimo, ali je OCR smiseln. Rezultat je odvisen od kakovosti izvirnika, kontrasta, tipografije, jezika, postavitve strani, madežev, kopij, rokopisa in poškodb. Pri čistih tiskovinah je OCR praviloma bistveno bolj uporaben kot pri starih fotokopijah, slabo berljivih dokumentih ali ročno pisanem gradivu.
Pomembno je razumeti razliko med OCR prepoznavo in ročnim prepisom. OCR je avtomatska tehnična prepoznava, ki lahko vsebuje napake. Za vsakodnevno iskanje je lahko zelo uporabna, ni pa vedno primerna kot pravno zanesljiv prepis ali popolnoma popravljeno besedilo.
Če naročnik potrebuje zelo natančen prepis, vsebinsko indeksiranje ali ročno popravljanje, je to ločena storitev in jo je treba posebej oceniti. Pri večjih arhivih običajno priporočamo testni vzorec, da se vidi realna kakovost prepoznave.
Pri nekaterih dokumentih lahko OCR kombiniramo z umetno inteligenco, ki pomaga pripraviti bolj berljiv prepis, povzetek, predlog naslova, ključne besede ali izločene podatke za metapodatkovno tabelo. To je uporabno pri zapisnikih, intervjujih, glasilih, katalogih in arhivskih dokumentih, kjer naročnik želi hitrejše iskanje po vsebini.
AI prepis je treba razumeti kot pomoč pri obdelavi, ne kot uradno potrjeno besedilo. Pri pomembnih dokumentih, imenih, datumih, številkah in pravno občutljivih vsebinah je potreben človeški pregled.
Dokumente lahko predamo kot posamezne PDF datoteke, PDF po mapah, PDF/A po dogovoru ali kot kombinacijo datotek in preglednice. Če je OCR vključen, lahko v evidenco dodamo tudi status prepoznave, kakovost izvirnika, opombe o neberljivih delih in povezavo do izvorne mape.
Za organizacije je pogosto smiselno, da se OCR poveže z dogovorjenim poimenovanjem datotek. Tako je mogoče kasneje iskati po vsebini dokumenta in hkrati razumeti, iz katere mape, leta, oddelka ali zbirke dokument izhaja.
Pri večjih količinah dokumentov lahko OCR nadgradimo z avtomatizacijo dokumentov, pripravo metapodatkov, AI pomočjo pri prepisih in izvozom podatkov v Excel, CSV ali podatkovno bazo. Če ima naročnik že obstoječ sistem, lahko pripravimo tudi API integracije ali uvoz podatkov.
Možnosti OCR
Skeniran dokument z dodano plastjo besedila, po kateri je mogoče iskati v običajnih PDF pregledovalnikih.
Za dolgoročnejšo hrambo lahko preverimo možnost priprave v PDF/A obliki, če to ustreza zahtevam projekta.
Seznam dokumentov z imenom datoteke, mapo, letom, opisom, statusom OCR in opombami.
Pri večjih projektih najprej obdelamo nekaj strani ali dokumentov, da naročnik vidi realno kakovost prepoznave.
Rokopis, slabi odtisi, madeži in poškodovane kopije lahko močno zmanjšajo uporabnost avtomatske prepoznave.
OCR lahko povežemo z metapodatki in strukturo map, da dokumenti niso samo skenirani, ampak tudi uporabno najdljivi.
Projektna ponudba
Pošljite osnovne informacije o gradivu. Pripravili bomo predlog postopka, okvirno oceno in po potrebi predlagali tudi popis, metapodatke, iskalno bazo, interni portal ali dolgoročno hrambo.