Hogyan használjuk az AWS Textract OCR-t szövegek és adatok dokumentumokból történő kinyeréséhez – CloudSavvy IT

Avatar Gadam | 2020.12.12. 18 Views 0 Likes 0 Ratings

18 Views 0 Ratings Rate it

AWS logó

Számos vállalat az emberi dolgozókat használja kézi adatbevitelre az űrlapokon, alkalmazásokban és egyéb fizikai dokumentumokban. Bár ez nagyon pontos, lassú és költséges. Az AWS Textract gépi tanulást használ a folyamat automatizálásához.

Miért érdemes használni az AWS Textract-ot?

A Textract biztosan nem az egyetlen optikai karakterfelismerő eszköz – rengeteg nyílt forráskódú megoldás érhető el ingyenesen, például a Tesseract OCR. te elolvashatja a használati útmutatónkat hogy többet megtudni.

A Textract azonban sokkal több, mint az egyszerű OCR, mivel űrlapokból, táblázatokból és más dokumentumokból származó adatok elemzésére és kinyerésére szolgál. Képes kiemelni a kulcs-érték párokat, a táblázatokat és más kulcsfontosságú karakterláncokat, ami valójában használható felületként a beolvasott dokumentumok és az adatbázis között (bár ezt az automatikát magának kell beállítania).

A másik vonzerő, hogy a Textract teljes mértékben felügyelt felhőszolgáltatásként teszi elérhetővé az OCR-t. Az OCR futtatásához és a kimenet megértéséhez nem kell saját alkalmazáskiszolgálókat beállítania; csak konfigurálja a Textract-ot, és küldjön neki néhány dokumentumot, akkor az eredményt ad ki.

Azoknál a vállalatoknál, amelyek még mindig kézi adatbevitelt folytatnak, a Textract megtakaríthat Önnek a sok pénz, mind a csökkentett munkaórák alatt, amelyeket a billentyűzet gépelésével töltöttek, mind az a tény, hogy sok elemet képes egyszerre feldolgozni, és ezzel rendkívül megnöveli az adatbevitel sebességét.

Árát tekintve a Textract a legolcsóbb az egyenesen felfelé mutató szöveghez, például a könyvek oldalainak beolvasásához. Ehhez csak 1,50 dollár / 1000 oldal. A táblázatok elemzéséhez 15,00 USD / 1000 oldal. Kulcsérték-párok esetén 50,00 USD / 1000 oldal. Bár ez nem éppen ingyenes, az biztos, hogy felülmúlja az ember fizetését, ha manuálisan csinálja.

A Textract meglehetősen pontos, de ha aggódsz amiatt, hogy a gép elromol valami, az AWS erre is megoldást talál. Beállíthatja a Textract használatát Az Amazon kiterjesztett AI munkafolyamata, amely automatikusan átadja az alacsony megbízhatóságú eredményeket az embereknek felülvizsgálatra.

A Textract használata

Menjen át a Textract Management Console-ra, és kattintson az „indulás” gombra. A konzol manuális használatával az itt található gombra kattintva tölthet fel dokumentumokat:

A Textract azonnal feldolgozza. Gyorsan meglátja, mitől olyan hasznos a Textract; tudta, hogy ezen a W2 űrlapon mely szövegdarabok fontosak, melyek a kulcsérték-párok részei, melyek a táblázatok részei és melyeket dobhatja ki.

A jobb oldalon található a kimenet, amely megjeleníti az összes talált nyers karakterláncot, a kulcs-érték párokat és az adattáblákat. Ne feledje, hogy ezek nem zárják ki egymást, mivel ebben az esetben kulcs-érték párokat talált, ahol a táblák részei is.

Letöltheti az eredményeket, és megtalál egy CSV-fájlt az összes tábláról és kulcs-érték párról, valamint egy szövegfájlt a nyers szövegkimenetről.

Ha automatizálni szeretné a Textract-ot, akkor az AWS CLI-t vagy API-t kell használnia. A Textractnak van saját parancskészlete a parancssorból való munkához.

Bármelyiket megteheti sorosítsa a dokumentumot base64 kódolású dokumentum byte-okra, vagy töltsd fel az S3-ra, és adj meg egy kulcsot a Textractnak, hogy hol találd meg. Ezután használhatja analyze-document munkát kezdeni:

aws textract analyze-document --document '{"S3Object":{"Bucket":"bucket","Name":"document"}}' --feature-types '["TABLES","FORMS"]'

Ez egy szinkron művelet, de aszinkron módon elemezhet egy munka megkezdésével, majd az eredmények manuális beolvasásával.

aws textract get-document-analysis --job-id df7cf32ebbd2a5de113535fcf4d921926a701b09b4e7d089f3aebadb41e0712b --max-results 1000

Source link


18 Views 0 Ratings Rate it