Számos vállalat az emberi dolgozókat használja kézi adatbevitelre az űrlapokon, alkalmazásokban és egyéb fizikai dokumentumokban. Bár ez nagyon pontos, lassú és költséges. Az AWS Textract gépi tanulást használ a folyamat automatizálásához.
Miért érdemes használni az AWS Textract-ot?
A Textract biztosan nem az egyetlen optikai karakterfelismerő eszköz – rengeteg nyílt forráskódú megoldás érhető el ingyenesen, például a Tesseract OCR. te elolvashatja a használati útmutatónkat hogy többet megtudni.
A Textract azonban sokkal több, mint az egyszerű OCR, mivel űrlapokból, táblázatokból és más dokumentumokból származó adatok elemzésére és kinyerésére szolgál. Képes kiemelni a kulcs-érték párokat, a táblázatokat és más kulcsfontosságú karakterláncokat, ami valójában használható felületként a beolvasott dokumentumok és az adatbázis között (bár ezt az automatikát magának kell beállítania).
A másik vonzerő, hogy a Textract teljes mértékben felügyelt felhőszolgáltatásként teszi elérhetővé az OCR-t. Az OCR futtatásához és a kimenet megértéséhez nem kell saját alkalmazáskiszolgálókat beállítania; csak konfigurálja a Textract-ot, és küldjön neki néhány dokumentumot, akkor az eredményt ad ki.
Azoknál a vállalatoknál, amelyek még mindig kézi adatbevitelt folytatnak, a Textract megtakaríthat Önnek a sok pénz, mind a csökkentett munkaórák alatt, amelyeket a billentyűzet gépelésével töltöttek, mind az a tény, hogy sok elemet képes egyszerre feldolgozni, és ezzel rendkívül megnöveli az adatbevitel sebességét.
Árát tekintve a Textract a legolcsóbb az egyenesen felfelé mutató szöveghez, például a könyvek oldalainak beolvasásához. Ehhez csak 1,50 dollár / 1000 oldal. A táblázatok elemzéséhez 15,00 USD / 1000 oldal. Kulcsérték-párok esetén 50,00 USD / 1000 oldal. Bár ez nem éppen ingyenes, az biztos, hogy felülmúlja az ember fizetését, ha manuálisan csinálja.
A Textract meglehetősen pontos, de ha aggódsz amiatt, hogy a gép elromol valami, az AWS erre is megoldást talál. Beállíthatja a Textract használatát Az Amazon kiterjesztett AI munkafolyamata, amely automatikusan átadja az alacsony megbízhatóságú eredményeket az embereknek felülvizsgálatra.
A Textract használata
Menjen át a Textract Management Console-ra, és kattintson az „indulás” gombra. A konzol manuális használatával az itt található gombra kattintva tölthet fel dokumentumokat:
A Textract azonnal feldolgozza. Gyorsan meglátja, mitől olyan hasznos a Textract; tudta, hogy ezen a W2 űrlapon mely szövegdarabok fontosak, melyek a kulcsérték-párok részei, melyek a táblázatok részei és melyeket dobhatja ki.
A jobb oldalon található a kimenet, amely megjeleníti az összes talált nyers karakterláncot, a kulcs-érték párokat és az adattáblákat. Ne feledje, hogy ezek nem zárják ki egymást, mivel ebben az esetben kulcs-érték párokat talált, ahol a táblák részei is.
Letöltheti az eredményeket, és megtalál egy CSV-fájlt az összes tábláról és kulcs-érték párról, valamint egy szövegfájlt a nyers szövegkimenetről.
Ha automatizálni szeretné a Textract-ot, akkor az AWS CLI-t vagy API-t kell használnia. A Textractnak van saját parancskészlete a parancssorból való munkához.
Bármelyiket megteheti sorosítsa a dokumentumot base64 kódolású dokumentum byte-okra, vagy töltsd fel az S3-ra, és adj meg egy kulcsot a Textractnak, hogy hol találd meg. Ezután használhatja analyze-document
munkát kezdeni:
aws textract analyze-document --document '{"S3Object":{"Bucket":"bucket","Name":"document"}}' --feature-types '["TABLES","FORMS"]'
Ez egy szinkron művelet, de aszinkron módon elemezhet egy munka megkezdésével, majd az eredmények manuális beolvasásával.
aws textract get-document-analysis --job-id df7cf32ebbd2a5de113535fcf4d921926a701b09b4e7d089f3aebadb41e0712b --max-results 1000