Google Audio Search – lehetséges lesz valaha?
[ad_1]
Lehet-e valaha a Google számára létrehozni egy olyan hangtartalom-indexet, amelyen a felhasználók hasonló weboldalakon kereshetnek?
A Google egy blogcikkben közzétett korai tesztelés eredményei azt mutatják, hogy az audio keresést nehezebb végrehajtani, mint amilyennek hangozhat.
Ezeknek a teszteknek a részleteit Tim Olson, a KQED digitális stratégiai partnerségekért felelős igazgatója írta.
A Google a KQED-szel együttműködve igyekszik a hangot könnyebben megtalálhatóvá tenni.
A KUNGFU.AI, egy AI szolgáltató segítségével a Google és a KQED teszteket futtattak annak meghatározására, hogyan lehet gyorsan és hibamentesen átírni a hangot.
Íme, mit fedeztek fel.
Az audio keresés nehézségei
A legnagyobb akadálya annak, hogy az audiokeresés lehetségessé váljon, az a tény, hogy a hangot szöveggé kell konvertálni, mielőtt megkereshetnénk és rendezhetnénk.
Hirdetés
Olvassa tovább az alábbiakban
Jelenleg nincs mód arra, hogy pontosan átírjuk a hangot úgy, hogy az gyorsan megtalálható legyen.
Az egyetlen mód az audio keresésre világszerte csak az automatizált átírások révén lehetséges. A kézi átírás jelentős időt és erőfeszítést igényel a kiadóktól.
Olson, a KQED munkatársa megjegyzi, hogy a pontosság mércéjének magasnak kell lennie az audio-átírásoknál, különösen az audio hírek indexelésével kapcsolatban. A szövegértés eddig elért előrehaladása jelenleg nem felel meg ezeknek a követelményeknek.
A jelenlegi beszéd-szöveg technológia korlátai
A Google teszteket végzett a KQED-del és a KUNGFU.AI-val, a legújabb beszéd-szöveges eszközök alkalmazásával az audio hírek gyűjteményében.
Korlátokat fedeztek fel az AI képességében a tulajdonnevek (más néven elnevezett entitások) azonosításában.
Hirdetés
Olvassa tovább az alábbiakban
A megnevezett entitásoknak néha szükségük van a kontextus megértésére a pontos azonosításhoz, amivel az AI nem mindig rendelkezik.
Olson bemutat egy példát a KQED audio hírére, amely a Bay Area régió számára kontextus szerint megnevezett entitásokkal teli beszédet tartalmaz:
„A KQED helyi híranyagában gazdag nevezett entitások hivatkozásai találhatók, amelyek témákhoz, emberekhez, helyekhez és szervezetekhez kapcsolódnak, és amelyek összefüggésben vannak a Bay Area régióval. Az előadók olyan rövidítéseket használnak, mint a „CHP” a kaliforniai autópálya járőr számára, a „félsziget” pedig a San Franciscótól San Joséig átívelő területre. Ezeket a mesterséges intelligencia nehezebben tudja azonosítani. ”
Amikor a megnevezett entitásokat nem értik, az AI a legjobban kitalálja az elmondottakat. Ez azonban elfogadhatatlan megoldás a webes kereséshez, mert a helytelen átírás megváltoztathatja az elmondottak teljes jelentését.
Mi a következő lépés?
Folytatódik a munka az audiokereséssel kapcsolatban azzal a tervvel, hogy a technológiát széles körben hozzáférhetővé tegyék, amikor fejlesztik.
David Stoller, a Google Hírek és Kiadványok Partnerének vezetője szerint a technológiát nyíltan megosztják, amikor a projekten végzett munka befejeződik.
„A Google New Initiative egyik pillére a nehéz problémák új megközelítésének inkubálása. Miután elkészült, ezt a technológiát és a kapcsolódó bevált gyakorlatokat nyíltan megosztják, jelentősen kibővítve a várható hatást. „
A mai gépi tanulási modellek nem tanulnak a hibáikból – mondja Olson, a KQED munkatársa. Itt lehet, hogy az embereknek lépniük kell.
A következő lépés egy visszacsatolási ciklus tesztelése, ahol az újságszobák a gyakori átírási hibák azonosításával segítenek a gépi tanulási modellek fejlesztésében.
Hirdetés
Olvassa tovább az alábbiakban
„Biztosak vagyunk abban, hogy a közeljövőben a beszéd-szöveg modellek fejlesztése elősegíti a hang gyorsabb szöveggé alakítását, és végső soron segít az embereknek hatékonyabban megtalálni az audio híreket.”
Forrás: Google
[ad_2]
Source link
Written by Gadam
