Google Audio Search – lehetséges lesz valaha?

Avatar Gadam | 2021.02.26.

[ad_1]

Lehet-e valaha a Google számára létrehozni egy olyan hangtartalom-indexet, amelyen a felhasználók hasonló weboldalakon kereshetnek?

A Google egy blogcikkben közzétett korai tesztelés eredményei azt mutatják, hogy az audio keresést nehezebb végrehajtani, mint amilyennek hangozhat.

Ezeknek a teszteknek a részleteit Tim Olson, a KQED digitális stratégiai partnerségekért felelős igazgatója írta.

A Google a KQED-szel együttműködve igyekszik a hangot könnyebben megtalálhatóvá tenni.

A KUNGFU.AI, egy AI szolgáltató segítségével a Google és a KQED teszteket futtattak annak meghatározására, hogyan lehet gyorsan és hibamentesen átírni a hangot.

Íme, mit fedeztek fel.

Az audio keresés nehézségei

A legnagyobb akadálya annak, hogy az audiokeresés lehetségessé váljon, az a tény, hogy a hangot szöveggé kell konvertálni, mielőtt megkereshetnénk és rendezhetnénk.

Hirdetés

Olvassa tovább az alábbiakban

Jelenleg nincs mód arra, hogy pontosan átírjuk a hangot úgy, hogy az gyorsan megtalálható legyen.

Az egyetlen mód az audio keresésre világszerte csak az automatizált átírások révén lehetséges. A kézi átírás jelentős időt és erőfeszítést igényel a kiadóktól.

Olson, a KQED munkatársa megjegyzi, hogy a pontosság mércéjének magasnak kell lennie az audio-átírásoknál, különösen az audio hírek indexelésével kapcsolatban. A szövegértés eddig elért előrehaladása jelenleg nem felel meg ezeknek a követelményeknek.

A jelenlegi beszéd-szöveg technológia korlátai

A Google teszteket végzett a KQED-del és a KUNGFU.AI-val, a legújabb beszéd-szöveges eszközök alkalmazásával az audio hírek gyűjteményében.

Korlátokat fedeztek fel az AI képességében a tulajdonnevek (más néven elnevezett entitások) azonosításában.

Hirdetés

Olvassa tovább az alábbiakban

A megnevezett entitásoknak néha szükségük van a kontextus megértésére a pontos azonosításhoz, amivel az AI nem mindig rendelkezik.

Olson bemutat egy példát a KQED audio hírére, amely a Bay Area régió számára kontextus szerint megnevezett entitásokkal teli beszédet tartalmaz:

„A KQED helyi híranyagában gazdag nevezett entitások hivatkozásai találhatók, amelyek témákhoz, emberekhez, helyekhez és szervezetekhez kapcsolódnak, és amelyek összefüggésben vannak a Bay Area régióval. Az előadók olyan rövidítéseket használnak, mint a „CHP” a kaliforniai autópálya járőr számára, a „félsziget” pedig a San Franciscótól San Joséig átívelő területre. Ezeket a mesterséges intelligencia nehezebben tudja azonosítani. ”

Amikor a megnevezett entitásokat nem értik, az AI a legjobban kitalálja az elmondottakat. Ez azonban elfogadhatatlan megoldás a webes kereséshez, mert a helytelen átírás megváltoztathatja az elmondottak teljes jelentését.

Mi a következő lépés?

Folytatódik a munka az audiokereséssel kapcsolatban azzal a tervvel, hogy a technológiát széles körben hozzáférhetővé tegyék, amikor fejlesztik.

David Stoller, a Google Hírek és Kiadványok Partnerének vezetője szerint a technológiát nyíltan megosztják, amikor a projekten végzett munka befejeződik.

„A Google New Initiative egyik pillére a nehéz problémák új megközelítésének inkubálása. Miután elkészült, ezt a technológiát és a kapcsolódó bevált gyakorlatokat nyíltan megosztják, jelentősen kibővítve a várható hatást. „

A mai gépi tanulási modellek nem tanulnak a hibáikból – mondja Olson, a KQED munkatársa. Itt lehet, hogy az embereknek lépniük kell.

A következő lépés egy visszacsatolási ciklus tesztelése, ahol az újságszobák a gyakori átírási hibák azonosításával segítenek a gépi tanulási modellek fejlesztésében.

Hirdetés

Olvassa tovább az alábbiakban

„Biztosak vagyunk abban, hogy a közeljövőben a beszéd-szöveg modellek fejlesztése elősegíti a hang gyorsabb szöveggé alakítását, és végső soron segít az embereknek hatékonyabban megtalálni az audio híreket.”

Forrás: Google



[ad_2]
Source link


Written by Gadam