Noua recunoaștere spațio-temporală continuă a limbajului semnelor folosind o rețea atentă cu mai multe caracteristici(1)

Jun 01, 2023

Abstract: Având în vedere fluxurile video, ne propunem să detectăm corect semnele nesegmentate legate de recunoașterea continuă a limbajului semnelor (CSLR). În ciuda creșterii metodelor de învățare profundă propuse în acest domeniu, cele mai multe dintre ele se concentrează în principal pe utilizarea doar a unei caracteristici RGB, fie imaginea full-frame, fie detaliile mâinilor și feței. Lipsa de informații pentru procesul de instruire CSLR limitează puternic capacitatea de a învăța mai multe caracteristici folosind cadre de intrare video. Mai mult, exploatarea tuturor cadrelor dintr-un videoclip pentru sarcina CSLR ar putea duce la o performanță suboptimă, deoarece fiecare cadru conține un nivel diferit de informații, inclusiv principalele caracteristici în deducerea zgomotului. Prin urmare, propunem o nouă recunoaștere spațio-temporală continuă a limbajului semnelor folosind rețeaua atentă cu mai multe caracteristici pentru a îmbunătăți CSLR prin furnizarea de caracteristici suplimentare pentru puncte cheie. În plus, exploatăm stratul de atenție din modulele spațiale și temporale pentru a sublinia simultan mai multe caracteristici importante. Rezultatele experimentale din ambele seturi de date CSLR demonstrează că metoda propusă atinge performanțe superioare în comparație cu metodele actuale de ultimă generație cu 0,76 și 20,56 pentru scorul WER pe seturile de date CSL și, respectiv, PHOENIX.

Desert living cistanche

Cistanche cu ierburi Superman

Cuvinte cheie: limbajul semnelor continuu; spațial; temporal; multifuncțional; puncte cheie; autoatenție

1. Introducere

Limbajul semnelor acordă prioritate comunicării manuale folosind gesturi ale mâinii, limbajul corpului și mișcările buzelor în loc de sunet pentru a comunica [1,2]. De obicei, limbajul semnelor este folosit de persoanele surde sau cu deficiențe de auz, dar poate fi folosit și în situațiile în care este imposibil sau greu de auzit sunetele. Prin urmare, este necesar un sistem de recunoaștere a limbajului semnelor (SLR), deoarece ajută la conectarea persoanelor cu deficiențe de auz și a celor care nu.

În ultimii ani, cercetătorii au concentrat multă atenție pe SLR datorită informațiilor vizuale bogate pe care le oferă. Studiile SLR recente sunt de obicei grupate în recunoaștere izolata a limbajului semnelor (ISLR) sau recunoaștere continuă a limbajului semnelor (CSLR). Mai multe lucrări abordează doar ISLR [3,4], în timp ce altele analizează doar sarcini mai ușoare, cum ar fi gesturile statice pentru recunoașterea alfabetului [5]. Între timp, cele mai recente metode sunt de obicei mai complicate, deoarece rezolvă sarcini CSLR [6–8]. În comparație cu ISLR, CSLR este o problemă mai provocatoare, deoarece implică reconstrucția propozițiilor.

Cistanche tea2

ceai de Cistanche

Faceți clic aici pentru a vedea produsele din ceaiul Cistanche deserticola

【Cereți mai multe】 E-mail:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692

Cercetarea CSLR este încă la mare căutare, deoarece implementarea sa este strâns legată de condițiile de zi cu zi din lumea reală. Această abordare își propune să recunoască seria de glosuri care apar într-o serie video fără segmentare clară sau chiar deloc. În plus, încorporează o mare cantitate de cercetare în domeniul învățării automate și o înțelegere aprofundată a comportamentului uman. De exemplu, implică urmărirea mișcărilor umane [9], recunoașterea gesturilor [10] și recunoașterea facială [11]. Cu toate acestea, există mai multe provocări în realizarea sarcinilor CSLR.

În primul rând, colectarea și adnotarea datelor sunt costisitoare pentru CSLR [12]. Aceasta este probabil una dintre provocările cu care se confruntă în dezvoltarea sa, deoarece CSLR este implicat într-o rețea mare și cantitatea de date afectează puternic performanța [13]. Mai mult, mai multe seturi de date disponibile pentru limbajul semnelor sunt slab adnotate [12,14,15]. Pentru a rezolva această problemă, numeroase studii au folosit o abordare slab supravegheată, alături de aplicarea unui modul de aliniere și extractor de caracteristici la arhitectura de rețea [12].

În al doilea rând, în comparație cu ISLR, CSLR este mai complicat. Informații suficiente sunt obținute prin utilizarea mai multor caracteristici; s-a dovedit că aceasta obține o performanță mai bună decât utilizarea unei singure caracteristici, așa cum sa raportat în lucrările anterioare [16–18]. Aceste caracteristici multiple constau din caracteristica principală, care este o imagine a corpului care atinge cea mai mare precizie și caracteristici suplimentare, cum ar fi poziția, capul, mâna stângă și mâna dreaptă, care are o precizie mai mică pentru performanța individuală [17,18]. Antrenarea unei rețele mari cu o cantitate mare de date necesită timp [13]. Adăugarea fluxului de intrare crește, de asemenea, timpul de antrenament, în timp ce utilizarea caracteristicilor suplimentare bazate pe imagini crește costul [19]. Prin urmare, trebuie să alegem funcții importante pentru a ne putea antrena eficient.

Cistanche deserticola slice (1)

Cistanche din plante chinezești

În al treilea rând, intrarea video are un număr mare de imagini în secvență. Unele imagini au o formă neclară a mâinii din cauza mișcării rapide, ceea ce poate duce la informații incorecte. Prin urmare, modelul nostru propus utilizează autoatenția bazată pe [20] pentru a ajuta la selectarea informațiilor importante. Mai mult, autoatenția dovedită de [21,22] are un impact asupra îmbunătățirii performanței.

Prin urmare, propunem un model nou numit roman spatiotemporal attentive multi-feature (STAMF) pentru a gestiona toate problemele. Am urmărit lucrările anterioare [17,23], care s-au dovedit că funcționează pentru CSLR cu probleme slabe de adnotare. Ei construiesc modelul folosind trei componente principale: primul este modulul spațial, al doilea este modulul temporal și al treilea este modulul de învățare a secvenței. Vă propunem o introducere multifuncțională eficientă și eficientă, folosind funcția cadru complet împreună cu funcții cheie pentru a efectua sarcini CSLR. Caracteristica cadru întreg reprezintă imaginea corpului ca caracteristică principală, iar caracteristicile punctului cheie ca caracteristică suplimentară. Punctul cheie este poziția corpului, inclusiv detaliile poziției mâinii. Această poziție a corpului este cea mai eficientă caracteristică suplimentară, deoarece în unele lucrări s-a dovedit că atinge cea mai mare precizie după caracteristica cadru întreg [17,18]. De asemenea, folosim un modul de atenție care folosește autoatenția bazată pe [20] pentru a capta caracteristica importantă și pentru a ajuta secvența de învățare să îmbunătățească performanța.

Contribuția acestui manuscris este rezumată după cum urmează: • Introducem o atenție temporală nouă în modulul de secvență pentru a surprinde momentele importante de timp care contribuie la rezultatul final; • Introducem funcția multiplă care constă în caracteristica cadru întreg din valoarea RGB a cadrului ca caracteristică principală și caracteristici cheie care includ poziția corpului cu detaliul formei mâinii ca o caracteristică suplimentară pentru a îmbunătăți performanța de recunoaștere a modelului; • Folosim metrica WER pentru a arăta că modelul nostru STAMF propus depășește modelele de ultimă generație pe ambele seturi de date de referință CSLR prin experimente.

cistanche—Improve memory4

Supliment Cistanche langa mine-Improve Memory

2. Lucrări conexe

Au existat mai multe progrese în tehnologie și s-au făcut multe cercetări pe SLR. Studiile anterioare [24–27] au explorat posibilitatea utilizării ISLR care are o segmentare pentru fiecare cuvânt. În ultimii ani, metodele bazate pe învățarea profundă au fost folosite pentru a extrage caracteristici folosind rețele convoluționale, fie 2D [28,29], fie 3D [30,31], pentru reprezentarea lor vizuală puternică. Majoritatea cercetărilor timpurii privind recunoașterea limbajului semnelor s-au concentrat pe ISLR cu caracteristici multimodale [30–32], cum ar fi RGB, hărți de adâncime și schelete, care oferă o performanță mai bună.

În zilele noastre, CSLR a devenit mai popular, deși nu a fost segmentat clar între fiecare cuvânt. Lucrările timpurii folosesc un extractor de caracteristici CNN [6,33] și HMM [34] pentru a construi ținta secvenței. Unele cercetări recente pentru sistemele CSLR [17,23] au inclus trei pași principali în îndeplinirea sarcinii de recunoaștere a problemelor. În primul rând, au efectuat extragerea caracteristicilor spațiale, apoi segmentarea temporală și, în final, sinteza propozițiilor cu un model de limbaj [35], sau au folosit învățarea secvenței [17,23]. Această învățare a secvenței a folosit Bi-LSTM și CTC pentru a analiza relația dintre luciul semnelor din secvențele video. Chiar dacă folosește o adnotare slabă care are secvențe video nesegmentate pentru a defini luciul semnelor, aceste abordări au arătat rezultate promițătoare.

Cu toate acestea, cel mai recent studiu CLSR care a implementat o abordare cu mai multe caracteristici [17] a folosit cinci caracteristici simultan. Abordarea cu mai multe caracteristici este mai grea în comparație cu utilizarea mai puține caracteristici [19]. De asemenea, această abordare nu poate gestiona cadrele zgomotoase din secvența video care au informații neclare, cum ar fi forma neclară a mâinii din cauza mișcării rapide. Mai mult, bazarea pe învățarea secvențelor bazate pe RNN poate întâmpina probleme cu secvențele lungi și poate pierde contextul global [20].

cistanche—Improve memory3

Supliment Cistanche langa mine-Improve Memory

Cercetarea actuală își propune să îmbunătățească performanța prin adăugarea unui mecanism de auto-atenție [21,22] care poate gestiona secvențe mai lungi pentru a învăța contextul global. Autoatenția se bazează pe cercetări timpurii [20] care au arătat că autoatenția are avantajul de a putea face față dependențelor lungi. Cu toate acestea, această autoatenție este mai ușor de învățat pe o cale mai scurtă în comparație cu o cale mai lungă cu dependențe lungi. În lucrările anterioare CLSR [21,22] autoatenția ar putea ajuta rețeaua să învețe caracteristica mai eficient.

Prin urmare, în această lucrare, introducem un nou model spațio-temporal atent cu mai multe caracteristici. Acest model propus extrage în mod eficient caracteristicile importante și învață mai bine secvența, oferind informații importante folosind un mecanism de auto-atenție din multifuncție. Toate procesele sunt executate într-o abordare end-to-end.

3. Metoda propusă

Această secțiune detaliază tehnicile de bază ale modelului nostru propus pentru CSLR. Prin urmare, începem această secțiune explicând prezentarea generală a modelului propus. În plus, oferim mai multe detalii despre fiecare componentă cheie, inclusiv modulul spațial, modulul temporal și modulul de învățare a secvenței. În plus, explicăm și modulul nostru de atenție propus pentru a ajuta modelul să învețe mai bine. În cele din urmă, putem integra cadrul de instruire și deducere în modelul nostru propus.

3.1. Prezentare generală a cadrului

Având în vedere o intrare video, modelul nostru propus urmărește să prezică semnul corespunzător într-o propoziție de luciu corectă. Primul modul generează mai multe caracteristici spațiale, cum ar fi caracteristici full-frame și keypoint pentru fiecare cadru T al videoclipului. Apoi, modulul temporal ne permite să extragem corelații temporale ale caracteristicilor spațiale între cadre pentru ambele fluxuri. Ca pas final, rețelele spațiale și temporale au fost legate de memoria bidirecțională pe termen lung (Bi-LSTM) și CTC pentru învățarea secvenței și inferență. În continuare, explicăm componentele noastre principale mai detaliat și consecutiv. Prezentare generală a arhitecturii noastre propuse este prezentată în Figura 1.

Figure 1


Figura 1. Arhitectura generală a metodei propuse constă din trei componente: un modul spațial, un modul temporal și un modul de învățare a secvenței. Modulul spațial preia mai întâi secvența de imagini pentru a extrage caracteristicile cadru și apoi aplică modulul temporal pentru a extrage caracteristicile temporale. Apoi, caracteristicile temporale sunt trimise la modulul de învățare a secvenței pentru a efectua predicția cuvântului și a le construi într-o propoziție

3.2. Modulul spațial

Modulul spațial exploatează o caracteristică full-frame și caracteristici cheie, așa cum se arată în Figura 2. Acest modul folosește arhitectura de rețea 2D-CNN ca coloană vertebrală, iar ResNet50 este ales pentru a captura caracteristicile multiple. ResNet50 este mai eficient pentru a fi utilizat în comparație cu arhitectura ResNet recentă în termeni de timp, având un rezultat comparabil [36,37]. RGB folosește ResNet50 direct, în timp ce punctul cheie este obținut de HRNet [38] din cadrul video și este extras folosind ResNet50 pentru a obține caracteristicile punctului cheie.

Figure 2


Figura 2. Arhitectura modulului spațial utilizează intrare multi-flux. Flux RGB ca caracteristică cadru întreg și fluxul puncte cheie ca caracteristică punct cheie.

3.2.1. Funcție full-frame

Am aplicat pașii noștri de preprocesare la datele RGB și apoi am introdus datele noastre în model. Apoi le-am introdus ca intrare full-frame în arhitectura noastră. Figura 3 prezintă ilustrația imaginii RGB originale în partea stângă și imaginea decupată în partea dreaptă. Imaginea decupată este utilizată ca intrare de către model. Aceasta ilustrează pasul de preprocesare care reduce părțile mai puțin importante ale imaginii și pune mai mult accent pe semnatar. Această tăiere utilizează o metodă de decupare aleatorie din [12] pentru a mări setul de date. Caracteristica fullframe este extrasă din imaginea decupată pentru fiecare cadru din secvență folosind ResNet50.

Figure 3


Figura 3. Caracteristica cadru complet folosind imaginea RGB, (imaginea din stânga) este imaginea originală, iar (imaginea din dreapta) este imaginea decupată pentru a fi ajustată cu modelul propus

3.2.2. Caracteristici puncte cheie

Am extras caracteristicile punctului cheie din modulul spațial din datele RGB pentru fiecare cadru din intrarea video. Calitatea caracteristicilor puncte-cheie are un rol important în modelul propus, așa că trebuie să folosim o abordare robustă, cum ar fi HRNet [38]. Am folosit HRNet pre-antrenat [38] pentru a estima toate cele 133 de puncte cheie ale corpului și am folosit 27 din cele 133 de puncte cheie din rezultatul său. După cum se arată în Figura 4, partea stângă este punctul cheie original pentru partea superioară a corpului, iar partea dreaptă este cele 27 de puncte cheie selectate pentru partea superioară a corpului. Aceste 27 de puncte cheie includ încheieturile, coatele, umerii, gâtul, mâinile și degetele.

Figure 4


Figura 4. Caracteristicile punctului cheie ale setului de date PHOENIX-RWTH [33,39], extragerea (imaginea din stânga) din imaginea RGB, iar (imaginea din dreapta) este punctul cheie selectat utilizat de modelul propus.

3.3. Modulul temporal

Modulul temporal își propune să învețe informații spațiotemporale din modulul spațial. Modulele temporale sunt construite prin stivuire Temporal Pooling pentru fiecare flux. După cum se arată în Figura 5, modulul de pooling temporal constă dintr-un strat de convoluție temporală și un strat de pooling pentru a extrage caracteristici din intrările secvențiale.

Figure 5.


Figura 5. Arhitectura modulului temporal constă dintr-un 1D-CNN stivuit și un strat de pooling încorporat cu un modul de atenție. Lucrați în paralel pentru ambele fluxuri de caracteristici concatenate la sfârșitul straturilor stivuite și produceți o singură caracteristică temporală cu o lungime a secvenței de patru ori mai mică.

Intrarea este o listă de caracteristici multiple spațiale din etapa anterioară. Caracteristica temporală este obținută folosind stratul de convoluție temporală care este un singur strat convoluțional 1D cu aceleași lungimi de intrare și de ieșire, urmat de un singur strat de grupare care scade dimensiunea la jumătate. Utilizarea acestor două straturi de pooling temporale stivuite este cea mai bună configurație, conform lucrărilor anterioare [12]. După fiecare grupare temporală, încorporăm un modul de atenție care va fi explicat în detaliu în Secțiunea 3.4. În cele din urmă, concatenăm rezultatul grupării temporale din ambele fluxuri.

3.4. Modul de atenție

Videoclipul are mai multe cadre în care unele părți ale imaginii sunt uneori neclare. Setul de date RTWH-PHOENIX [33,39] are mai multe cadre defecte decât setul de date CSL [8,40,41]. Acest lucru se întâmplă atunci când mișcarea este prea rapidă, creând o imagine neclară și rezultând în locația greșită a punctului cheie. Acest cadru este considerat defect și poate duce la interpretarea greșită atât a caracteristicilor RGB, cât și a punctelor cheie. Figura 6 prezintă o ilustrare a cadrelor defecte din setul de date RTWH-PHOENIX [33]. Pentru a rezolva această problemă, am adăugat un strat de atenție.

Figure 6


Figura 6. Ilustrarea cadrelor cu defecte pe setul de date RWTH-PHOENIX [33,39]. Unele dintre punctele cheie din zona mâinii sunt în poziție greșită din cauza imaginilor neclare.

Folosind algoritmul CTC, alinierea căii împreună cu etichetarea acesteia se realizează prin utilizarea unei etichete goale și eliminarea etichetelor repetate. CTC preferă să prezică etichetele goale, mai degrabă decât limitele lucioase, când nu poate distinge limitele lucioase, dar niciunul dintre rezultate nu este convingător. Acest lucru determină rețeaua să folosească CTC pentru a produce vârfuri în rezultate atunci când analizează, învață și prezice [42,43]. În general, pierderea CTC caută cadrele cheie, iar ultimul rezultat este predicția unui anumit cadru cheie care are o probabilitate mare de a fi o etichetă goală sau o etichetă neblankă. Dacă luciul prezice aceeași etichetă sau etichetă goală consecutiv, rezultă aceeași ieșire. Cu toate acestea, dacă există o etichetă de inserare între aceeași etichetă, chiar dacă există o singură greșeală, aceasta duce la o pierdere mult mai mare. Aici adăugarea unui strat de atenție ajută la selectarea secvenței temporale importante înainte de a fi utilizată pentru învățarea secvențială.

Modulul de atenție folosește un mecanism de autoatenție cu mai multe capete [20]. Modulul cu mai multe capete este folosit pentru a rula mai multe mecanisme paralele de atenție în același timp. Atenția cu mai multe capete rulează independent pentru a se concentra pe dependențele pe termen scurt sau pe dependențele pe termen lung într-un cap separat. Fiecare ieșire este apoi concatenată liniar și transformată în forma dorită.

Concomitent, mecanismul de autoatenție cu mai multe capete are grijă de informațiile din subspații de reprezentare multiple, în funcție de istoricul observațiilor. Pentru simplitate, notăm secvențele de intrare ca X. Matematic, pentru modelul de atenție cu un singur cap, dat de intrare X t − T plus 1:t=[X t − T plus 1, · · ·, X t ] ∈ RT × N × P, se obțin trei subspații și anume, subspațiul de interogare Q ∈ RN ×dq, subspațiul cheie K ∈ RN × dk și subspațiul valorii V ∈ RN × dv. Procesul de învățare subspațial latent poate fi formulat astfel [20]:

Q=XWQ, K=XWK , V=XWV ,

Apoi, atenția produsului punctat scalat este utilizată pentru a calcula rezultatul atenției ca [20]:

Atenție(Q, K, V)=deci f tmaxQKT/ p dkV,

În plus, dacă avem mai multe capete care urmăresc concomitent reprezentările multiple ale intrării, putem obține rezultate mai relevante în același timp. Pasul final este concatenarea tuturor capetelor și proiectarea lor din nou pentru a calcula scorul final [20]:

MultiHead(Q,K,V)=Concat(head1,... , capete )WO,

cap=Atenție(Qi,Ki,Vi),

unde Qi=XWQ i , Ki=XWVi și WO ∈ R hd × dmodel. În cele din urmă, poate selecta partea importantă din secvența de caracteristici, deoarece nu toate informațiile din secvență sunt importante.

După cum se arată în Figura 7, folosim modulul de atenție în mai multe configurații. Primul modul de atenție este plasat la capătul modulului spațial, în timp ce al doilea și al treilea modul de atenție sunt plasate în modulul temporal. Al doilea modul de atenție, numit modul temporal timpuriu, este plasat după primul bloc de pooling temporal ca intrare, în timp ce al treilea modul de atenție temporală, numit modul de atenție temporală târzie, este plasat după al doilea bloc de pooling temporal.

Figure 7

Figura 7. Modulele de atenție sunt încorporate în module spațiale și temporale în diferite configurații.

S-ar putea sa-ti placa si