Ново просторно-временско непрекидно препознавање знаковног језика помоћу пажљиве мреже са више функција(1)

Jun 01, 2023

Апстрактан: С обзиром на видео стримове, циљ нам је да исправно откријемо несегментиране знакове који се односе на континуирано препознавање знаковног језика (ЦСЛР). Упркос повећању предложених метода дубоког учења у овој области, већина њих се углавном фокусира на коришћење само РГБ функције, било слике целог кадра или детаља руку и лица. Недостатак информација за ЦСЛР процес обуке у великој мери ограничава способност учења више функција коришћењем видео улазних оквира. Штавише, коришћење свих фрејмова у видео снимку за ЦСЛР задатак може довести до неоптималних перформанси јер сваки кадар садржи другачији ниво информација, укључујући главне карактеристике у закључивању о шуму. Стога, предлажемо ново просторно-временско континуирано препознавање знаковног језика користећи пажљиву мрежу са више функција за побољшање ЦСЛР-а пружањем додатних функција кључних тачака. Поред тога, користимо слој пажње у просторним и временским модулима да бисмо истовремено нагласили више важних карактеристика. Експериментални резултати из оба ЦСЛР скупа података показују да предложени метод постиже супериорне перформансе у поређењу са тренутним најсавременијим методама за 0.76 и 20.56 за ВЕР резултат на ЦСЛ и ПХОЕНИКС скуповима података, респективно.

Desert living cistanche

Суперман хербс цистанцхе

Кључне речи: континуирани знаковни језик; просторни; темпорал; мулти-феатуре; Кључне тачке; самопажња

1. Представљање

Знаковни језик даје приоритет ручној комуникацији користећи покрете руку, говор тела и покрете усана уместо звука за комуникацију [1,2]. Обично знаковни језик користе особе које су глуве или наглуве, али се може користити и у ситуацијама када је немогуће или тешко чути звукове. Због тога је потребан систем за препознавање знаковног језика (СЛР) јер помаже у повезивању људи који слабо чују и оних који нису.

Последњих година истраживачи су посветили велику пажњу СЛР-у због богатих визуелних информација које пружа. Недавне СЛР студије се обично групишу у изоловано препознавање знаковног језика (ИСЛР) или континуирано препознавање знаковног језика (ЦСЛР). Неколико радова се бави само ИСЛР [3,4], док други анализирају само лакше задатке, као што су статички гестови за препознавање алфабета [5]. У међувремену, најновије методе су обично компликованије јер решавају ЦСЛР задатке [6–8]. У поређењу са ИСЛР-ом, ЦСЛР је изазовнији проблем јер укључује реконструкцију реченица.

Cistanche tea2

Цистанцхе чај

Кликните овде да видите производе чаја Цистанцхе десертицола

【Затражите више】 Е-пошта:cindy.xue@wecistanche.com / Вхатс Апп: 0086 18599088692 / Вецхат: 18599088692

ЦСЛР истраживања су и даље веома тражена јер је њихова примена уско повезана са свакодневним условима у стварном свету. Овај приступ има за циљ да препозна низ сјајева који се јављају у видео серији без јасне сегментације или чак без икаквих. Штавише, он укључује много истраживања машинског учења и темељно разумевање људског понашања. На пример, укључује праћење кретања људи [9], препознавање геста [10] и препознавање лица [11]. Ипак, постоји неколико изазова за обављање ЦСЛР задатака.

Прво, прикупљање података и бележење су скупи за ЦСЛР [12]. Ово је можда један од изазова са којима се суочава у његовом развоју пошто је ЦСЛР укључен у велику мрежу и количина података снажно утиче на перформансе [13]. Штавише, неколико доступних скупова података за знаковни језик је слабо означено [12,14,15]. Да би се решио овај проблем, бројне студије су користиле слабо надгледани приступ, уз примену модула за поравнање и издвајање карактеристика на архитектуру мреже [12].

Друго, у поређењу са ИСЛР-ом, ЦСЛР је компликованији. Довољно информација се добија коришћењем неколико функција; доказано је да ово постиже боље перформансе него коришћење једне карактеристике као што је објављено у претходним радовима [16–18]. Ове вишеструке карактеристике састоје се од главне карактеристике која је слика тела која постиже највећу тачност и додатних карактеристика, као што су поза, глава, лева рука и десна рука, која има нижу тачност за индивидуалне перформансе [17,18]. Обука велике мреже са великом количином података је дуготрајна [13]. Додавање улазног тока такође повећава време обуке, док коришћење додатних функција заснованих на сликама повећава цену [19]. Због тога морамо да изаберемо важне карактеристике да бисмо могли ефикасно да тренирамо.

Cistanche deserticola slice (1)

Кинеска трава цистанцхе

Треће, видео улаз има велики број слика у низу. Неке слике имају нејасан облик руке због брзог кретања, што може довести до нетачних информација. Стога, наш предложени модел користи самопажњу на основу [20] да би помогао у одабиру важних информација. Штавише, самопажња доказана од стране [21,22] има утицај на побољшање перформанси.

Стога, предлажемо нови модел који се зове нова просторно-временска пажљива мулти-функција (СТАМФ) за решавање свих проблема. Пратили смо претходне радове [17,23], за које је доказано да раде за ЦСЛР са слабим проблемима са напоменама. Они конструишу модел користећи три главне компоненте: прва је просторни модул, друга је темпорални модул, а трећа је модул учења секвенце. Предлажемо ефикасан и ефикасан унос са више функција користећи функцију пуног кадра заједно са функцијама кључних тачака за обављање ЦСЛР задатака. Функција пуног кадра представља слику тела као главну карактеристику, а карактеристике кључне тачке као додатну функцију. Кључна тачка је поза тела, укључујући детаље позе руке. Ова поза тела је најефикаснија додатна карактеристика јер је у неким радовима доказано да постиже највећу прецизност после функције пуног кадра [17,18]. Такође користимо модул пажње који користи самопажњу засновану на [20] да ухвати важну карактеристику и да помогне учењу секвенце да побољша перформансе.

Допринос овог рукописа је сажет на следећи начин: • Уводимо нову временску пажњу у модул секвенце да бисмо ухватили важне временске тачке које доприносе коначном резултату; • Уводимо вишеструку функцију која се састоји од функције пуног кадра од РГБ вредности оквира као главне карактеристике и кључних тачака које укључују позу тела са детаљима облика руке као додатну функцију за побољшање перформанси препознавања модела; • Користимо ВЕР метрику да покажемо да наш предложени СТАМФ модел надмашује најсавременије моделе на оба скупа ЦСЛР референтних података кроз експерименте.

cistanche—Improve memory4

Цистанцхе додатак близу мене - Побољшајте памћење

2. Сродни радови

Било је неколико напретка у технологији и многа истраживања су обављена о СЛР-у. Претходне студије [24–27] су истраживале могућност коришћења ИСЛР-а који има сегментацију за сваку реч. Последњих година, методе засноване на дубоком учењу су коришћене за издвајање карактеристика коришћењем конволуционих мрежа, било 2Д [28,29] или 3Д [30,31], за њихово снажно визуелно представљање. Већина раних истраживања о препознавању знаковног језика била је усредсређена на ИСЛР са мултимодалним карактеристикама [30–32], као што су РГБ, мапе дубине и скелети, који дају боље перформансе.

Данас је ЦСЛР постао популарнији, иако није јасно сегментиран између сваке речи. Рани радови користе екстрактор карактеристика ЦНН-а [6,33] и ХММ [34] за изградњу циља секвенце. Нека недавна истраживања за ЦСЛР системе [17,23] су укључила три главна корака у обављању задатка препознавања проблема. Прво су спровели екстракцију просторних обележја, затим временску сегментацију и на крају синтезу реченица са језичким моделом [35], или су користили учење секвенци [17,23]. Ово учење секвенце користило је Би-ЛСТМ и ЦТЦ да би открило однос између сјаја знакова у видео секвенцама. Иако користи слабу напомену која има несегментиране видео секвенце за дефинисање сјаја знакова, ови приступи су показали обећавајуће резултате.

Међутим, најновија повезана ЦЛСР студија која је имплементирала приступ са више функција [17] користила је пет карактеристика истовремено. Приступ са више функција је тежи у поређењу са коришћењем мањег броја карактеристика [19]. Овај приступ такође не може да се носи са бучним кадровима из видео секвенце који имају нејасне информације, као што је замагљен облик руке услед брзог кретања. Штавише, ослањање на учење секвенци засновано на РНН-у може наићи на проблеме са дугим секвенцама и може изгубити глобални контекст [20].

cistanche—Improve memory3

Цистанцхе додатак близу мене - Побољшајте памћење

Садашње истраживање има за циљ да побољша перформансе додавањем механизма самопажње [21,22] који може да обрађује дуже секвенце како би научио глобални контекст. Самопажња се заснива на раним истраживањима [20] која су показала да самопажња има предност у томе што може да се носи са дугим зависностима. Међутим, ову самопажњу је лакше научити краћи пут у поређењу са дужим путем са дугим зависностима. У претходним ЦЛСР радовима [21,22] самопажња је могла помоћи мрежи да ефикасније научи ову функцију.

Стога, у овом раду представљамо нови просторно-временски пажљив модел са више функција. Овај предложени модел ефикасно издваја важне карактеристике и боље учи секвенцу дајући важне информације користећи механизам самопажње из више функција. Сви процеси се изводе у приступу од краја до краја.

3. Предложени метод

Овај одељак детаљно описује основне технике нашег предложеног модела за ЦСЛР. Стога почињемо овај одељак објашњавајући преглед нашег предложеног модела. Поред тога, пружамо више детаља о свакој кључној компоненти, укључујући просторни модул, временски модул и модул учења секвенце. Поред тога, такође објашњавамо наш предложени модул пажње како бисмо помогли моделу да боље учи. Коначно, можемо интегрисати оквир за обуку и закључивање у наш предложени модел.

3.1. Преглед оквира

С обзиром на видео улаз, наш предложени модел има за циљ да предвиди одговарајући знак у исправну реченицу сјаја. Први модул генерише вишеструке просторне карактеристике, као што су функције пуног кадра и кључне тачке за сваки Т оквир видеа. Затим, темпорални модул нам омогућава да издвојимо временске корелације просторних карактеристика између оквира за оба тока. Као последњи корак, просторне и временске мреже су повезане са двосмерном краткорочном меморијом (Би-ЛСТМ) и ЦТЦ-ом за учење секвенце и закључивање. Затим ћемо детаљније и узастопно објаснити наше главне компоненте. Преглед наше предложене архитектуре приказан је на слици 1.

Figure 1


Слика 1. Укупна архитектура предложене методе састоји се од три компоненте: просторног модула, временског модула и модула за учење секвенце. Просторни модул прво узима секвенцу слике да би издвојио карактеристике оквира, а затим примењује временски модул да би издвојио временске карактеристике. Затим се временске карактеристике шаљу модулу за учење секвенце да би извршио предвиђање речи и конструисао је у реченицу

3.2. Спатиал Модуле

Просторни модул користи функцију пуног кадра и карактеристике кључне тачке, као што је приказано на слици 2. Овај модул користи 2Д-ЦНН мрежну архитектуру као окосницу, а РесНет50 је изабран да ухвати више функција. РесНет50 је ефикаснији за коришћење у поређењу са недавном РесНет архитектуром у смислу времена, док има упоредив резултат [36,37]. РГБ директно користи РесНет50, док ХРНет [38] добија кључну тачку из видео оквира и екстрахује помоћу РесНет50 да би добио карактеристике кључне тачке.

Figure 2


Слика 2. Архитектура просторног модула користи вишеструки улаз. РГБ стрим као функција пуног кадра, а кључне тачке стрим као функција кључне тачке.

3.2.1. Функција пуног кадра

Применили смо наше кораке претходне обраде на РГБ податке, а затим унели наше податке у модел. Затим их стављамо као улаз пуног оквира у нашу архитектуру. Слика 3 приказује илустрацију оригиналне РГБ слике на левој страни и исечене слике на десној страни. Изрезана слика се користи као унос од стране модела. Ово илуструје корак предобраде који смањује мање важне делове слике и ставља већи фокус на потписника. Ово исецање користи метод насумице из [12] за повећање скупа података. Функција пуног кадра се издваја из исечене слике за сваки кадар у низу помоћу РесНет50.

Figure 3


Слика 3. Функција пуног кадра која користи РГБ слику, (лева слика) је оригинална слика, а (десна слика) је исечена слика коју треба прилагодити предложеном моделу

3.2.2. Кеипоинт Феатурес

Издвојили смо карактеристике кључне тачке у просторном модулу из података РГБ за сваки оквир у видео улазу. Квалитет карактеристика кључних тачака има важну улогу у нашем предложеном моделу, тако да морамо да користимо робустан приступ, као што је ХРНет [38]. Користили смо претходно обучени ХРНет [38] да проценимо свих 133 кључне тачке тела, а користили смо 27 од 133 кључне тачке из његовог резултата. Као што је приказано на слици 4, лева страна је оригинална кључна тачка горњег дела тела, а десна је изабраних 27 кључних тачака горњег дела тела. Ових 27 кључних тачака укључују зглобове, лактове, рамена, врат, руке и прсте.

Figure 4


Слика 4. Карактеристике кључних тачака скупа података ПХОЕНИКС-РВТХ [33,39], (лева слика) екстракција из РГБ слике, а (десна слика) је изабрана кључна тачка коју користи предложени модел.

3.3. Темпорал Модуле

Темпорални модул има за циљ да научи просторно-временске информације из просторног модула. Темпорални модули се конструишу наслаганим временским обједињавањем за сваки ток. Као што је приказано на слици 5, модул за временско обједињавање се састоји од слоја временске конволуције и слоја обједињавања за издвајање карактеристика из секвенцијалних улаза.

Figure 5.


Слика 5. Архитектура темпоралног модула састоји се од наслаганог 1Д-ЦНН-а и слоја за обједињавање који је уграђен са модулом пажње. Радите паралелно за оба тока обележја спојених на крају наслаганих слојева и производите једно временско обележје са дужином секвенце четири пута мањом.

Улаз је листа просторних вишеструких карактеристика из претходне фазе. Временска карактеристика се добија коришћењем слоја темпоралне конволуције који је један 1Д конволуциони слој са истим улазним и излазним дужинама, а затим следи један слој обједињавања који смањује величину на пола. Према претходним радовима [12], најбоља је конфигурација коришћење ова два наслагана слоја временског обједињавања. Након сваког временског удруживања, уграђујемо модул пажње који ће бити детаљно објашњен у одељку 3.4. На крају, спајамо излаз временског удруживања из оба тока.

3.4. Модул за пажњу

Видео има више кадрова у којима су неки делови слике понекад замућени. РТВХ-ПХОЕНИКС скуп података [33,39] има више дефектних оквира од ЦСЛ скупа података [8,40,41]. Ово се дешава када је кретање пребрзо, стварајући мутну слику и резултирајући погрешном локацијом кључне тачке. Овај оквир се сматра неисправним и потенцијално доводи до погрешног тумачења и РГБ и карактеристика кључне тачке. Слика 6 приказује илустрацију неисправних оквира у скупу података РТВХ-ПХОЕНИКС [33]. Да бисмо решили овај проблем, додали смо слој пажње.

Figure 6


Слика 6. Илустрација дефектних оквира на РВТХ-ПХОЕНИКС скупу података [33,39]. Неке од кључних тачака у пределу руку су у погрешном положају због мутних слика.

Користећи ЦТЦ алгоритам, поравнање путање заједно са њеним означавањем се врши коришћењем празне етикете и уклањањем ознака понављања. ЦТЦ више воли да предвиђа празне етикете него границе сјаја када не може да разликује границу сјаја, али ниједан од резултата није убедљив. Ово доводи до тога да мрежа користи ЦТЦ да би произвела скокове у резултатима приликом анализе, учења и предвиђања [42,43]. Генерално, губитак ЦТЦ тражи кључне кадрове, а последњи резултат је предвиђање одређеног кључног кадра за који постоји велика вероватноћа да ће бити празна ознака или ознака која није празна. Ако сјај предвиђа исту етикету или празну етикету узастопно, то резултира истим резултатом. Међутим, ако постоји ознака за уметање између исте ознаке, чак и ако постоји само једна грешка, то резултира много већим губитком. Овде додавање слоја пажње помаже да се изабере важан временски низ пре него што се користи за секвенцијално учење.

Модул пажње користи механизам самопажње са више глава [20]. Модул са више глава се користи за покретање неколико паралелних механизама пажње у исто време. Пажња више глава се покреће независно како би се фокусирала на краткорочне зависности или дугорочне зависности у посебној глави. Сваки излаз се затим линеарно спаја и трансформише у жељени облик.

Истовремено, механизам самопажње са више глава брине о информацијама из вишеструких подпростора репрезентације, у зависности од историје посматрања. Ради једноставности, означавамо улазне секвенце са Кс. Математички, за модел пажње са једном главом, дат је улаз Кс т − Т плус 1:т=[Кс т − Т плус 1, · · ·, Кс т ] ∈ РТ × Н × П, добијају се три подпростора, и то упитни подпростор К ∈ РН ×дк, подпростор кључа К ∈ РН × дк и подпростор вредности В ∈ РН × дв. Процес учења латентног подпростора може се формулисати као [20]:

К=КСВК, К=КСВК, В=КСВВ,

Затим, скалирана пажња тачка-производа се користи за израчунавање излазне пажње као [20]:

Пажња(К, К, В)=па ф тмакККТ/ п дкВ,

Штавише, ако имамо више глава које истовремено прате вишеструке репрезентације улаза, можемо добити релевантније резултате у исто време. Последњи корак је спајање свих глава и њихово пројектовање поново да би се израчунао коначни резултат [20]:

МултиХеад(К,К,В)=Цонцат(хеад1,..., хеадс )ВО,

глава=Пажња(Ки,Ки,Ви),

где је Ки=КСВК и , Ки=КСВВи , и ВО ∈ Р хд × дмодел. Коначно, може да изабере важан део из низа карактеристика јер нису све информације у низу важне.

Као што је приказано на слици 7, користимо модул пажње у неколико конфигурација. Први модул пажње налази се на крају просторног модула, док су други и трећи модул пажње смештени у темпорални модул. Други модул пажње који се зове рани темпорални модул, поставља се после првог блока временског обједињавања као улаз, док се трећи модул темпоралне пажње, који се назива модул касне темпоралне пажње, поставља после другог блока временског обједињавања.

Figure 7

Слика 7. Модули пажње су уграђени у просторне и временске модуле у различитим конфигурацијама.

Можда ти се такође свиђа