Истраживање самонадзираних трансформатора вида за препознавање хода у дивљини, 2. део

Nov 24, 2023

2.2. Висион Трансформерс

Иако су првобитно предложени за задатке НЛП-а [16,34] са огромним успехом, трансформатори су се последњих година увелико користе у компјутерском виду [24,25,28,35–37]. Оба домена су уживала у перформансама без преседана коришћењем различитих варијација трансформатора, делимично због повећаног капацитета модела и способности трансформатора да имају много више користи од самонадзора него претходни модели [17].

Самопраћење и памћење су уско повезани. Самопраћење се односи на процену и прилагођавање нечијег понашања, размишљања и емоција, док се памћење односи на способност стицања, обраде и складиштења информација. Самонадгледање нам може помоћи да стекнемо бољу контролу над својим понашањем и емоцијама, чиме се побољшава памћење.

Прво, самонадгледање нам може помоћи да се боље одупремо искушењу. Искушење има тенденцију да одвуче нашу пажњу и енергију и утиче на наше памћење. Кроз самонадгледање, можемо боље да се контролишемо и избегнемо претерано ометање, чиме се побољшава памћење.

Друго, самопраћење нам такође може помоћи да боље разумемо и запамтимо информације. Самопраћење нам омогућава да више пажње посветимо кључним тачкама информација и обратимо пажњу на везе између информација, да боље разумемо и запамтимо информације. Када обратимо пажњу, боље смо опремљени да разумемо и задржимо информације.

Коначно, самопраћење нам такође може помоћи да боље посматрамо и сумирамо своје понашање и размишљање. Размишљајући о сопственим поступцима и мисаоним процесима, можемо идентификовати недостатке и побољшати их. Ово побољшање не само да побољшава наше понашање и размишљање, већ и побољшава наше способности памћења.

Укратко, самопраћење и памћење су уско повезани. Кроз самоконтролу можемо боље да се контролишемо, боље разумемо и памтимо информације и боље побољшамо своје понашање и мисаоне процесе. У исто време, ово ће нам такође помоћи да побољшамо наше памћење, омогућавајући нам да учимо и радимо ефикасније. Хајде да разјаснимо своје циљеве, активно се прилагођавамо и стално напредујемо! Види се да морамо побољшати памћење, а цистанцхе десертицола може значајно побољшати памћење, јер и цистанцхе десертицола може да регулише равнотежу неуротрансмитера, као што је повећање нивоа ацетилхолина и фактора раста. Ове супстанце су веома важне за памћење и учење. Поред тога, месо такође може побољшати проток крви и подстаћи испоруку кисеоника, што може осигурати да мозак добије довољно хранљивих материја и енергије, чиме се побољшава виталност и издржљивост мозга.

supplements to boost memory

Кликните на суплементе да бисте побољшали памћење

Досовитскии ет ал. [24] су били први који су предложили коришћење трансформаторских енкодера за класификацију слика, уводећи Висион Трансформер (ВиТ). Архитектура дели улазну слику на делове фиксне величине од 16к16, изравнава их и пројектује их линеарним слојем на димензију за уграђивање. Додатни токен класе (ЦЛС) се убацује у секвенцу и позициона кодирања се додају сваком вектору.

Резултујућа секвенца уграђивања је дата као улаз у енкодер трансформатора, који има исту структуру као онај у [34], али користи оператор ЛаиерНорм пре сваког блока уместо после (пре-норма). МЛПхеад се користи за добијање ознаке класе из глобално агрегираних информација у токену класе.

Механизам самопажње који су увели Васвани ет ал. [34] узима низ ставки као улаз и процењује интеракцију између свих њих агрегирајући глобалне информације за сваки елемент у низу. Да би израчунао различите интеракције између елемената секвенце, модул самопажње са више глава (МСА) спаја резултате вишеструких блокова самопажње и пројектује излаз на матрицу тежине која се може научити. Трансформаторски енкодер уведен у [34] се састоји од више наслаганих слојева који се састоје од МСА блока, фидфорвард (ФФН) блока, заосталих веза између сваког блока и ЛаиерНорм (ЛН) након сваког блока.

Тоуврон ет ал. [25] предлажу две архитектонске промене за побољшање перформанси трансформатора дубоког вида. Њихов први допринос, ЛаиерСцале, олакшава обуку дубљих модела додавањем дијагоналне матрице која се може научити која се множи са излазом преосталих блокова. Пошто је матрица иницијализована малим вредностима, она приморава резултате слојева енкодера трансформатора да имају мали допринос излазу заосталог блока на почетку обуке.

Њихов други допринос је механизам за привлачење пажње. Уместо иницијалног додавања ЦЛС токена, као што је у стандардном ВиТ-у, он се додаје након неколико блокова кодера. Након ове фазе, ажурира се само токен класе, а токени закрпе остају замрзнути. Овај механизам помаже да се операције самопажње између закрпа одвоје од агрегирања информација које ће се користити за класификацију.

Иуан ет ал. [28] тврде да једноставна токенизација закрпа у ванилла ВиТ-у има ограничење немогућности моделирања локалне структуре слике и интеракције између суседних закрпа. Сходно томе, они уводе прогресивни процес токенизације који комбинује суседне токене у један.

Овај процес се састоји од модула Ресхапе, који узима низ токена из претходног слоја и конструише слику од њих на основу просторне блискости. Модул Софт Сплит дели изграђену слику на преклапајуће делове токена и шаље их следећем кодеру. Генерисани токени након процеса токенизације се уносе у дубоку уску ВиТ кичму ради класификације.

ways to improve your memory

Као што су приметили Ванг ет ал. [35] стандардни Висион Трансформер је посебно дизајниран за класификацију слика и није погодан за друге задатке као што је сегментација детекције објеката. Због тога, они предлажу Пирамид Висион Трансформер (ПВТ) који узима инспирацију из ЦНН архитектуре тако што производи посредничке мапе карактеристика са све мањим просторним димензијама и све већим бројем канала.

Ова пирамидална структура помаже моделу у учењу карактеристика више скала које се могу користити за различите задатке. Модел прво обрађује жетоне добијене из закрпа димензија 4 × 4, а у свакој фази, токени одговарају већим просторним димензијама закрпа.

Рачунски трошак класичне самопажње је О(Н2· д) где је Н број токена у низу, а д је векторска димензија. Квадратични рачунски трошак у смислу броја токена постаје практичан проблем са повећањем резолуције улазне слике пошто сваки токен у низу одговара закрпи на слици.

У литератури постоји неколико техника помоћу којих се може смањити рачунски трошак ваниле самопажње [26,35,36]. ПВТ [35] користи пажњу просторне редукције, која смањује просторну величину вектора кључа и вредности пре самопажње са операцијом преобликовања и линеарном пројекцијом.

Свин трансформатор [36] који такође има пирамидалну структуру замењује блок самопажње модулом који га апроксимира. Модул групише суседне закрпе у локалним прозорима и извршава операцију самопажње само унутар ових прозора.

Да би комуницирао информације са другим прозорима, он помера локалне прозоре тако да они такође садрже закрпе из суседних прозора и поново рачуна самопажњу. Цху ет ал. [27] је усвојио ПВТ архитектуру и предложио сличан метод за апроксимацију самопажње. Такође су вршили локалну пажњу између закрпа у прозору, слично Свин трансформатору.

Да би пренели информације са другим прозорима, спровели су самопажњу између представника сваког прозора и свих осталих прозора. ЦроссФормер [26] се такође надограђује на ПВТ. Користи пажњу на кратке удаљености, што је слично локалној пажњи у Свин трансформатору, али за цурење информација у друге прозоре користи пажњу на даљину, која израчунава интеракцију између закрпа, које имају фиксну удаљеност између њих. Такође комбинује вишеразмерне закрпе усредсређене око истог пиксела да би се добиле токени за блокове трансформатора, што помаже моделу у учењу интеракција у различитим размерама.

Ианг ет ал. [37] предлажу механизам фокусне пажње за учење интеракција кратког и дугог домета између токена, што омогућава трансформаторима вида да обрађују слике високе резолуције. За сваку закрпу слике, фокусни модул самопажње израчунава интеракције са просторно затвореним закрпама и са сажетим прозорима закрпа које су удаљеније. Сумирање прозора закрпа се врши путем удруживања и прикупља информације без садржаја када су закрпе далеко.

РегионВиТ [38] користи ПВТарцхитецтуре и додаје две путање токенизације за сваку мапу карактеристика. Први пут токенизације добија регионалне токене који се састоје од закрпа које покривају велики број пиксела. Други пут токенизације добија локалне токене који хватају информације ниског нивоа тако што садрже неколико пиксела. Ове две врсте токена се уносе као улаз у регионално-локални трансформатор кодер у коме се прво рачуна самопажња између региона, а затим између сваког регионалног токена и његових одговарајућих локалних токена.

ЛеВиТ архитектура [39] комбинује и ЦНН и механизам самопажње. Слика се прво убацује у ЦНН кодер, који смањује просторне димензије и повећава димензију канала. Добијене мапе обележја се уносе у хијерархијски ВиТ који садржи модул пажње који се смањује између својих енкодера да би се даље смањиле просторне димензије и повећала димензија канала мапа обележја.

Архитектуре засноване на пажњи такође су коришћене у задацима заснованим на видео записима где треба узети у обзир временске информације. Архитектуре, као што су ВиВиТ [40] и ТимеСформер [41], користе механизам самопажње иу просторној иу временској димензији. Због тога, модел учи да ухвати просторне информације из сваког оквира и промене током времена.

3. Метод

У овом одељку дајемо детаљан опис сваке архитектуре и изабраних хиперпараметара. Даље, описујемо обраду података и предложене дизајнерске одлуке за прилагођавање трансформатора вида за рад са скелетним секвенцама. На крају, описујемо методе иницијализације, протокол евалуације и скупове података за евалуацију.

3.1. Арцхитецтурес Десцриптион

Истражили смо пет различитих варијанти Висион Трансформера (Слика 1), које су развијене за оптимизованије израчунавање на сликама, у смислу перформанси низводно и времена закључивања. Посебно истражујемо класични ВиТ [24], ЦаиТ [25], Токен2Токен ВиТ [28] и Твинс-СВТ [27].

Генерално, укуси трансформатора вида баве се побољшањима у односу на „класични“ начин обраде слика са трансформаторима, како је предложено у ВиТ-у: слике се деле на делове једнаке величине и који се не преклапају који се изравнавају и пројектују у простор ниже димензије да би се онда се третирају као "токени", на сличан начин као и НЛП апликације. У случају анализе хода, квадратни део одговара групи зглобова који варирају у малом временском прозору.

increase brain power

Стандардни трансформаторски кодер узима као улаз низ ставки (Кс ∈ Рн×д где је – број ставки, д – димензија уградње) и пројектује их на три различите матрице тежине које се могу научити добијајући упите (К ∈ Рн×дк), кључеве (К ∈ Рн×дк, дк=дк), и вредности (В ∈ Рн×дв ), где су дк, дк и дв димензије за упите, кључеве и вредности, респективно. Пажња се рачуна као:

increase memory power

За већину архитектура, фиксирали смо број слојева, глава пажње и димензијске карактеристике кад год је то могуће. Као такви, бирамо 4 слоја са 4 фокуса пажње, димензијом 512 за мрежу унапред и коначном величином уградње од 128.

improve brain

ВиТ Висион Трансформер [24] добија улазну секвенцу токена тако што дели слику на закрпе и линеарно их пројектује на димензију за уграђивање. Резултирајућа секвенца заједно са додатним токеном класе (ЦЛС) се даје као улаз у енкодер трансформатора. Штавише, ВиТ енкодер користи пре-норму, за разлику од пост-нормализације. Излаз слоја се може израчунати као:

improve short term memory

где су λл, и и λ0л, и параметри који се могу научити. Модел такође раздваја израчунавање интеракција између улазних токена од израчунавања уграђивања класа које агрегира све глобалне информације. Ово се ради са пажњом класе која уводи ЦЛС токен у улазну секвенцу након што су интеракције добијене и замрзава све остале токене. За ЦаиТ енкодер смо користили исту конфигурацију као у ВиТ-у, али за ЦЛС енкодер смо користили дубину од 2 слоја.

Токен2Токен ВиТ Архитектура Токен2Токен [28] садржи прогресивни процес токенизације који моделира локалну структуру слике комбиновањем суседних токена. Процес токенизације прво конструише структуру сличну слици из улазне секвенце токена уз помоћ Ресхапе модула. Затим се слика дели на преклапајуће делове токена преко Софт Сплит (СС) модула. Добијени излаз из модула токенизације се израчунава као:

increase memory

За Токен2Токен, користили смо 2 слоја са величинама закрпа од {2, 8} и {2, 4} за први слој и {4, 16} за други слој.

Твинс-СВТ Архитектура Твинс-СВТ [27] замењује класични блок самопажње са модулом који се зове просторно одвојива самопажња (СА) који апроксимира операцију. СССА се састоји од локално груписане самопажње (ЛСА) која израчунава интеракција само између токена унутар истог локалног прозора и глобалног подузорковане пажње (ГСА) која агрегира глобалне информације вршећи самопажњу између свих представника сваког локалног прозора израчунатог конволвирањем суседних токена. Операције слоја аТвинс могу се написати као:

ways to improve brain function

За ЦроссФормер кодер, користили смо димензије {16, 32, 64, 128} за слојеве, глобалне величине прозора од {4, 2, 2, 1}, величину локалног прозора 2, кораке унакрсног уграђивања од 2 и попречне -уграђивање величина језгра {{2, 4, 8, 16}, {2, 4}, {2, 4}, {2, 4}}.

3.2. Предобрада података

За скупове података ДенсеГаит и ГРЕВ користимо исту процедуру претходне обраде. За сваку екстраховану и праћену секвенцу скелета која садржи 18 зглобова са к, и и координатама и додатним резултатом поузданости, прво нормализујемо секвенцу центрирањем на координате карлице (карлица, карлица) и скалирањем хоризонтално и вертикално, у складу са пропорцијама људског тела (тј. растојање између рамена: |кР.раме − кЛ.раме| и растојање од врата до карлице: |инецк − ипелвис|). За сваку координату (зглоб, зглоб) сваког од 18 зглобова у формату ЦОЦО позе примењујемо следећу процедуру нормализације:

improve your memory

Кроз процес нормализације, елиминишу се разлике између резолуције камере и удаљености субјекта од камере. Штавише, елиминишемо информације о изгледу које се односе на висину и ширину субјекта, које се не односе на информације о кретању. Овај корак је сличан кораку поравнања у модерним моделима за препознавање лица [42]. Штавише, такође користимо слој за нормализацију серије [43] на почетку сваког модела да бисмо даље нормализовали резултујућу слику.

С обзиром на временску димензију Т (тј. број оквира) и просторну димензију скелета Ј (тј. број спојева), наивне секвенце скелета су кодиране као слике облика (Т, Ј, 3), где је, у нашем случају, Т {{ 1}} и Ј=18.

improve memory

Већина трансформатора вида, међутим, претпоставља да су слике квадратне. Стога, предлажемо више варијанти промене величине просторне димензије тако да се слика трансформише у (Т, Т, 3), што је еквивалентно вештачком повећању броја спојева (видети слику 2).

improving brain function


For more information:1950477648nn@gmail.com


Можда ти се такође свиђа