【免费】FocalModulationNetworks-翻译_FocalModulation代码资源-CSDN文库

需积分: 0 146 浏览量 2024-01-14 18:18:08 上传评论收藏 6.89MB PDF 举报

资源推荐

资源详情

资源评论

󶃇󷮤󴇗󶻲󶹽

󵜉󴺛󳻀

1󱾢

󵛯󵗆󵸱

1󱾢

󵇕󴶭󸗔

2󱾢

󷠢󶐱

2󱾢

󸩹󴇲󸒬

󴽏󷼐󸚘󴽘󷐺󴽘󶞵󶨗󸘃󾺭

󴽏󷼐󳸲+ AI {jianwyan,chunyl,xidai,luyuan,

jfgao}@microsoft.com

󴚟1:󶹺󴬻󴚟󴁰󾺭󶃇󷮤󴇗󶻲󶹽(FocalNet)󷠉󶍑󴆛󸛿󴆂󶘥󴎐󷦄󸅫󴿈-󷮤󴇗󷆋󴉉󴸗󷾱󵶱󵓗󵓼󳸯󷮒󴮝󷭧󴇌󶰜󴇌󶘥󶈊󳻴

󴋛󴞀󱾣󵱂󵚪󳼠󶓉󴁰CAM[117]󵆷Grad-CAM[61]󷽺󵟘󶘥󷥧󷥪󷦄󸅫󴶆󴄘󱾣

󵏹󷤢󱾣

󵆲󳺍󵍱󴆛󶃇󷮤󴇗󶻲󶹽(󶬡󶦑FocalNets)󾺭󴄗󳷎󷆋󵲉󵂰(SA)󴬭󴄉󷡌󶃇󷮤󴇗󵧂󴛸󵇡󴍷󳺄󾺭

󶓉󳸯󷥧󷥪󳷎󶘥󳺅󶇭󳹅󳸳󴺛󵧂󱾣󶿻󶃇󷮤󴇗󴊦󵊍󳶪󳷋󶹥󵆱󸂉󴆧:(i)󳼠󶓉󵶒󴹇󴌘󶦐󴯣󴞧󵞩󴬿

󶍑󶘥󶿻󶃇󳶫󳶬󵔨󴊷󾺭󳺆󶺷󶞢󳹯󶞎󴇑󸔠󷊤󴚕󶘥󷥧󷥪󳶫󳶬󵔨;(ii)󸖉󵍈󶿻󴎩󾺭󷾪󵊊󴿈󴛑󴮧

󳶫󳶬󵔨󶿻󸙧󴇑󵭰󳷋󵞆󷮃󳺅󶇭󶘥󷮤󴇗󴘉󳷎;󳺆󴍫(iii)󴞛󳸯󴃤󶳁󶘥󳺠󴮥󴍹󵌃󾺭󴮧󷮤󴇗󴘉󵲉

󴄆󵞆󷮃󱾣󴣈󸅰󴬿󸨭󷠉󵖯󾺭FocalNets󴄘󵚪󸛿󴆂󶘥󴎐󷦄󸅫󴿈(󴚟1)󾺭󴸗󳶵󴛉󴚟󴁰󴆧󶰜󱾢󶚏

󵞨󵡡󵳬󴐭󴆧󴈓󳺜󴉂󳶫󾺭󳺆󶚙󳻝󶘥󷭂󶬸󵆱󵛍󳺹󳸯SoTA SA󴎭󷟭(󳼬󴤣Swin󴐭Focal 󴍹󴌬

󴘉)󱾣󴄘󳻴󵜆󷮕󾺭󴮰󴯛󴮙󴐭󴞛󵛍󴯛󴮙󶘥FocalNets󴛉ImageNet-1K󳶫󴎐󳺆󷽟󴇑82.3%󴐭

83.9%󶘥top-1󶱟󴹇󱾣󴛉224-2󴆧󷽉󶌨󶘥ImageNet-22K󳶫󷽼󷟭󸠥󷭎󶹤󴎯󾺭󴛉224-2󴐭384-

2󴆧󷽉󶌨󳶬󷽼󷟭󴽏󷮤󾺭󴄗top-1󴅧󶠏󶌨󴆧󴇌󷽟󴇑86.5%󴐭87.3%󱾣󴮚󳸯Mask R-CNN󶘥

󶚏󵞨󵡡󵳬[29]󾺭󶓉1x󷭎󶹤󶘥FocalNet󴞛󵭵Swin󴞛󸩹󴆛2.1󶁚󾺭󴸗󳶵󴶓󶹰󷴦󷽨󳸧󶓉3x󷭎

󶹤󶘥Swin󴞛(49.0 vs . 48.5)󱾣󴮚󳸯󳼠󶓉UPerNet󷽼󷟭󶘥󷮎󳷪󴆧󴈓[90]󾺭FocalNet󴞛󴛉󴋶

󴯛󴹇󳶫󶘥󴿈󷂞󳺹󳸯Swin 2.4󾺭󴛉󴢻󴯛󴹇󳶫󳺹󳸯Swin (50.5 vs . 49.7)󱾣󳼠󶓉󴣈󴜬

FocalNet󴐭Mask2former[13]󾺭󵆲󳺍󴮚ADE20K󷮎󳷪󴆧󴈓󴬿󶍑󳸧58.5 mIoU󾺭󴮚COCO

󴄉󴃪󴆧󴈓󴬿󶍑󳸧57.9 PQ󱾣󳼠󶓉󴶉󴣈󶘥FocalNet󴐭DINO[106]󾺭󵆲󳺍󴆧󴇌󴛉COCO

minival󴐭test-dev󳶫󴬿󶍑󳸧64.3󴐭64.4 mAP󾺭󴛉Swinv2-G[53]󴐭BEIT-3[84]󶫪󵚕󴣈󶘥

󴞛󳸯󵲉󵂰󴈼󶘥󵧂󴜬󳷬󳶫󴺛󶩬󳸧󵕑󶘥SoTA󱾣󷽺󳸼󳺅󳹛󸺴󷆿󶘥󶹴󵜽󵷓󵝴󶃇󶁚󷮤󴇗󴎐󷂞

󵗐󵆲󳺍󷥧󷥪󵇡󸚡󷤢󶘥

1󱾣

Code and models are available at: https://github.com/microsoft/FocalNet.

arXiv: 2203.11926 v3 [cs󱾣CV: 2022󴸕11󵚩5󵖆

https://fanyi.youdao.com/download

󴚟2:(window-wise) Self-Attention (SA)[79,22,54]󳶯󵆲󳺍󶘥󴺛󷭏󳷬󸖕󶘥󷮕󵖯󴿈󵭵󷼤

󶃇󷮤󴇗󱾣󶹺󴬻󵞆󷮃󳺅󶇭󴐭󶚏󵞨󳺅󶇭(󾺭󾺭)󾺭SA󸤷󴃩󵈈󷟭󵞆󷮃󸓏󳹅󳸳󳺆󷭂󶬸󵲉󵂰󴆧󵔑󾺭󶃗󴎯󵈈󷟭󵞆󷮃󳿝󶿻󴎩󳺆󳹯󳷎

󵋶󷍘󳶫󳶬󵔨

󴄗󳹷󶘥󳺅󶇭󱾣󶚙󵭵󳷬󳶬󾺭󶃇󷮤󴇗󸤷󴃩󴮧󳶮󴎭󶰳󴹇󶹈󴇌󶘥󶨛󸖕󳶫󳶬󵔨󶺷󶞢󳷛

󷮤󴇗󴘉(󾺭󾺭󾺭)󾺭󶃗󴎯󳺆󵞆󷮃󳼾󷳷󶘥󵕚󴺰󷆋󷾣󴸵󴛑󵲉󴄆󴇑󵞆󷮃󳺅󶇭󳷎󱾣󵗟󶃗󾺭SA󸚡󷤢󴣈󸅰󶘥󳹅󳸳󴐭󶿻󴎩󵑮󳻽󾺭󶾭󵆲

󳺍󶘥󶃇󷮤󴇗󴆺󶚙󴍮

󳹷󳺍󶘥󸠛󴸰󾺭󴸗󵈫󴬤󳺍󸂞󴍹󵆱󷼜󸅰󶹈󶘥󱾣󵔑󴫸󸠽󷈓󵚕󴤞󶚬󱾣

1 󳹬󶹮

󴍹󴌬󴘉[79]󵚡󴆾󵗐󳷛󷆋󶃗󷮎󷦡󴢥󶎧(NLP)󵍱󴆛󶘥󾺭󷆋󳹯󷥧󷥪󴍹󴌬󴘉(ViT)󶘥󴺡󴆼󴿈󴶆󳻽[22]󳺆󵜆󾺭󴬤󴶓󶹰

󵆱󳷛󷭂󶬸󵛛󷥧󷥪󸠧󴞀󶘥󳶡󶥮󵳢󷟭󵝗󵜥󱾣󴬤󶘥󴇮󵘐󴶓󶹰󴛉󴎥󶥮󷥧󷥪󳺜󴉂󳷎󴼸󴇑󳸧󷭢󵖯󾺭󴊦󵊍󴚟󴁰󴆧󶰜

[75,82,89,54,108,78]󾺭󶚏󵞨󵡡󵳬[3,120,114,18]󾺭󴆧󴈓[80,86,14]󾺭󳺆󴍫󷴦󷴫[45,112,4,9,81,41]󱾣󴛉󴍹󴌬󴘉

󳷎󾺭󷆋󴄔󵲉(SA)󴎐󳺆󷮕󵗐󴄗󵆱󴉀󶘥󴄔󸓏󾺭󴬤󷂞󴣀󴬿󶍑󳼾󷳷󳸯󷼴󴄆󶘥󴄉󴯡󳹅󳸳󾺭󶾭󴌘󶦐󵑮󳻽󴆺󸗱󴇗󳸧󴄘

󵚪󴄒󳹌󵟙󶘥󴯡󸂉󴋛󴞀󶘥󳹅󳸳󱾣󴯞󶭂󵚪󷽺󳸼󳺹󶁚󾺭SA󶘥󵓩󶌨󳶡󶚕󵗐󳶡󳷋󸖏󸠹󾺭󴚁󳷛󴬤󶘥󴢮󵛣󴿈󵗐󷥧󷥪

󳺅󶇭󵔑󸅰󶘥󳸭󵫂󳾮󾺭󶈚󴇌󵗐󴮚󳸯󸩹󴆧󷽉󶌨󷼴󴄆󱾣󳷛󳸧󷦄󴅔󷽺󳷋󸖏󸠹󾺭󷭙󴢻󶞵󶨗󷾻󷽨󳺅󶇭󶰸󴊷[82]󱾢󶨸

󴎄󴄔󵲉[54,78,108]󱾢󴉉󴾢󳺅󶇭󷾪󵊊[60,98,59]󵆷󵶘󴎩[95,15]󵍱󴆛󳸧SA󴍹󳻴󱾣󳶯󵬅󴎭󵖗󾺭󴶓󶹰󵍱󴆛󳸧󳶡󳸼

󵧂󴜬󾺭󷾻󷽨(󵶒󴹇󵕚󴎲)󴌘󶦐󵜆󴠿󴻛SA󾺭󳺆󵋶󷍘󴄘󵚪󷈐󴤞󴯡󸂉󶹴󵜥󵂰󷭧󶘥󷽽󶦬󳼾󷳷󴄔󶲜[89,25,94,23,21,

40,7,20]󱾣

󴛉󷽺󸠚󴶆󳻽󳷎󾺭󵆲󳺍󶘥󶚏󵞨󵗐󴙿󶫵󳶡󳷋󴞛󵛍󸖏󸠹:󵗐󴏇󵚪󵭵SA󵚕󴤞󶘥󵕚󵱶󵜆󵧂󵊀󳼾󷳷󳸯󷼴󴄆󶘥󷽽󶦬󶚙

󳸳󳻽󶓉?󵆲󳺍󸤷󴃩󴆧󵜱󴻴󴇮SA󶘥󴃩󷽼󷭟󷭂󱾣󴛉󴶇󳽈󴚟2󳷎󾺭󵆲󳺍󴯶󶣛󳸧vit[22]󴐭Swin Transformer[54]󳷎

󵍱󴆛󶘥󶹃󷈓󵞆󷮃󳺅󶇭󳶯󴄗󴐉󴚕󶘥󵧺󷈓󳺅󶇭󳷬󸖕󶘥󴷙󶓉(󶨸󴎄󵕚󴎲)󵲉󵂰󱾣󳷛󳸧󳹈󶓀󷼴󴆛󾺭SA󵴪󴍫󴣈󸅰󶘥

󵞆󷮃󸓏󳹅󳸳(󶹃󷈓󶭎󴣕)󾺭󶃗󴎯󵗐󵞆󷮃󴐭󴣈󸅰󶨛󸖕󴆧󴶤󳺅󶇭(󳶫󳶬󵔨󶈚󴼢)󳷬󸖕󴎭󵟘󴣈󸅰󶘥󵞆󷮃󳿝󶿻󴎩(󸹥

󷈓󶭎󴣕)󱾣󶃗󶾭󾺭󵚪󴽦󷤢󷽼󷟭󷽺󵟘󶘥󸅮󴹇󳹅󳸳󴐭󶿻󴎩󴎸?󴛉󷽺󸠚󴶆󳻽󳷎󾺭󵆲󳺍󸅨󴍷󳸧󳶡󶥮󵚠󳺄󶘥󵕚󴺰󾺭

󸤷󴃩󴚕󶹶󵭰󳷋󵞆󷮃󸙧󳷎󶿻󴎩󳶫󳶬󵔨󾺭󶃗󴎯󶓉󶿻󴎩󶘥󳶫󳶬󵔨󷆋󷾣󴸵󴛑󷮤󴇗󵞆󷮃󱾣󴤣󴚟2󴎔󳽈󵇡󶣛󾺭󵆲󳺍

󴎐󳺆󶬡󴋶󴛑󴸵󶓉󳶯󵞆󷮃󵖁󴄔󶘥󶃇󶁚󶿻󴎩(󳼬󴤣󵶒󴹇󴌘󶦐)󵜆󶓀󵆱󳶮󴎭󶰳󴹇󶹈󴇌󶘥󵯨󴿜󳺅󶇭󱾣󴎯󵜆,󷽺󳸼

󵯨󴿜󶘥󳺅󶇭󷆋󷾣󴸵󴛑󶿻󴎩󵆱󳶡󳷋󷮤󴇗󴘉󾺭󵚡󴎯󵲉󴄆󴇑󵞆󷮃󳷎󱾣󷽺󳶡󵓚󴍹󳹮󶃗󵓐󵊢󳼾󷳷󷼴󴄆󶘥󳺅󶇭󳹅󳸳󾺭

󳻧󷾻󷽨󴮧󶿻󴎩󳶯󴋶󳷋󵞆󷮃󷦄󶿇󾺭󵗟󷏸󴛑󶬡󴊷󳸧󷽨󶦬󾺭󴚁󵬅󳼠󳹅󳸳󳹦󳼾󷳷󳸯󴆁󳷋󶈚󴿈󱾣󵆲󳺍󶘥󵕚󵱶󴍸󴇑󶃇

󶁚󴄔󵲉[95]󶘥󴏐󴍲󾺭󷮆󵕚󵱶󵈈󷟭󴢻󳷋󶹈󴇌󶘥󶿻󴎩󾺭󳺆󵋶󷍘󶹧󶰳󴹇󴐭󶰸󶰳󴹇󶘥󴎐󷥧󴊷󳶫󳶬󵔨󱾣󶃗󶾭󾺭󵆲󳺍

󶘥󵕚󵱶󴛉󵭰󳷋󵞆󷮃󳻮󶼏󵍱󴍷󷮤󴇗󴘉󾺭󴸗󴇊󶓉󳶡󶥮󵚕󶬡󴋶󶘥󵕚󴺰󷽼󷟭󵞆󷮃-󷮤󴇗󴘉󳹅󳸳󱾣󵆲󳺍󶦑󷽺󶥮󵕑󵛛󴇗

󳷛󶃇󶁚󷮤󴇗

󵆲󳺍󴍷󳺄SA󵜆󴺛󶩬󳶡󳷋󵖁󵲉󵂰󴈼󶘥󵝗󵜥󾺭󶃇󶁚󷮤󴇗

󶻲󶹽󾺭󵆷󶬡󶦑FocalNet󱾣

󴚟3:󳶯SoTA󴛉COCO󶚏󵞨󵡡󵳬󳶫󶘥󵭵󷼤󱾣󴚧󶘥󴣈󴮰

󷠉󶣛󵧂󴜬󶘥󴣈󴮰󱾣

󵚡󴎯󾺭󴮚󴚟󴁰󴆧󶰜󷽼󷟭󳸧󴸠󵱼󶘥󴬿󸨭

󶚏󵞨󵡡󵳬󴐭󴆧󴈓󾺭󵗟󶣛󵆲󳺍󶘥FocalNets󳶡󷆕󳶵󵗟󷏸󳺹󳸯

󵆱󵛍󶚙󴻴󶘥SoTA SA󴮚󴸵󶈊󱾣󳿝󴼸󵲉󵂰󶘥󵗐󾺭󵆲󳺍󶘥FocalNet󴛉󳼠󶓉󴽏󴮰󴐭󴞛󵛍󵧂󴜬󴯛󴮙󵖗󴬿

󶍑󳸧82.3%󴐭83.9%󶘥󸠗󶹈󶱟󴹇󾺭󳻧󴎿󴎱󸅰󴆧󴇌󳶯Swin󴐭Focal Transformer󶚙󴻴󾺭󴸗󳶵󵗐󴇮󶾦󶘥

󳷅󳾮󱾣󴛉224-

󴆧󷽉󶌨󶘥ImageNet-22K󳶫󷽼󷟭󸠥󷭎󶹤󵖗󾺭󵆲󳺍󶘥FocalNets󴛉224-

󴐭384-

󴆧󷽉󶌨

󳶬󴆧󴇌󷽟󴇑86.5%󴐭87.3%󾺭󴛉󶚙󳻝󶘥󵆱󵛍󳶬󳶯Swin󶚙󴻴󵆷󵚕󴤞󱾣󴻴󷼍󶦜󴇑󴭧󸙧󸠥󵳬󳺜󴉂󵖗󾺭

󷽺󶥮󳺹󴉠󴯅󳷛󵗟󷏸󱾣󴮚󳸯COCO󳶫󶘥󶚏󵞨󵡡󵳬[49]󾺭󵆲󳺍󶘥FocalNets󴄘󵚪󴽏󴮰󴐭󴞛󵛍󵧂󴜬󴯛󴮙󾺭

󴛉Mask R-CNN 1x󳶫󴬿󶍑󳸧46.1󴐭49.0󶙳mAP󾺭󷴦󷽨󳸧Swin󶘥3x󵖗󸖕󷠉(46.0󴐭48.5󶙳mAP)󱾣󴮚

󳸯ADE20k󳶫󶘥󷮎󳷪󴆧󴈓[118]󾺭󵆲󳺍󶘥󴄘󵚪󴞛󵛍󵧂󴜬󴣈󴮰󶘥FocalNet󴛉󴋶󴯛󴹇󷭥󳻑󵖗󷽟󴇑50.5

mIoU󾺭󴛉󴢻󴯛󴹇󷭥󳻑󵖗󳺹󳸯Swin (49.7 mIoU)󱾣󳼠󶓉󸠥󷭎󶹤󶘥󴣈󴜬FocalNet󾺭󵆲󳺍󴬿󶍑󳸧󴞛󳸯

Mask2former󶘥ADE20K󷮎󳷪󴆧󴈓󶘥58.5 mIoU󴐭COCO󴄉󴃪󴆧󴈓󶘥57.9 PQ[12]󱾣󳼠󶓉󴶉󴣈󶘥

FocalNet󴐭DINO[106]󾺭󵆲󳺍󴆧󴇌󴛉COCO minival󴐭test-dev󳶫󴬿󶍑󳸧64.3󴐭64.4 mAP󾺭󴛉󵚕󴣈

󶘥󴞛󳸯󵲉󵂰󴈼󶘥󵧂󴜬(󴤣Swinv2-G[53]󴐭BEIT-3[84])󳶫󴺛󶩬󳸧COCO󳶫󶘥󵕑SoTA󱾣󷮘󴛉󴚟3󳷎󵈟

󴇑󷥧󷥪󴮚󵭵󾺭󴛉󴬿󸨭󳷎󵈟󴇑󶹧󷈣󱾣󵚡󴎯󾺭󵆲󳺍󴮧󵆲󳺍󶘥󶃇󶁚󷮤󴇗󴸵󶓉󳸯󴋶󶇨󴶤󴯡󳻽󳷛vit󾺭󴸗󵶦

󵣻󴛑󴯶󶣛󳸧󴬤󴛉󳶮󴎭󵧂󴜬󴯛󴮙󳶫󶘥󳺹󴉠󱾣

2 󶚙󴄔󴶆󳻽

Self-attentions󱾣Transformer[79]󸤷󴃩󴛉vision Transformer (ViT)[22]󳷎󴺶󴄆󷥧󷥪󾺭󴮧󴚟󴁰󴆧󴈓󵆱

󷥧󷥪󵞨󷭑󴸰󴆸󱾣ViTs󳷎󶘥󷆋󵲉󵂰(SA)󶫷󶔆󴛉󳼠󶓉󳺹󴊷󸃮󵕚󷽼󷟭󷭎󶹤󵖗󷠉󶍑󴆛󳺹󳸯ResNet󶫪󶍑󳺄

󴌘󶦐󶣿󶹰󶻲󶹽(ConvNets)[30]󶘥󴿈󷂞[22,75]󱾣󸘰󴎯󾺭󴢻󴯛󴹇󵝗󵜥[5,82,94]󱾢󷼜󸅰󶹈󴌘󶦐󴯣[89,25,

46]󱾢󴯡󸂉󷆋󵆲󵲉󵂰󵛛󴇗[54,108,15,95]󴐭󴎐󴬇󳸁󶘥󵲉󵂰󴈼󵛤󸅮[101]󷡌󵍱󴆛󳺆󵍱󸩹󴿈󷂞󴸗󵓐󵊢󸩹

󴆧󷽉󶌨󷼴󴄆󱾣󴛉[38,27,38]󳷎󵵖󶙷󳸧󵚕󴄉󸜃󶘥󷮤󵞆󱾣󵆲󳺍󶘥󶃇󶁚󷮤󴇗󳶯SA󵚪󴼩󴣈󶘥󳶮󴎭󾺭󴬤󸤷

󴃩󶿻󴎩󵜆󷆋󳶮󴎭󶰳󴹇󶹈󴇌󶘥󳶫󳶬󵔨󾺭󶃗󴎯󷮤󴇗󴋶󳷋󵞆󷮃󳺅󶇭󾺭󳷛󳺅󶇭󳹅󳸳󴏩󶍑󳶡󶥮󵖁󸚡󵲉󵂰󶘥

󵛛󴇗󱾣󴮚󳸯󳶫󳶬󵔨󶿻󴎩󾺭󵆲󳺍󶘥󵕚󵱶󴍸󴇑󳸧[95]󳷎󵍱󴆛󶘥󶃇󶁚󴄔󵲉󶘥󴏐󴍲󱾣󶃗󶾭󾺭󶿻󶃇󷮤󴇗󶘥

󳶫󳶬󵔨󶿻󴎩󵗐󴛉󵭰󳷋󵞆󷮃󳻮󶼏󶾭󳶮󵗐󶚏󵞨󳻮󶼏󵈈󷟭󶘥󾺭󳷬󴎯󵗐󳶡󳷋󷮤󴇗󶾭󳶮󵗐󳶡󳷋󵲉󵂰󱾣󷽺󳸼

󵛛󴇗󳶫󶘥󴶏󴺣󴮝󷆕󳸧󵓩󶌨󴐭󴿈󷂞󶘥󵗟󷏸󵍱󸩹󱾣󴎇󳶡󸠚󴭧󴆨󶚙󴄔󶘥󴶆󳻽󵗐Poolformer[100]󾺭󴬤󳼠

󶓉󵰁󴊷󵜆󴿜󶹴󵛍󴛑󳶫󳶬󵔨󾺭󴸗󷾻󷽨󶬡󴋶󶘥󴅰󵱶󵜆󷮤󵔕󴋶󳷋󷼴󴄆󱾣󴯞󶭂󵓩󶌨󳶮󸒺󾺭󳻧󴛉󴿈󷂞󳶫󴌕

󷏞󴎯󳸯Swin󶫪󵳢󷟭󶘥󷥧󷥪󷼍󵌃󴘉󱾣󵬄󴤣󵆲󳺍󴮧󴯶󶣛󶘥󾺭󵋶󵋪󳶮󴎭󴯣󵫂󶘥󴯡󸂉󶹴󵜥󵗐󴽦󳶮󴎐󴮲󶘥󱾣

MLP󵝗󵜥󱾣󷥧󷥪mlp󴎐󳺆󴆧󳷛󳷅󶹥:(i)󴄉󴯡󵶘󴎩mlp󾺭󴤣MLP-Mixer[72]󴐭ResMLP[74]󾺭󷾻󷽨󴎥󶥮

󵈡󵛐󴠿󴻛󶘥󶨛󸖕󵘛󷂞󵈶󴼒(spatial-wise projection)󴛉󷥧󷥪󳺅󶇭󳷬󸖕󷽼󷟭󴄉󴯡󷾻󳾂󾺭󴤣󸖉󷾻󱾢󷶐󶓒

󴐭󴀦󶩬󴎗󴍹󵌃[51,58,70,71]󱾣(ii)󴯡󸂉󵶘󴎩mlp󳼠󶓉󶨛󸖕󶦜󴉉󱾢󶼏󵌃󴐭󳻋󵟙󵶘󴎩󴮚󸗥󷽲󶘥󵞨󷭑󷽼

󷟭󳹅󳸳󸅨󵟘[99,32,48,8,26]󱾣󵚡󷽲󾺭Mix-Shift-MLP[113]󳺆󶰜󳻝󶘥󶃇󶁚󴄔󵲉󶱟󶣿󾺭󴇊󶓉󳸧󳶯mlp

󶘥󴯡󸂉󴐭󴄉󴯡󳹅󳸳[95]󱾣MLP󵝗󵜥󴐭󵆲󳺍󶘥󶃇󶁚󷮤󴇗󶻲󶹽󸂞󵗐󵖁󵲉󵂰󴈼󶘥󱾣󶃗󶾭󾺭󴄘󵚪󴢻󶹈󳶫

󳶬󵔨󶿻󴎩󶘥󶃇󶁚󷮤󴇗󷆋󶃗󴛑󵋶󵋪󳸧󶞎󷵾󶥜󴐭󸔠󶦬󶘥󶹴󵜥󾺭󳹯󶾭󴬿󶍑󳸧󵚕󴤞󶘥󶱟󴹇-󵓩󶌨󵛤󷠂󱾣

󵚓󶹠󶍓󶍲󱾣ConvNets󵗐󷭂󶬸󵛛󷥧󷥪󳷎󵶒󴹇󶣿󶹰󶻲󶹽󴢮󴄕󶘥󳷜󷤢󸨒󴉉󴈼󱾣󷆋VGG[63]󱾢

InceptionNet[67]󴐭ResNet[30]󴆛󶍑󳺆󵜆󾺭󷮆󸠧󴞀󴍲󴯶󷽦󷿀󱾣󴄔󵲉ConvNets󵓩󶌨󶘥󳺄󷠉󴿈󳻽󴑢󵚪

MobileNet[33]󱾢ShuffleNet[111]󴐭effentnet[69]󱾣󴎇󳶡󸠚󴶆󳻽󵖉󴛉󵔕󴎩󴄉󶎤󷁭󵘐󵜆󷠆󴀠ConvNets󾺭

󴤣SE-Net[35]󱾢Non-local Network[85]󱾢GCNet[2]󱾢LR-Net[34]󴐭C3Net[97]󶫪󱾣󴺶󴄆󴉉󴾢󷽱󶬸󵗐

󴠿󴻛ConvNets󶘥󴎇󳶡󶥮󵕚󵱶󾺭󴤣Involution[43]󴐭DyConv[10]󵇡󶣛󱾣󵚡󷽲󾺭ConvNets󳹯󳷅󳷋󵕚󸜃

󷽼󷟭󴍮󴆜:(i)󴮧󴌘󶦐󴯣󸙧󵆱󴇑SA󳷎󴸗󴷇󵜆󵗟󷏸󶘥󵓗󶙫[89,25,46,23]󾺭󴍮󳷬󳹇󶃗[76];(ii) ResNets󳼠

󶓉󶰜󳻝󶘥󵔑󵌏󴠿󴻛󴐭󵬄󴆺󴊷󶫷󶔆󶻊󴮰󳸧󳶯ViTs󶘥󴶏󷵾[88]󾺭󶓉(󴉉󴾢)󵶒󴹇󴌘󶦐󳺄󵚠SA[28,55]󳸀

󴎐󳺆󶔆󴽏󷴦󷽨Swin󱾣󵆲󳺍󶘥󶃇󶁚󷮤󴇗󶻲󶹽󳸀󴇊󶓉󵶒󴹇󴌘󶦐󳻽󳷛󴽏󵝗󵜥󾺭󳻧󷾻󷽨󴺶󴄆󴢻󶹈󳶫󳶬󵔨

󶿻󴎩󴐭󷼴󴄆󳼾󷳷󴿈󷮤󴇗󷽼󷟭󳸧󷴦󷴫󱾣󵆲󳺍󴮧󴯶󶣛󷽺󳷋󵕑󵧂󴛸󶘥󴿈󷂞󵗟󷏸󳺹󳸯󴍀󴥬󴌘󶦐󶻲󶹽󱾣

󴚟4:󴶇:󴸗󵌳󵭵󷼤SA (a)󴐭󶃇󷮤󴇗(b)󱾣󴎔󴚟:󶃇󷮤󴇗󳷎󳶫󳶬󵔨󶿻󴎩󶘥󷮇󶹧󷮕󵖯(c)󱾣

3 󶃇󷮤󴇗󶻲󶹽

3.1 󳹯󷆋󵆲󴄔󵲉󴇑󶃇󷮤󴇗

󶹺󴬻󳶡󳷋󷥧󷥪󶈚󴼢󵗁󴮥X󱆩

HWC󳻽󳷛󷼴󴄆󾺭󳶡󳷋󷾻󶓉󶘥󶺷󶞢󷽨󶦬󷾻󷽨󳶯󴄗󴐉󴚕X(󳼬󴤣󾺭󶚙󸁜󶘥

󵞨󷭑)󶘥󳹅󳸳T󴐭󳶫󳶬󵔨󳶫󶘥󶿻󴎩M󳷛󵭰󳷋󷥧󷥪󵞨󷭑(󵞆󷮃)x

󱆩R

󶓀󵆱󳶡󳷋󶈚󴼢󷠉󶣛y

󱆩R

󱾣

Self-attention󱾣󷆋󵆲󵲉󵂰󵧂󴛸󳼠󶓉󴎯󵛀󶿻󴎩󷽨󶦬󾺭󴄍󴺰󴤣󳶬

󴄗󳷎󾺭󴛉󷾻󷽨󳹅󳸳T

󷭂󶬸󴆛󵞆󷮃󴐭󶚏󵞨󳷬󸖕󶘥󵲉󵂰󴆧󵔑󳷬󴎯󾺭󵈈󷟭󳶫󳶬󵔨X󳶫󶘥󶿻󴎩M

1󱾣

󶃇󷮤󴇗󱾣󶚙󵭵󳷬󳶬󾺭󶃇󷮤󴇗󶓀󵆱󶱟󶹧󶘥󷠉󶣛y

󳼠󶓉󵖊󵛀󶘥󶿻󴎩󷽨󶦬󷠉󶣛󳷛

󴄗󳷎󾺭󳶫󳶬󵔨󶈚󴼢󸤷󴃩󴛉󵭰󳷋󳻮󶼏i󳼠󶓉M

󶿻󴎩󾺭󶃗󴎯󵞆󷮃󳶯󴞛󳸯T

󶘥󶿻󴎩󶈚󴼢󳹅󳸳󾺭󴼃󵆱y

i󱾣

󵭵󷼤Eq.(1)󴐭Eq.(2)󾺭󵆲󳺍󶚬󴇑(i) 󶃇󷮤󴇗 M

󶘥󳶫󳶬󵔨󶿻󴎩󷾻󷽨󴄒󳹌󷽱󶬸󶫇(󳼬󴤣󾺭󵶒󴹇󴌘󶦐)󵏫󴸔󳶫

󳶬󵔨󶘥󷭂󶬸󾺭󶾭SA󳷎󶘥M

󷭂󶬸󵆱󵛍󵚕󸩹󾺭󴚁󳷛󴬤󸚡󷤢󴮚󳶮󴎭󵞆󷮃󶘥󳶮󴎐󴄒󳹌󵲉󵂰󴈼󴆧󵔑󵯣󴐭;(ii)

󳹅󳸳T

󵗐󳺅󶇭󴍫󴄗󳶫󳶬󵔨󳷬󸖕󶘥󷼜󸅰󶹈󷽱󶬸󶫇󾺭󶾭T

󵴪󴍫󷭂󶬸󳺅󶇭󴇑󳺅󶇭󶘥󵲉󵂰󴆧󵔑󾺭󴄘󵚪󳸭󵫂

󴢮󵛣󴹇󱾣

󴞛󳸯Eq.(2)󾺭󵆲󳺍󴮧󶃇󷮤󴇗󴬿󳼬󴊷󳷛

󴄗󳷎q()󵗐󳶡󳷋󵞆󷮃󵈶󴼒󴆞󵔑󾺭󵗐󴞛󳸯󴃤󶳁󶘥󳷹󵱶󱾣M()󵗐󳶡󳷋󳶫󳶬󵔨󶿻󴎩󴆞󵔑󾺭󴄗󷼴󴆛󶦑󳷛󷮤󴇗

󴘉󱾣󴚟4(a)󴐭(b)󵭵󷼤󳸧󷆋󵆲󵲉󵂰󴐭󶃇󷮤󴇗󱾣󵇡󵍱󴆛󶘥󶃇󷮤󴇗󴄘󵚪󳺆󳶬󳺹󶁚:

󰿃󶾜󷭲󳶮󴍹󴿈󱾣󶓒󳸯q()󴐭m()󴿜󵗐󳺆󵞆󷮃󳺅󶇭i󳷛󳷎󴽤󾺭󴸗󳶵󵱂󵚪󳼠󶓉󳻮󶼏󴳭󴄆󾺭󴚁󵬅󷮤󴇗󴮚󳸯

󷼴󴄆󶈚󴼢󵗁󴮥X󶘥󴸔󶦜󵗐󳶮󴍹󶘥󱾣

󰿃󵖯󶠏input-dependency󱾣󷮤󴇗󴘉󷾻󷽨m()󷾻󷽨󶿻󸙧󶚏󵞨󳻮󶼏i󴐉󴚕󶘥󴯡󸂉󶈚󴼢󵜆󷭂󶬸󾺭󴚁󵬅󵆲󳺍󶘥

󶃇󷮤󴇗󵗐󵖯󶠏󳼾󷳷󳸯󷼴󴄆󶘥󱾣

󰿃󶨛󸖕󴐭󷾻󷿴󶈚󴺣󴿈󱾣󶚏󵞨󳻮󶼏i󳻽󳷛m()󶘥󵊨󸐩󾺭󳼠󶨛󸖕󶈚󴬻󷮤󴇗󵆱󳷛󴎐󷂞󱾣󳺆󴃤󶳁󳷛󴋶󳻮󶘥󳷹

󵱶󳼠󳾂󷿴󶈚󴬻󷮤󴇗󵆱󳷛󴎐󷂞󱾣

󰿃󷦄󶿇󶘥󶈚󴿈󶰳󴹇󱾣Q()󳽾󶓺󳸧󴋶󳷋󳺅󶇭󶘥󵚡󳺹󳾂󵀐󾺭󶾭m()󵍱󴍷󳸧󷼤󶰸󶘥󳶫󳶬󵔨󱾣󴬤󳺍󵗐󷦄󶿇

󶘥󾺭󳻧󷾻󷽨󷮤󴇗󷽼󷟭󶹥󴎩󱾣

󵍆󳶬󵜆󾺭󵆲󳺍󴮧󷮇󶹧󵍰󷾑Eq.(3)󳷎m()󶘥󴬿󶍑󱾣

󴚟5:󴛉ImageNet-1K󳶫󸠥󷭎󶹤󶘥FocalNet (L = 3)󶘥󵚡󴎯󳶡󴯣Eq.

(5)󳷎󶘥󸖉󵍈󳿝G󶘥󴎐󷥧󴊷󱾣󳹯󴶇󴇑󴎔󶘥󴆸󵗐󷼴󴄆󴚟󴁰󾺭󴛉󶃇

󶁚󶹈󴇌1󱾢2󱾢3󴐭󴄉󴯡󶹈󴇌󶘥󸖉󵍈󵗁󴮥󱾣

󴚟6:󷮤󴇗󴘉󳿝󶘥󴎐󷥧󴊷(󴮚󴸵󳸯Eq.(6)󳷎󶘥󴎔󳽈)

FocalNet󶘥󵚡󴎯󳶡󴯣󱾣󴍀󴥬󷮤󴇗󴘉󵗁󴮥󷡌󳶫󸅨󵟘󳺆

󳽠󵗟󶣛󱾣

3.2 󷾻󷽨m()󷽼󷟭󳶫󳶬󵔨󶿻󴎩

󴶓󶹰󷭢󵖯󾺭󶞎󵛀󴐭󸔠󵛀󳶫󳶬󵔨󴮚󷥧󷥪󴺛󵧂󸂞󴼩󸅮󷤢[95,21,55]󱾣󶃗󶾭󾺭󴄘󵚪󷼤󴣈󵃀󴍸󸅯󶘥󴋶󳶡

󶿻󴎩󳶮󳹦󴛉󵖗󸖕󴐭󴄦󴫹󵕚󸜃󶘥󷭂󶬸󵆱󵛍󷼤󸩹󾺭󶾭󳶵󷽹󳺻󶟕󴛰󴯡󸂉󶹧󶰳󴹇󶹴󵜥󾺭󶾭󴯡󸂉󶹧󶰳󴹇

󶹴󵜥󴮚󴭧󸙧󸠥󵳬󳺜󴉂󶈚󴇌󵚪󶓉󱾣󴍸[95]󶘥󴏐󴍲󾺭󵆲󳺍󵍱󴆛󳸧󳶡󶥮󴢻󴯛󴹇󶘥󴆧󴯣󳶫󳶬󵔨󶿻󴎩󱾣

󴤣󴚟4 (c)󵇡󶣛󾺭󶿻󴎩󷽨󶦬󴊦󵊍󳷅󳷋󵬆󸩅:󴆧󴯣󳶫󳶬󵔨󴊷(hierarchical contextualization)󴛉󳶮󴎭󶰳

󴹇󶹈󴇌󳶫󳹯󴯡󸂉󴇑󴄉󴯡󷊤󴚕󵍱󴍷󳶫󳶬󵔨󾺭󸖉󵍈󶿻󴎩(gated aggregation)󴮧󳶮󴎭󶰳󴹇󶹈󴇌󳶫󶘥󵇡

󵚪󳶫󳶬󵔨󶈚󴼢󴌬󶻊󴇑󷮤󷈣󴘉󳷎󱾣

󶫍1󵬆:󴆧󴯣󳶫󳶬󵔨󴊷󱾣

󶹺󴬻󷼴󴄆󶈚󴼢󵗁󴮥X󾺭󵆲󳺍󸤷󴃩󴮧󴄗󵈶󴮥󴇑󳶡󳷋󴄘󵚪󶹠󴿈󴯣Z

(X)󱆩R

HWC

󶘥󵕑󶈚󴼢󶨛󸖕

󳷎󱾣󶃗󴎯󾺭󳼠󶓉L󶹈󵶒󴹇󴌘󶦐󶘥󴞧󵞩󷍘󴼸󳶫󳶬󵔨󶘥󴆧󴯣󷠉󶣛󱾣󴛉󶃇󶹈'󱆩{1󾺭󰿇󾺭 L}󾺭󷼴󴆛Z

󶓒:

󴄗󳷎f

󵗐' -th󶹈󴇌󶘥󳶫󳶬󵔨󴊷󴆞󵔑󾺭󷾻󷽨󳶡󳷋󴷇󵚪󴄦󵟙󴣈󴮰󶘥󵶒󴹇󴌘󶦐DWConvk

󴐭󳶡󳷋GeLU

󵽡󵳜󴆞󵔑[31]󵜆󴬿󶍑󱾣󴮚Eq.(4)󶘥󴆧󴯣󳶫󳶬󵔨󴊷󳼠󶓉󵶒󴹇󴌘󶦐󶘥󴉉󵛛󵗐󴄗󶎧󵂔󶘥󶈚󴿈󱾣󳶯󵰁󴊷

[100,35]󶚙󵭵󾺭󵶒󴹇󴌘󶦐󵗐󴎐󴬇󳸁󶘥󴐭󶹴󵜥󵃀󶞆󶘥󱾣󳶯󴷙󷥥󴌘󶦐󶚙󵭵󾺭󴬤󵗐󴞛󳸯󳾂󷿴󶘥󾺭󴚁󵬅

󷭂󶬸󵆱󵛍󷤢󳻯󴼸󴢻󱾣

Eq.(4)󶘥󴆧󴯣󳶫󳶬󵔨󴊷󶓀󵆱L󴯣󶈚󴼢󵗁󴮥󱾣󴛉󵯕󴸔'󾺭󵚪󵓩󵃀󴍸󸅯󵗐r ' =1 + P ' i=1(k '󱆳1)󾺭󷽺󵭵󵟙

󴣈󴮰k '󷤢󴣈󴼸󴢻󱾣󳷛󳸧󵋶󷍘󵔕󳷋󷼴󴄆󶘥󴄉󴯡󳶫󳶬󵔨󾺭󷽺󴎐󷂞󵗐󸩹󴆧󷽉󶌨󶘥󾺭󵆲󳺍󴛉l󶹈󶈚󴼢󴚟

󳶫󴸵󶓉󳸧󳶡󳷋󴄉󴯡󴸔󴛨󵰁󴊷Z

L+1

=Avg-Pool(Z

)󱾣󴚁󵬅󾺭󵆲󳺍󷍘󴼸󳸧󴿜󶘥(L + 1)󶈚󴼢󴛑󴚟{Z

}

L+

`=1

󾺭󴬤󳺍󴛉󳶮󴎭󶰳󴹇󶹈󴇌󳶫󴄒󴎭󵋶󷍘󳸧󶞎󵛀󴐭󸔠󵛀󳶫󳶬󵔨󱾣

󵬆󸩅2:󸖉󵍈󶿻󴎩(Gated Aggregation)󱾣

󴛉󷽺󳶡󵬆󳷎󾺭󷾻󷽨󴯣󵫂󳶫󳶬󵔨󴊷󷍘󴼸󶘥(L + 1)󶈚󴼢󴚟󷡌󵳴󶻊󴇑󳶡󳷋󷮤󷈣󴘉󳷎󱾣󴛉󳶡󴷦󴚟󴁰󳷎󾺭

󳶡󳷋󷥧󷥪󵞨󷭑(󵞆󷮃)󳶯󴄗󴐉󴚕󶘥󳶫󳶬󵔨󳷬󸖕󶘥󴄔󶲜󴼡󴼡󴍷󴅔󳸯󴄦󴭚󵛍󷹌󱾣󳼬󴤣󾺭󵧂󴜬󴎐󷂞󳼾

󷳷󴯡󸂉󶹧󶰳󴹇󶈚󴼢󵜆󶺷󶞢󵗟󷏸󷥧󷥪󴮚󷰂󶘥󵞆󷮃󾺭󳻧󴮚󳸯󷁭󵘐󴛛󵘐󶘥󵞆󷮃󾺭󳷜󷤢󳼾󷳷󴄉󴯡󶰸󶰳

󴹇󶈚󴼢󱾣󴞛󳸯󷽺󶥮󶚕󷥪󾺭󵆲󳺍󳼠󶓉󳶡󶥮󸖉󵍈󵛛󴇗󵜆󵍈󴇗󵭰󳷋󵞆󷮃󳹯󳶮󴎭󶹈󴇌󶿻󴎩󴢻󴮲󱾣󴄘󳻴

󵜆󷮕󾺭󵆲󳺍󳼠󶓉󶹠󴿈󴯣󵜆󷍘󴼸󳶡󳷋󶨛󸖕󴐭󵯕󴸔󵃀󶞆󶘥󸖉󵍈󵛤󸅮G = fg(X)󱆩RHW (L+1)󱾣󶃗

󴎯󾺭󵆲󳺍󷾻󷽨󳶡󳷋󴞛󳸯󴃤󶳁󶘥󳷹󵱶󵜆󵈈󷟭󳶡󳷋󴉁󵛤󴐭󾺭󳺆󷍘󴼸󳶡󳷋󳶯󷼴󴄆X󴣈󴮰󶚙󴎭󶘥󴋶󳶡

󶈚󴼢󵗁󴮥Z

out

󾺭

󴄗󳷎G

󱆩R

HW1

󵗐󴄔󴌂󰾺󶘥G󴆨󶇨󱾣󴻴󴎐󷥧󴊷󴚟5󳷎󶘥󷽺󳸼󸖉󵍈󴇗󴚟󵖗󾺭󵆲󳺍󵁫󷭗󴛑󴍲󶍑󵆲󳺍

󶘥FocalNet󶠏󴬿󴁰󵆲󳺍󵛀󵚼󶘥󸁄󵟘󾺭󷆋󷾣󴸵󴛑󳹯󳶮󴎭󶘥󶃇󶁚󵯕󴸔󴬇󳸁󵓗󸙧󳶫󳶬󵔨󱾣󵬄󴤣󵆲󳺍󵇡

󶚬󴇑󶘥󾺭󴮚󳸯󳶡󳷋󴮰󴮚󷰂󳶫󶘥󳺅󶇭󾺭󴬤󵚕󴢻󴛑󴄔󵲉󳻯󶃇󶁚󶹈󶘥󶹧󶰳󴹇󴯡󸂉󶹴󵜥󾺭󶾭󳶡󳷋󶺀󳶡

󷁭󵘐󳶬󶘥󳺅󶇭󸚡󷤢󵂰󷭧󴇑󵜆󷆋󵚕󸩹󶹈󴇌󶘥󵚕󴣈󶘥󳶫󳶬󵔨󱾣󴇑󶚏󴇮󳷛󵬃󾺭󵇡󵚪󶘥󶿻󸙧󸂞󵗐󶨛󸖕

󶘥󱾣󳷛󳸧󴬿󶍑󷶉󳶮󴎭󷾻󷿴󶘥󷾻󳾂󾺭󵆲󳺍󳼠󶓉󴎇󳶡󳷋󶹠󴿈󴯣h(.)󵜆󷍘󴼸󷮤󴇗󴘉

剩余26页未读，继续阅读

评论收藏

内容反馈

梨涡的漫漫求学路

粉丝: 143
资源: 1

Focal Modulation Networks-翻译

最新资源

Focal Modulation Networks-翻译

modulation-and-demodulation

Spatial Modulation Assisted Multi-Antenna Non-Orthogonal Multiple Access

M-QAM-modulation-demodulation.rar_M-QAM Modulation_M-QAM调制_QAM m

Digital Phase Modulation - Anderson

16QAM-Modulation-VHDL-source-code.rar_16qam_modulation vhdl_page

Analog-modulation-system-simulation-.zip_Analog modulation_analo

mqam.rar_ASK modulation_M-QAM_MQAM.m_QAM modulation

Convolutional Radio Modulation Recognition Networks code卷积无线调制识别网络代码实现

Coded-Spatial-Modulation-master_无线通信_空间调制.zip

PSK-modulation-and-demodulation.rar_PSK_脉冲整形

最优阵列处理技术 中文版 Harry L,Van Trees著 part4

Coded-Spatial-Modulation-master_无线通信_空间调制_源码.zip

amplitude-modulation-analysis-matlab-master_AMS_matlab_幅度调制谱_源码

QPSK-MODULATION-and-demodulation.rar_QPSK_pi/4 QPSK MATLAB_pi/4-

modulation and demodulation - Cypress.pdf

Optical homodyne receiver utilizing image rejection in FSK/ASK re-modulation WDM-PON

modulation-and-demodulation.zip_2psk解调verilog_2psk调制_modulation

Photonic generation of amplitude- and phase-modulated microwave signals with frequency and modulation bit-rate tunability

Coded-Spatial-Modulation-master_无线通信_空间调制

第十五届蓝桥杯大赛软件赛省赛-C/C++ 研究生组

VRPTW 的 Solomon 标准测试数据集

数学建模国赛：无人机遂行编队飞行中的纯方位无源定位分析

最值得收藏的 数据结构 全部知识点思维导图整理(王道考研), 附带经典题型整理.emmx

利用SVM（支持向量机）进行图像分割/提取-MATLAB

变分模态分解（VMD）代码

PSG 3D 三维测绘系统

山东大学软件学院2022年6月算法导论期末考试范围

origin2021下载免费分享

最新版Notepad++十六进制查看的插件x64HexEditor0.9.12

最新资源

最优阵列处理技术中文版 Harry L,Van Trees著 part4

最值得收藏的数据结构全部知识点思维导图整理(王道考研), 附带经典题型整理.emmx