本文共 17400 字,大约阅读时间需要 58 分钟。
五月第三周,盘点本周新开源或即将开源的CV代码,涵盖方向广泛,不仅涉及到技术创新,还涉及多种CV应用,尤其值得一提的是谷歌和MIT都在研究的对比表征学习和香港中文大学开源的InterFaceGan,希望对大家有帮助。
感谢这背后的开发者!
目标检测
#CVPR 2020# #3D目标检测# #自动驾驶#
[1].Train in Germany, Test in The USA: Making 3D Object Detectors Generalize
德国训练,美国测试:3D目标检测的泛化问题研究
3D目标检测被广泛用于自动驾驶,但在德国收集的数据训练的检测器可以在美国的道路上表现的好吗?实验证明,这种情况会精度下降严重,作者进一步发现主要是不同场景中汽车的大小差异过大导致的,通过简单的尺度归一化,使得跨国家的3D目标检测泛化能力更好。
作者 | Yan Wang, Xiangyu Chen, Yurong You, Li Erran, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger, Wei-Lun Chao
单位 | 康奈尔大学;硅谷数据标注公司;哥伦比亚大学;俄亥俄州立大学
论文 | https://arxiv.org/abs/2005.08139
代码 | https://github.com/cxy1997/3D_adapt_auto_driving(尚未)
[2].WW-Nets: Dual Neural Networks for Object Detection
WW-Nets:用于目标检测的双神经网络
该文提出了一个物体检测框架,涉及到 "What Network "和 "Where Network "的整合。What Network 的目的是对输入图像的相关部分进行选择性关注,而Where Network则利用这些信息来定位和分类感兴趣的对象。在 PASCAL VOC 2007 和 2012 及 COCO 数据集上的实验显示,新提出的算法大幅超越了现有号称SOTA的方法,在COCO数据集上的AP 为51.6。
作者 | Mohammad K.Ebrahimpour,J.Ben Falandays,Samuel Spevack,杨明H,David C.Noelle
单位 | 加州大学
论文 | https://arxiv.org/abs/2005.07787
代码 | https://github.com/mkebrahimpour
#显著目标检测#
[3].U^2 -Net: Going Deeper with Nested U-Structure for Salient Object Detection
作者提出使用两层嵌套的U型结构的目标检测网络
优点:
(1)能够从不同的尺度捕获更多的上下文信息,
(2)可以增加深度的信息。
借助该方案提出两个模型:U^2-Net(GTX 1080Ti GPU上为176.3 MB,30 FPS)和U^2-Net†(4.7 MB,40 FPS),以便于在不同环境中使用。这两个模型在6个显著目标检测数据集上都显示具有比较优势。
作者 | Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R. Zaiane, Martin Jagersand
单位 | 阿尔伯塔大学
论文 | https://arxiv.org/abs/2005.09007
代码 | https://github.com/NathanUA/U-2-Net
#传感器融合#
[4].A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection
将雷达数据融合进摄像头数据的目标检测网络中,能够检测到目标被遮挡、图像质量较差等情况下的目标。实验证明该方法打败了仅使用RGB数据的算法。
作者 | Felix Nobis, Maximilian Geisslinger, Markus Weber, Johannes Betz, Markus Lienkamp
单位 | 慕尼黑工业大学
论文 | https://arxiv.org/abs/2005.07431
代码 | https://github.com/TUMFTM/CameraRadar
FusionNet
#CVPR 2020 Oral# #密集目标检测# #动态细化网络#
[5].Dynamic Refinement Network for Oriented and Densely Packed Object Detection
该文提出一种动态细化网络,用于对有方向的和密集的目标进行检测,比如遥感图像中的船只。该网络由两个新颖的组件组成,即特征选择模块(FSM)和动态细化头(DRH),FSM使神经元能够根据目标对象的形状和方向来调整感受野,而DRH使我们的模型能够以对象感知的方式动态地细化预测。在多个数据集上均表现出一致的精度提升。
作者 | Xingjia Pan, Yuqiang Ren, Kekai Sheng, Weiming Dong, Haolei Yuan, Xiaowei Guo, Chongyang Ma, Changsheng Xu
单位 | 中科院自动化研究所;优图实验室;CASIA-LVision联合实验室;快手AI实验室
论文 | https://arxiv.org/abs/2005.09973
代码 | https://github.com/Anymake/DRN_CVPR2020
神经架构搜索NAS
[6].Optimizing Neural Architecture Search using Limited GPU Time in a Dynamic Search Space: A Gene Expression Programming Approach
使用基因表达的编程方法在有限的GPU上动态搜索空间进行神经架构搜索,只需24个GPU小时,即可高效发现有价值的卷积模型。在CIFAR-10 数据集上实现2.82% 的错误率(目前最好是2.67%),CIFAR-100数据集上得到18.83%的错误率(目前最好是18.16%),在ImageNet数据集上得到移动模型top-1 和 top-5 错误率分别为29.51% 和 10.37%。
作者 | Jeovane Honorio Alves, Lucas Ferrari de Oliveira
单位 | 巴西巴拉那联邦大学
论文 | https://arxiv.org/abs/2005.07669
代码 | https://github.com/jeohalves/nasgep
#CVPR 2020 (oral)#
[7].AOWS: Adaptive and optimal network width search with latency constraints
在网络延迟限制下的自适应最佳网络宽度搜索,对ImageNet分类的实验表明,该文方法可以在不同的目标平台上找到拟合资源约束的网络,同时比最先进的高效网络提高了精度。
作者 | Maxim Berman, Leonid Pishchulin, Ning Xu, Matthew B. Blaschko, Gerard Medioni
单位 | Amazon Go;鲁汶大学
论文 | https://arxiv.org/abs/2005.10481
代码 | https://github.com/bermanmaxim/AOWS
[8].Rethinking Performance Estimation in Neural Architecture Search
对神经架构搜索中性能估计的反思
通过将BPE与各种搜索算法(包括强化学习、进化算法、随机搜索、可分化架构搜索)相结合,实现了1,000倍的NAS速度,而且与SOTA相比,性能几乎没有下降。
作者 | Xiawu Zheng, Rongrong Ji, Qiang Wang, Qixiang Ye, Zhenguo Li, Yonghong Tian, Qi Tian
单位 | 厦门大学;北大;鹏城实验室;华为诺亚方舟实验室;中国科学院大学
论文 | https://arxiv.org/abs/2005.09917
代码 | https://github.com/zhengxiawu/rethinking_
performance_estimation_in_NAS
语音声音处理与识别
#CVPR2020##唇语到语音合成#
[9].Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis
学习个体的说话风格,以实现准确的口语合成
作者 | K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar
单位 | IIIT, Hyderabad
论文 | https://arxiv.org/abs/2005.08209
代码 | https://github.com/Rudrabha/Lip2Wav
视频 | https://www.youtube.com/watch?v=HziA-jmlk_4
#音频与视频#
[10].Active Speakers in Context
从视频中识别出是谁在说话,可以在有多个说话人的时候更好识别谁在说话,在AVA-ActiveSpeaker数据集上改进了最先进的性能,实现了87.1% mAP。
作者 | Juan Leon Alcazar,Fabian Caba Heilbron,Long Mai,Federico Perazzi,Joe -Young Lee,Pablo Arbelaez,Bernard Ghanem
单位 | 安第斯大学;Adobe Research;阿卜杜拉国王科技大学
论文 | https://arxiv.org/abs/2005.09812
代码 | https://github.com/fuankarion/active-speakers-context(将开源)
医学影像处理
#半监督学习# #医学图像分类#
[11].Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model
医学影响领域标注数据往往比较少,如何在有少量标注数据时利用大量的未标注数据的半监督学习是非常有价值的工作。该文提出一种基于关系驱动自嵌入模型的半监督方法,有效改进了医学图像分类问题,打败了大多数SOTA半监督方法。
作者 | Quande Liu, Lequan Yu, Luyang Luo, Qi Dou, Pheng Ann Heng
单位 | 港中大;中科院;斯坦福
论文 | https://arxiv.org/abs/2005.07377
代码 | https://github.com/liuquande/SRC-MT
#医学影像处理#
[12].Lung Segmentation from Chest X-rays using Variational Data Imputation
在很多呼吸系统疾病中,X光下肺部不透明阻碍了肺部的图像分割,本文将不透明部分视为数据缺失,使用变分数据插补,有效改进了肺部影像的分割。
作者 | Raghavendra Selvan, Erik B. Dam, Sofus Rischel, Kaining Sheng, Mads Nielsen, Akshay Pai
单位 | 哥本哈根大学
论文 | https://arxiv.org/abs/2005.10052
代码 | https://github.com/raghavian/lungVAE/
图像分类&细粒度分类
#气候区分类# #遥感图像分类#
[13].Multi-level Feature Fusion-based CNN for Local Climate Zone Classification from Sentinel-2 Images: Benchmark Results on the So2Sat LCZ42 Dataset
在遥感图像分类领域,由于大多数论文是在自有或者不同的数据集上进行实验,导致难以比较不同的工作,本文提出了用于局部气候区域分类的大规模数据集So2Sat LCZ42 ,对比实验了大量的CNN网络的结果,并提出卓有成效的多级特征融合的CNN网络模型取得了超越之前SOTA的最好结果,希望促进该领域的研究和发展。
作者 | Chunping Qiu, Xiaochong Tong, Michael Schmitt, Benjamin Bechtel, Xiao Xiang Zhu
单位 | TUM;信息工程大学,波鸿鲁尔大学,德国航空航天中心
论文 | https://arxiv.org/abs/2005.07983
代码 | https://github.com/ChunpingQiu/benchmark-
on-So2SatLCZ42-dataset-a-simple-tour
#ICIP2020# #细粒度识别#
[14].Associating Multi-Scale Receptive Fields for Fine-grained Recognition
关联多尺度感受野用于图像细粒度识别的,实验表明在三个基准数据集上超越了SOTA模型。
作者 | Zihan Ye, Fuyuan Hu, Yin Liu, Zhenping Xia, Fan Lyu, Pengqing Liu
单位 | 苏州科技大学;上海应用技术大学;天津大学
论文 | https://arxiv.org/abs/2005.09153
代码 | https://github.com/FouriYe/CNL-ICIP2020
#CVPR 2020 (Oral)# #细粒度识别#
[15].Interpretable and Accurate Fine-grained Recognition via Region Grouping
基于区域分组的可解释性的精确的细粒度识别,该文模型在在包括CUB-200、CelebA和iNaturalist数据集上的实验表明优于以前的方法。
作者 | Zixuan Huang, Yin Li
单位 | 威斯康星大学
论文 | https://arxiv.org/abs/2005.10411
代码 | https://github.com/zxhuang1698/interpretability-by-parts(即将)
网站 | https://www.biostat.wisc.edu/~yli/cvpr2020-interp/
#场景图生成#
[16].Graph Density-Aware Losses for Novel Compositions in Scene Graph Generation
场景图生成中新构图的图密度感知损失
作者 | Boris Knyazev, Harm de Vries, Cătălina Cangea, Graham W. Taylor, Aaron Courville, Eugene Belilovsky
单位 | 圭尔夫大学;蒙特利尔大学;剑桥;矢量人工智能研究所;Element AI
论文 | https://arxiv.org/abs/2005.08230
代码 | https://github.com/bknyaz/sgg
生成对抗网络GAN
#GAN#
[17].CIAGAN: Conditional Identity Anonymization Generative Adversarial Networks
CIAGAN:条件身份匿名化生成对抗网络
GAN也要考虑隐私问题!我们的模型能够删除面部和身体的识别特征,同时生成可用于任何计算机视觉任务(例如检测或跟踪)的高质量图像和视频。与以前的方法不同,我们可以完全控制取消标识(匿名化)过程,从而确保匿名性和多样性。
作者 | Maxim Maximov, Ismail Elezi, Laura Leal-Taixé
单位 | 威尼斯大学;慕尼黑工业大学
论文 | https://arxiv.org/abs/2005.09544
代码 | https://github.com/dvl-tum/ciagan
#可解释GAN#
[18].InterFaceGAN: Interpreting the Disentangled Face Representation Learned by GANs
InterFaceGAN:解读通过GANs学习的人脸表示,发现隐空间学到了人脸的语义特征(比如性别、有没有戴眼睛等),构建特征子空间投影,可以更好的在各个语义属性层面控制人脸生成。
(这项工作效果很棒,强烈推荐大家关注!)
作者 | Yujun Shen, Ceyuan Yang, Xiaoou Tang, Bolei Zhou
单位 | 香港中文大学
论文 | https://arxiv.org/abs/2005.09635
代码 | https://github.com/genforce/interfacegan
深度学习
#作用力估计#
[19].Deep learning with 4D spatio-temporal data representations for OCT-based force estimation
机器人辅助微创手术中估计器械和人体组织之间的作用力是重要且具有挑战的,该文基于OCT的四维时空数据表示的深度学习,大大改进了此项任务的精度,平均绝对误差为10.7mN。
作者 | Nils Gessert, Marcel Bengs, Matthias Schlüter, Alexander Schlaefer
单位 | 汉堡工业大学
论文 | https://arxiv.org/abs/2005.10033
代码 | https://github.com/ngessert/4d_deep_learning
[20].Reducing Overlearning through Disentangled Representations by Suppressing Unknown Tasks
作者认为现有深度学习模型在提取相应任务特征的时候存在过学习的问题,也就是学到了其他信息,而这对隐私保护来说是不应该的,故IBM的研究人员发明了一种方法,通过抑制未知任务来减少过度学习的现象。
作者 | Naveen Panwar, Tarun Tater, Anush Sankaran, Senthil Mani
单位 | IBM Research AI
论文 | https://arxiv.org/abs/2005.10220
代码 | https://github.com/dl-model-recommend/model-trust
#深度估计#
[21].Focus on defocus: bridging the synthetic to real domain gap for depth estimation
作者 | Maxim Maximov, Kevin Galim, Laura Leal-Taixé
单位 | 慕尼黑工业大学
论文 | https://arxiv.org/abs/2005.09623
代码 | https://github.com/dvl-tum/defocus-net
#CVPR 2020# #二进制分类# #深度估计#
[22].Bi3D: Stereo Depth Estimation via Binary Classifications
基于二进制分类的立体深度估计
作者 | Abhishek Badki, Alejandro Troccoli, Kihwan Kim, Jan Kautz, Pradeep Sen, Orazio Gallo
单位 | 英伟达;加州大学
论文 | https://arxiv.org/abs/2005.07274
代码 | https://github.com/NVlabs/Bi3D(尚未开源)
#重打光#
[23].Deep Lighting Environment Map Estimation from Spherical Panoramas
基于深度学习的球形全景图像的光线估计与映射,用于混合现实中虚拟物体和真实场景的光照一致性处理。
作者 | Vasileios Gkitsas , Nikolaos Zioulis, Federico Alvarez, Dimitrios Zarpalas, Petros Daras
单位 | 海拉斯研究和技术中心、马德里理工大学
论文 | https://arxiv.org/abs/2005.08000v1
代码 | https://vcl3d.github.io/DeepPanoramaLighting/
图像增强与质量评价
#CVPR 2020 oral# #图像修复#
[24].Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting
作者发明了上下文残差聚合方法,用于超高分辨率图像修复,在GTX 1080 Ti GPU上实现2K图像的实时性能。
作者 | Zili Yi, Qiang Tang, Shekoofeh Azizi, Daesik Jang, Zhan Xu
单位 | 加拿大华为技术有限公司
论文 | https://arxiv.org/abs/2005.09704
代码 | https://github.com/Atlas200dk/sample-imageinpainting-HiFill
#CVPR 2020#
[25].Instance-aware Image Colorization
实例感知的图像着色,将目标检测引入图像着色,实验验证该方法达到了最先进的性能。
作者 | Jheng-Wei Su, Hung-Kuo Chu, Jia-Bin Huang
单位 | 清华大学(新竹);弗吉尼亚理工学院暨州立大学
论文 | https://arxiv.org/abs/2005.10825
代码 | https://github.com/ericsujw/InstColorization
网站 | https://ericsujw.github.io/InstColorization/
#图像质量评估##VR##全景图#
[26].Omnidirectional Images as Moving Camera Videos
360全景图像中带有图像扭曲,该文专为此发明了用于360全景图像的图像质量评价方法。
作者 | Xiangjie Sui, Kede Ma, Yiru Yao, Yuming Fang
单位 | 江西财经大学;香港城市大学
论文 | https://arxiv.org/abs/2005.10547
代码 | https://github.com/xiangjieSui/Omnidirectional-Images-as-Moving-Camera-Videos
智能驾驶
#VSLAM自动驾驶#
[27].Persistent Map Saving for Visual Localization for Autonomous Vehicles: An ORB-SLAM 2 Extension
本文展示了立体相机系统 + ORB-SLAM 2 的扩展应用于自动驾驶,在特征丰富的场景可以支持36m/s的行驶速度,该方案可大幅节省硬件成本,但在特征不丰富场景还有待改进。
作者 | Felix Nobis, Odysseas Papanikolaou, Johannes Betz, Markus Lienkamp
单位 | 慕尼黑工业大学
论文 | https://arxiv.org/abs/2005.07429
代码 | https://github.com/TUMFTM/orbslam-map-saving-extension
#行人意图识别#
[28].FuSSI-Net: Fusion of Spatio-temporal Skeletons for Intention Prediction Network
FuSSI-Net:时空骨架融合的意图预测网络
本文开发了一个端到端的行人意图框架,该框架在白天和晚上的情况下都能很好地执行。我们的框架依赖于异物检测边界框以及人体姿势的骨骼特征。早期融合机制的AP值为0.89,对行人意图分类的精度/召回率为0.79 / 0.89。
作者 | Francesco Piccoli, Rajarathnam Balakrishnan, Maria Jesus Perez, Moraldeepsingh Sachdeo, Carlos Nunez, Matthew Tang, Kajsa Andreasson, Kalle Bjurek, Ria Dass Raj, Ebba Davidsson, Colin Eriksson, Victor Hagman, Jonas Sjoberg, Ying Li, L. Srikar Muppirisetty, Sohini Roychowdhury
单位 | 查尔姆斯理工大学;加州伯克利;
论文 | https://arxiv.org/abs/2005.07796
代码 | https://matthew29tang.github.io/pid-model/#/integrated/
图像描述
#密集视频字幕#
[29].A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer
更好地利用视听线索:使用Bi-modal Transformer 实现密集视频字幕
作者 | Vladimir Iashin, Esa Rahtu
单位 | 坦佩雷大学
论文 | https://arxiv.org/abs/2005.08271
代码 | https://v-iashin.github.io/bmt
图像分割
#CVPR 2020# #语义分割#
[30].Single-Stage Semantic Segmentation from Image Labels
基于图像标签的单级语义分割方法
该文首先定义一个弱监督方法的三个理想属性:局部一致性,语义保真度和完整性。使用这些属性作为指导,然后开发基于分割的网络模型和自监督的训练方案,以在单个阶段中从图像级标注中训练语义蒙版。实验表明,尽管它很简单,所取得的结果与复杂得多的算法相比具有竞争优势,大大优于早期的单阶段方法。
作者 | Nikita Araslanov, Stefan Roth
单位 | 达姆施塔特工业大学
论文 | https://arxiv.org/abs/2005.08104
代码 | https://github.com/visinf/1-stage-wseg
#实例分割##自监督##迁移学习#
[31].Self-supervised Transfer Learning for Instance Segmentation through Physical Interaction
基于物理交互的自监督迁移学习用于实例分割
SelfDeepMask在COCO数据集上平均精度比 DeepMask 高9.5%。
作者 | Andreas Eitel, Nico Hauff, Wolfram Burgard
单位 | 弗莱堡大学
论文 | https://arxiv.org/abs/2005.09484
代码 | https://github.com/aeitel/self_deepmask
光学、几何、光场成像
#光学影像#
[32].LEARNING TO MODEL AND CALIBRATE OPTICS VIA A DIFFERENTIABLE WAVE OPTICS SIMULATOR
建模和校准光学元件
作者 | Josue Page, Paolo Favaro
单位 | 伯尔尼大学;慕尼黑工业大学
论文 | https://arxiv.org/abs/2005.08562
代码 | https://github.com/pvjosue/WaveBlocks
#光谱重建#
[33].Adaptive Weighted Attention Network with Camera Spectral Sensitivity Prior for Spectral Reconstruction from RGB Images
基于摄像机光谱灵敏度的自适应加权注意网络在RGB图像光谱重建中的应用
实验结果表面提出的AWAN网络在定量比较和感知质量方面优于其他最新SR方法的有效性。在NTIRE 2020光谱重建挑战赛中,在clean赛道上排名第一,在现实世界任务赛道上排名第三。
作者 | Jiaojiao Li, Chaoxiong Wu, Rui Song, Yunsong Li, Fei Liu
单位 | 西安电子科技大学
论文 | https://arxiv.org/abs/2005.09305
代码 | https://github.com/Deep-imagelab/AWAN(即将)
超分辨率
#多光谱图像超分辨率#
[34].Learning Spatial-Spectral Prior for Super-Resolution of Hyperspectral Imagery
学习空域光谱先验,用于多光谱图像的超分辨率,实验证明该方法增强了恢复后的高分辨率图像的细节,打败了之前的SOTA。
作者 | Junjun Jiang, He Sun, Xianming Liu, Jiayi Ma
单位 | 哈工大、武汉大学、鹏城实验室
论文 | https://arxiv.org/abs/2005.08752v1
代码 | https://github.com/junjun-jiang/SSPSR
无监督、半监督
#ECCV 2020 投稿#
[35].What Makes for Good Views for Contrastive Learning?
该文方法在ImageNet分类的无监督预训练上实现了一个新的最先进的准确度(用ResNet-50进行无监督预训练时,73%的Top-1精度)。此外,将我们的模型转移到PASCAL VOC目标检测和COCO实例分割上,我们的模型在无监督预训练上的表现始终优于有监督预训练。
(感觉是个大新闻,改天好好看看这篇文章)
作者 | Yonglong Tian, Chen Sun, Ben Poole, Dilip Krishnan, Cordelia Schmid, Phillip Isola
单位 | MIT;谷歌
论文 | https://arxiv.org/abs/2005.10243
代码 | https://github.com/HobbitLong/PyContrast
遥感与航空影响处理识别
#航拍图像场景识别#
[36].Cross-Task Transfer for Multimodal Aerial Scene Recognition
在航拍图像中引入对应位置的声音来进行场景识别,作者们构造了第一个该方向的数据集,使用跨任务的迁移学习构造多模态学习框架。实验证明,语音信息的增加改进了航拍场景识别的精度。
作者 | Di Hu, Xuhong Li, Lichao Mou, Pu Jin, Dong Chen, Liping Jing, Xiaoxiang Zhu, Dejing Dou
单位 | 百度、德国航空航天中心、慕尼黑工业大学、北京交通大学
论文 | https://arxiv.org/abs/2005.08449v1
代码 | https://github.com/DTaoo/Multimodal-Aerial-Scene-Recognition
其他方向
[37].PrimiTect: Fast Continuous Hough Voting for Primitive Detection
更好的解决了三维点集的数据抽象问题
作者 | Christiane Sommer, Yumin Sun, Erik Bylow, Daniel Cremers
单位 | 慕尼黑工业大学
论文 | https://arxiv.org/abs/2005.07457
代码 | https://github.com/c-sommer/primitect
#视觉问题生成#
[38].C3VQG: Category Consistent Cyclic Visual Question Generation
作者 | Shagun Uppal, Anish Madan, Sarthak Bhagat, Yi Yu, Rajiv Ratn Shah
单位 | IIIT-Delhi;NII, Japan
论文 | https://arxiv.org/abs/2005.07771
代码 | https://github.com/ranjaykrishna/iq
主页 | https://cs.stanford.edu/people/ranjaykrishna/iq/index.html
#视觉时尚分析#
[39].MMFashion: An Open-Source Toolbox for Visual Fashion Analysis
MMFashion:香港中文大学MMLab开源的视觉时尚分析数据库,含属性识别、服饰检索、服饰分割与特征点检测、服饰搭配与推荐等功能模块,并开放了相关数据集。
作者 | Xin Liu, Jiancheng Li, Jiaqi Wang, and Ziwei Liu
单位 | 香港中文大学
论文 | https://arxiv.org/abs/2005.08847v1
代码 | https://github.com/open-mmlab/mmfashion
[40].Three-Filters-to-Normal: An Accurate and Ultrafast Surface Normal Estimator
Three-Filters-to-Normal:一种精确的超快表面法线估计器
作者 | Rui Fan, Hengli Wang, Bohuan Xue, Huaiyang Huang, Yuan Wang, Ming Liu, Ioannis Pitas
单位 | 港科大;加州大学伯克利分校;亚里士多德大学
论文 | https://arxiv.org/abs/2005.08165
代码 | https://sites.google.com/view/3f2n/code(尚未)
#图像处理#
[41].Portrait Shadow Manipulation
肖像阴影编辑
作者 | Xuaner Cecilia Zhang, J onathan T. Barron, Yun-Ta Tsai, Rohit Pandey, Xiuming Zhang, Ren Ng, David E. Jacobs
单位 | 加州伯克利;MIT;谷歌;
论文 | https://arxiv.org/abs/2005.08925
代码 | https://github.com/ceciliavision/portraitshadow(即将)
主页 | https://people.eecs.berkeley.edu/~cecilia77/project-pages/portrait
视频 | https://www.youtube.com/watch?v=M_qYTXhzyac&feature=youtu.be
#CVPR2020#
[42].Context-aware and Scale-insensitive Temporal Repetition Counting
在视频中进行重复动作计数
作者 | Huaidong Zhang, Xuemiao Xu, Guoqiang Han, Shengfeng He
单位 | 华南理工大学;亚热带建筑科学国家重点实验室
论文 | https://arxiv.org/abs/2005.08465
代码 | https://github.com/Xiaodomgdomg/Deep-Temporal-Repetition-Counting(即将)
#CVPR 2020 oral ##高维卷积网络#
[43].High-dimensional Convolutional Networks for Geometric Pattern Recognition
用于几何模式识别的高维卷积网络
提出了用于在几何配准的背景下出现的模式识别问题的高维卷积网络(ConvNets)。
首先研究卷积网络在多达32维的高维空间中检测线性子空间的有效性:维数比之前的ConvNets要高得多。
然后,将高维ConvNets应用于刚性运动和图像对应估计下的3D配准。
实验表明,高维ConvNets优于基于全局池化的深层网络的方法。
作者 | Christopher Choy, Junha Lee, Rene Ranftl, Jaesik Park, Vladlen Koltun
单位 | 英伟达;英特尔;浦项科技大学
论文 | https://arxiv.org/abs/2005.08144
代码 | https://github.com/chrischoy/HighDimConvNets(尚未开源)
#SIGGRAPH 2020##自建字体#
[44].Attribute2Font: Creating Fonts You Want From Attributes
Attribute2Font:从属性创建想要的字体
本文提出了一种新颖的模型, Attribute2Font,通过根据用户指定的属性及其对应的值合成视觉上令人愉悦的字形图像来自动创建字体。是该方向的第一个工作。
作者 | Yizhi Wang, Yue Gao, Zhouhui Lian
单位 | 北大
论文 | https://arxiv.org/abs/2005.07865
代码 | https://github.com/hologerry/Attr2Font
Identifying Statistical Bias in Dataset Replication
[45].识别数据集复制中的统计偏差
作者 | Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Jacob Steinhardt, Aleksander Madry
单位 | MIT;UC Berkeley
论文 | https://arxiv.org/abs/2005.09619
代码 | https://github.com/MadryLab/dataset-replication-analysis(即将)
#对比表征学习#
[46].Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere
对比表征学习近期取得了重要成功,而该文研究了其损失函数,并指出其两个特性(Alignment and Uniformity on the Hypersphere)是其成功的主要因素,在计算机视觉和自然语言处理的实验中均验证了作者的理论。
(该文看起来也非常值得一读)
作者 | Tongzhou Wang, Phillip Isola
单位 | 麻省理工学院计算机科学与人工智能实验室
论文 | https://arxiv.org/abs/2005.10242
代码 | https://github.com/SsnL/align_uniform
网站 | https://ssnl.github.io/hypersphere/
在我爱计算机视觉公众号对话框回复“CVCode”即可获取以上所有论文下载地址。(网盘位置:Code周报--20200503期)
往期"精彩阅读"
END
备注如:目标检测
细分方向交流群
2D、3D目标检测、图像分割、检索、NAS等最新资讯,若已为CV君其他账号好友请直接私信。
我爱计算机视觉
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
投稿:amos@52cv.net
网站:www.52cv.net
在看,让更多人看到
转载地址:http://ojysz.baihongyu.com/