计算机视觉-五八三-第3页

[论文阅读] 颜色迁移-Illuminant Aware Gamut-Based

[论文阅读] 颜色迁移-Illuminant Aware Gamut-Based 文章: [Illuminant Aware Gamut-Based Color Transfer], [python代码] 本文目的是提出一种新的颜色迁移算法, 可以感知光源变化的全色域颜色...

博客文章

admin2年前

090

刷新20项代码任务SOTA，Salesforce提出新型基础LLM系列编码器-解码器Code T5+

前言大型语言模型 (LLMs) 最近在代码层面的一系列下游任务中表现十分出彩。通过对大量基于代码的数据 (如 GitHub 公共数据) 进行预训练，LLM 可以学习丰富的上下文表征，这些表征可以迁移到各...

人工智能

admin2年前

090

图注意力网络论文详解和PyTorch实现

前言图神经网络(gnn)是一类功能强大的神经网络，它对图结构数据进行操作。它们通过从节点的局部邻域聚合信息来学习节点表示(嵌入)。这个概念在图表示学习文献中被称为“消息传递”。本文转载...

admin2年前

090

Unity 编辑器资源导入处理函数 OnPreprocessAudio ：深入解析与实用案例

Unity 编辑器资源导入处理函数 OnPreprocessAudio 用法点击封面跳转下载页面简介在 Unity 中，资源导入是一个非常重要的环节，它决定了资源在项目中的使用方式和效果。Unity 提供了一系列的...

admin2年前

090

Unity 编辑器资源导入处理函数 OnPostprocessAudio ：深入解析与实用案例

Unity 编辑器资源导入处理函数 OnPostprocessAudio 用法点击封面跳转下载页面简介在Unity中，我们可以使用编辑器资源导入处理函数（OnPostprocessAudio）来自定义处理音频资源的导入过程。这...

admin2年前

090

击败Stable Diffusion XL，商汤绘画大模型出手即大作，论文公开、免费试玩

前言商汤大模型团队提出的文生图大模型RAPHAEL，可以生成具有高度艺术风格或者摄影风格的图片，速度极快。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，...

admin2年前

090

vision kit 平面检测从入门到放弃

AR 增强现实，是指在真实世界的基础上，通过计算机生成的虚拟信息，将虚拟信息与真实世界进行融合，从而达到增强现实的效果。核心技术及相关技术栈想要实现 WebAR 效果，四个步骤：读取、识别...

前端

admin2年前

080

ICCV 2023 | 腾讯优图实验室16篇论文入选，含掌纹生成，人脸隐私保护，图像和谐化等研究方向

前言作为全球计算机领域顶级的学术会议之一，ICCV2023（International Conference on Computer Vision）国际计算机视觉大会将于今年10月在法国巴黎举行。近日，ICCV公布了论文录用结果，本届会...

admin2年前

080

AI模型部署实战：利用CV-CUDA加速视觉模型部署流程

本文首发于公众号【DeepDriving】，欢迎关注。 CV-CUDA简介随着深度学习技术在计算机视觉领域的发展，越来越多的AI算法模型被用于目标检测、图像分割、图像生成等任务中，如何高效地在云端或者...

人工智能

admin2年前

080

WideNet:让网络更宽而不是更深

前言本文介绍了新加坡国立大学在2022 aaai发布的一篇论文。WideNet是一种参数有效的框架，它的方向是更宽而不是更深。通过混合专家(MoE)代替前馈网络(FFN)，使模型沿宽度缩放。使用单独LN用于...

admin2年前

070

一文读懂十二大深度神经网络

本文为稀土掘金技术社区首发签约文章，30天内禁止转载，30天后未获授权禁止转载，侵权必究! beginning 一提到深度神经网络，大家脑海中第一个浮现的无疑是卷积神经网络（Convolutional Ne...

admin2年前

070

【实操：人脸矫正】两次定位操作解决人脸矫正问题

juejin.cn/post/712481… 前言在实际应用中，由于各种因素的影响，采集到的人脸图像可能存在不同的问题，由于摄像机角度不同、人动作不一样，使得过滤后的人脸还是不满足我们进行特征提取...

admin2年前

070

深度学习应用篇-计算机视觉-图像分类[3]：ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构

深度学习应用篇-计算机视觉-图像分类[3]：ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍 1.ResNet 相较于VGG的19层和GoogLeNet的22层，ResNet可...

人工智能

admin2年前

070

SVTR: Scene Text Recognition with a Single Visual Model 【论文翻译】

SVTR: Scene Text Recognition with a Single Visual Model 论文：https://arxiv.org/pdf/2205.00159.pdf 使用单一视觉模型进行场景文本识别源码：https://github.com/PaddlePaddle/PaddleOCR ...

admin2年前

070

深度学习应用篇-计算机视觉-OCR光学字符识别[7]：OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景

深度学习应用篇-计算机视觉-OCR光学字符识别[7]：OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景 1.OCR综述 OCR(Optical Character Recognition,光学字符识别)是指对图...

人工智能

admin2年前

060

【Python】基于DLib库进行人脸识别

介绍 DLib库：一个机器学习的开源库，包含了机器学习的很多算法，使用起来很方便，直接包含头文件即可，并且不依赖于其他库（自带图像编解码库源码）Dlib可以帮助您创建很多复杂的机器学习方面...

admin2年前

060

深度学习应用篇-计算机视觉-语义分割综述[6]：DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献

深度学习应用篇-计算机视觉-语义分割综述[6]：DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献 0.DeepLabV3深入解读 1、DeepLab系列简介 1.1.DeepLabV1 作者发现Deep Convolutio...

人工智能

admin2年前

050

《深入浅出OCR》前言知识：机器学习基础（二）

⚠️本文为稀土掘金技术社区首发签约文章，30天内禁止转载，30天后未获授权禁止转载，侵权必究！ ✨专栏介绍：经过几个月的精心筹备，本作者推出全新系列《深入浅出OCR》专栏，对标最全OCR教程...

admin2年前

050

CV大模型系列之：全面解读VIT，它到底给植树人挖了多少坑

⚠️⚠️⚠️本文为稀土掘金技术社区首发签约文章，30天内禁止转载，30天后未获授权禁止转载，侵权必究！大家好，最近越演越热的AIGC浪潮，将Transformer这个模型带进了大家的视野。如果你从事...

admin2年前

050

MaskFormer：将语义分割和实例分割作为同一任务进行训练

前言本文介绍了Facebook AI Research在21年发布的一种超越这些限制的实例分割方法MaskFormer。本文转载自DeepHub IMBA 作者 | HannaMergui 仅用于学术分享，若侵权请联系删除欢迎关注公众号C...

人工智能

admin2年前

050