0

0

一句话为视频加特效;迄今为止最全昆虫大脑图谱

WBOY

WBOY

发布时间:2023-04-13 10:19:09

|

1621人浏览过

|

来源于51CTO.COM

转载

目录:


  1. Composer: Creative and Controllable Image Synthesis with Composable Conditions
  2. Structure and Content-Guided Video Synthesis with Diffusion Models
  3. The connectome of an insect brain
  4. Uncertainty-driven dynamics for active learning of interatomic potentials
  5. Combinatorial synthesis for AI-driven materials discovery
  6. Masked Images Are Counterfactual Samples for Robust Fine-tuning
  7. One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale 
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Composer: Creative and Controllable Image Synthesis with Composable Conditions

  • 作者:Lianghua Huang 等
  • 论文地址:https://arxiv.org/pdf/2302.09778v2.pdf

摘要:在 AI 绘画领域,很多研究者都在致力于提升 AI 绘画模型的可控性,即让模型生成的图像更加符合人类要求。前段时间,一个名为 ControlNet 的模型将这种可控性推上了新的高峰。大约在同一时间,来自阿里巴巴和蚂蚁集团的研究者也在同一领域做出了成果,本文是这一成果的详细介绍。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

推荐:AI 绘画新思路:国产开源 50 亿参数新模型,合成可控性、质量实现飞跃。

论文 2:Structure and Content-Guided Video Synthesis with Diffusion Models

  • 作者:Patrick Esser 等
  • 论文地址:https://arxiv.org/pdf/2302.03011.pdf

摘要:相信很多人已经领会过生成式 AI 技术的魅力,特别是在经历了 2022 年的 AIGC 爆发之后。以 Stable Diffusion 为代表的文本到图像生成技术一度风靡全球,无数用户涌入,借助 AI 之笔表达自己的艺术想象……

相比于图像编辑,视频编辑是一个更具有挑战性的议题,它需要合成新的动作,而不仅仅是修改视觉外观,此外还需要保持时间上的一致性。在这条赛道上探索的公司也不少。前段时间,谷歌发布的 Dreamix 以将文本条件视频扩散模型(video diffusion model, VDM)应用于视频编辑。

近日,曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」,该模型通过应用文本 prompt 或参考图像指定的任何风格,可将现有视频转化为新视频。比如将「街道上的人」变成「粘土木偶」,只需要一行 prompt。

图片

推荐:加特技只需一句话 or 一张图,Stable Diffusion 的公司把 AIGC 玩出了新花样。

论文 3:The connectome of an insect brain

  • 作者:MICHAEL WINDING 等
  • 论文地址:https://www.science.org/doi/10.1126/science.add9330

摘要:研究人员完成了迄今为止最先进的昆虫大脑图谱,这是神经科学领域的一项里程碑式成就,使科学家更接近对思维机制的真正理解。

由约翰斯・霍普金斯大学和剑桥大学领导的国际团队制作了一张惊人的详细图谱,描绘了果蝇幼虫大脑中的每一个神经连接,这是一个与人类大脑相当的原型科学模型。该研究可能会支持未来的大脑研究并激发新的机器学习架构。

图片

推荐:迄今为止最全昆虫大脑图谱,可能激发新的机器学习架构。

论文 4:Uncertainty-driven dynamics for active learning of interatomic potentials

  • 作者:Maksim Kulichenko 等
  • 论文地址:https://www.nature.com/articles/s43588-023-00406-5

摘要:机器学习 (ML) 模型,如果针对高保真量子模拟的数据集进行训练,可以产生准确高效的原子间势。主动学习 (AL) 是迭代生成不同数据集的强大工具。在这种方法中,ML 模型提供了不确定性估计及其对每个新原子构型的预测。如果不确定性估计超过某个阈值,则该构型将包含在数据集中。

近日,来自美国洛斯阿拉莫斯国家实验室的研究人员制定了一种策略:主动学习的不确定性驱动动力学 (UDD-AL),以更快地发现有意义地扩充训练数据集的构型。UDD-AL 修改了分子动力学模拟中使用的势能面,以支持存在较大模型不确定性的构型空间区域。UDD-AL 的性能在两个 AL 任务中得到了证明。下图为甘氨酸测试用例的 UDD-AL 和 MD-AL 方法比较。

图片

推荐:Nature 子刊 | 不确定性驱动、用于主动学习的动力学用于自动采样。

论文 5:Combinatorial synthesis for AI-driven materials discovery

  • 作者:John M. Gregoire 等
  • 论文地址:https://www.nature.com/articles/s44160-023-00251-4

摘要:合成是固态材料实验的基石,任何合成技术必然涉及改变一些合成参数,最常见的是成分和退火温度。「组合合成」通常是指自动化 / 并行化材料合成,以创建具有一个或多个合成参数系统变化的材料集合。人工智能控制的实验工作流程对组合合成提出了新的要求。

在此,加州理工学院的研究人员概述了组合合成,设想了由组合合成和 AI 技术的共同开发推动的加速材料科学的未来。并建立了评估不同技术之间权衡的十个指标,涵盖速度、可扩展性、范围和质量。这些指标有助于评估一项技术对给定工作流程的适用性,并说明组合合成的进步将如何开创加速材料科学的新时代。如下为组合合成平台的合成指标和各自评价。

图片

推荐:Nature Synthesis 综述:人工智能驱动材料发现的组合合成。

论文 6:Masked Images Are Counterfactual Samples for Robust Fine-tuning

  • 作者:Yao Xiao 等
  • 论文地址:https://arxiv.org/abs/2303.03052

摘要:中山大学人机物智能融合实验室(HCP)在 AIGC 及多模态大模型方面成果丰硕,在近期的 AAAI 2023、CVPR 2023 先后入选了十余篇,位列全球研究机构的第一梯队。其中一个工作实现了用因果模型来显著提升多模态大模型在调优中的可控及泛化性 ——《Masked Images Are Counterfactual Samples for Robust Fine-tuning》。

图片

推荐:中山大学 HCP 实验室新突破:用因果范式再升级多模态大模型。

论文 7:One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

  • 作者:Fan Bao 等
  • 论文地址:https://ml.cs.tsinghua.edu.cn/diffusion/unidiffuser.pdf

摘要:该论文提出了一个为多模态设计的概率建模框架 UniDiffuser,并采用该团队提出的基于 transformer 的网络架构 U-ViT,在开源的大规模图文数据集 LAION-5B 上训练了一个十亿参数量的模型,使得一个底层模型能够高质量地完成多种生成任务(图 1)。简单来讲,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能,大幅提升文图内容的生产效率,也进一步提升了生成式模型的应用想象力。

图片

推荐:清华朱军团队开源首个基于 Transformer 的多模态扩散大模型,文图互生、改写全拿下。

Text-To-Song
Text-To-Song

免费的实时语音转换器和调制器

下载

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介。

本周 10 篇 NLP 精选论文是:

1. GLEN: General-Purpose Event Detection for Thousands of Types.  (from Martha Palmer, Jiawei Han)

2. An Overview on Language Models: Recent Developments and Outlook.  (from C.-C. Jay Kuo)

3. Learning Cross-lingual Visual Speech Representations.  (from Maja Pantic)

4. Translating Radiology Reports into Plain Language using ChatGPT and GPT-4 with Prompt Learning: Promising Results, Limitations, and Potential.  (from Ge Wang)

5. A Picture is Worth a Thousand Words: Language Models Plan from Pixels.  (from Honglak Lee)

6. Do Transformers Parse while Predicting the Masked Word?.  (from Sanjeev Arora)

7. The Learnability of In-Context Learning.  (from Amnon Shashua)

8. Is In-hospital Meta-information Useful for Abstractive Discharge Summary Generation?.  (from Yuji Matsumoto)

9. ChatGPT Participates in a Computer Science Exam.  (from Ulrike von Luxburg)

10. Team SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approaches for news genre, topic and persuasion technique classification.  (from Kalina Bontcheva)

本周 10 篇 CV 精选论文是:

1. From Local Binary Patterns to Pixel Difference Networks for Efficient Visual Representation Learning.  (from Matti Pietikäinen, Li Liu)

2. Category-Level Multi-Part Multi-Joint 3D Shape Assembly.  (from Wojciech Matusik, Leonidas Guibas)

3. PartNeRF: Generating Part-Aware Editable 3D Shapes without 3D Supervision.  (from Leonidas Guibas)

4. Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D Perception.  (from Xiangyu Zhang)

5. Grab What You Need: Rethinking Complex Table Structure Recognition with Flexible Components Deliberation.  (from Bing Liu)

6. Unified Visual Relationship Detection with Vision and Language Models.  (from Ming-Hsuan Yang)

7. Contrastive Semi-supervised Learning for Underwater Image Restoration via Reliable Bank.  (from Huan Liu)

8. InstMove: Instance Motion for Object-centric Video Segmentation.  (from Xiang Bai, Alan Yuille)

9. ViTO: Vision Transformer-Operator.  (from George Em Karniadakis)

10. A Simple Framework for Open-Vocabulary Segmentation and Detection.  (from Jianfeng Gao, Lei Zhang)

本周 10 篇 ML 精选论文是:

1. Generalizing and Decoupling Neural Collapse via Hyperspherical Uniformity Gap.  (from Bernhard Schölkopf)

2. AutoTransfer: AutoML with Knowledge Transfer -- An Application to Graph Neural Networks.  (from Jure Leskovec)

3. Relational Multi-Task Learning: Modeling Relations between Data and Tasks.  (from Jure Leskovec)

4. Interpretable Outlier Summarization.  (from Samuel Madden)

5. Visual Prompt Based Personalized Federated Learning.  (from Dacheng Tao)

6. Interpretable Joint Event-Particle Reconstruction for Neutrino Physics at NOvA with Sparse CNNs and Transformers.  (from Pierre Baldi)

7. FedLP: Layer-wise Pruning Mechanism for Communication-Computation Efficient Federated Learning.  (from Fei Wang, Khaled B. Letaief)

8. Traffic4cast at NeurIPS 2022 -- Predict Dynamics along Graph Edges from Sparse Node Data: Whole City Traffic and ETA from Stationary Vehicle Detectors.  (from Sepp Hochreiter)

9. Achieving a Better Stability-Plasticity Trade-off via Auxiliary Networks in Continual Learning.  (from Thomas Hofmann)

10. Steering Prototype with Prompt-tuning for Rehearsal-free Continual Learning.  (from Dimitris N. Metaxas)

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
composer是什么插件
composer是什么插件

Composer是一个PHP的依赖管理工具,它可以帮助开发者在PHP项目中管理和安装依赖的库文件。Composer通过一个中央化的存储库来管理所有的依赖库文件,这个存储库包含了各种可用的依赖库的信息和版本信息。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

161

2023.12.25

while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

106

2023.09.25

li是什么元素
li是什么元素

li是HTML标记语言中的一个元素,用于创建列表。li代表列表项,它是ul或ol的子元素,li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

436

2023.08.03

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

414

2026.01.27

ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

557

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

616

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

3029

2024.03.05

chatgpt国内可不可以使用
chatgpt国内可不可以使用

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

1097

2024.03.05

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 4.9万人学习

Go 教程
Go 教程

共32课时 | 6.1万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 3.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号