稀土开发者大会2023

<< 返回

出品人：吴兴龙

字节跳动智能创作 CV 技术负责人

2013 年硕士毕业，一直从事计算机视觉领域研究，当前主要负责多模态、AIGC、智能编辑等技术方向。

立即报名 >

专题：大模型与 AIGC（上午场）

会议地址：三层·云南大宴会厅B（07/01上午）

以 GPT、Diffusion 为代表的大模型，以及以 ChatGPT、AI 绘画为代表的 AI 产品形态，引发了 AIGC 的新一波浪潮。从 LLM 到多模态大模型，大模型将如何演进，AIGC 还有哪些想象空间，我们是不是找到了通往 AGI 之路。本专题将带领大家一起深入探讨和复盘，破除迷雾，直面 AIGC 最核心的问题。

AIGC 前沿技术 —— 虚拟人动作生成技术的发展与应用

09:30-10:05

陈欣

腾讯科技 QQ 影像中心高级算法研究员

中国科学院大学博士，关注于生成式人工智能，主要研究方向为虚拟人生成、人体动作生成、三维物体生成等，在 CVPR、ICCV、SIGGRAPH 等国际顶级会议期刊发表论文 20 余篇。目前主要负责超级 QQ 秀的虚拟人服饰、动画的研究、QQ 影像的前沿技术探索，并致力于 AIGC、多模态大模型等前沿技术的技术研究与落地工作。

内容介绍

AIGC 这类生成式智能算法技术大大提升了设计师的工作效率，降低了设计门槛，也让更多的人感受到 AI 画画、AI 动画生成的乐趣。其中，AI 动画是一种基于文本生成高质量、多样化的人体动作的前沿技术，这为驱动虚拟角色甚至控制人形机器人提供了更方便和人性化的方式，将有益于游戏产业、电影制作、虚拟现实/增强现实和机器人辅助等众多应用。在本次演讲中，我们将针对虚拟人动作生成方向，介绍我们提出的两种全新动作生成算法，分享我们基于扩散模型技术和语言大模的最新研究成果。另外，演讲中介绍的算法已开源，欢迎测试与使用，最后也会与相关开发者讨论动作生成技术的挑战和未来发展方向。

演讲提纲

1. 虚拟动作生成算法的发展与演进

2. 扩散模型与虚拟动作生成

3. 语言模型与虚拟动作生成

4. 虚拟动作的挑战与未来发展

内容电商下的多模态内容理解和智能生产

10:05-10:40

熊鹏飞

虾皮多媒体技术负责人

博士毕业于中科院自动化所。前腾讯专家研究员及多模态内容理解和智能创作负责人，先后负责计算机视觉、内容检索、移动端拍摄、多媒体理解、视频生产、智能创作等相关团队的算法研究与业务落地。曾在 300-W、Middlebury、YoutubeVOS、Kinects、TRECVID、NTIRE 等国际赛事多次登顶，在顶级国际会议和期刊上发表近二十篇论文，并持有三十多篇国际专利。

内容介绍

内容电商逐渐成为电商场景的重要组成。随着图像、视频、文本等多模态信息的越来越普及，多模态预训练技术在内容电商的供给、生产、消费、流量等环节也体现出了越来越多的应用。作为持续投入多模态技术的团队，我们设计了一整套完整的多模态训练、跨模态理解及内容生产服务。通过内容电商的业务沉淀了一整套多模态内容理解方案。在多模态的表征、融合、对齐、预训练、生产等多个维度上均做了深入的研究和创新。本次分享我们主要介绍多模态预训练上的进展，以及在电商检索、直播理解、电商生产等场景下的应用。

演讲提纲

1. 多模态研究背景

2. 多模态训练技术

3. 业务背景介绍

4. 多模态电商检索

5. 跨模态内容电商

6. 直播内容生产

7. 电商内容生产

8. 总结与展望

生成式 AI 狂潮下如何加速大规模语言模型计算

10:40-11:15

赵亮

英特尔人工智能方案架构师

拥有 20 年多媒体和人工智能计算产品及平台研发、管理和技术支持的经验，现在 Intel 从事 Habana 人工智能加速器产品在中国的推广、技术支持及落地工作。

内容介绍

随着近年大规模语言模型（LLM）的蓬勃发展以及和 ChatGPT 类应用的爆发性增长，大规模语言模型的应用有一统天下之势。本次分享将通过概述近期流行的 LLM 模型的技术特点，分析此类模型对软硬件的要求和挑战，同时介绍 Habana Gaudi2 产品如何加速此类模型的训练、推理的应用。

演讲提纲

1. LLM 模型的发展历史

2. 近期流行的典型 LLM 模型技术分析比较

3. LLM 训练和推理对软硬件的要求

4. Habana Gaudi2 产品特性及对 LLM 模型的支持情况

多模态内容生成技术的前沿与应用

11:15-11:50

冯佳时

字节跳动研究科学家

现任字节跳动智能内容创作基础研究团队负责人。曾任新加坡国立大学电子与计算机工程系助理教授，机器学习与视觉实验室负责人。研究方向包括深度学习与计算机视觉。目前主要研究多模态基础模型、生成模型、3D 建模。曾获得麻省理工科技评论 35 岁以下创新者（亚洲），ACM MM 最佳学生论文奖，ICCV TASK-CV 讨论会最佳论文奖，CVPR2021 最佳论文奖提名。曾担任 CVPR、ICML、ICLR、NeurIPS 等会议的领域主席。

内容介绍

AIGC 是当前人工智能技术领域的热门研究方向，其应用场景包括但不限于图像、视频和三维模型的生成。在本次演讲中，我们将重点介绍三个方面的内容：首先是 text2image 技术，即将文本描述转化为图像。我们将探讨如何使用深度学习算法将自然语言描述转化为图像，并展示该技术在素材供给、设计等领域的应用案例。其次是 text2video 技术，即将文本描述转化为视频。我们将介绍如何使用深度学习技术来生成动态场景，例如电影特效和虚拟演员。此外，我们将展示如何将该技术应用于视频自动生成。最后，我们将探讨 3D 生成技术，即将文本描述转化为三维模型。我们将介绍使用 GAN 和其他深度学习技术来生成三维物体的方法，并展示该技术的应用案例。

演讲提纲

1. AIGC 背景介绍

2. text2image 技术介绍与应用案例

3. text2video 技术介绍与应用

4. 3D 内容生成技术介绍

5. 总结、讨论与展望