稀土开发者大会2023

<< 返回

出品人：刘歧

FFmpeg 官方源代码维护者

资深音视频技术专家，擅长音视频流媒体技术，FFmpeg 官方源代码维护者。曾供职于 ChinaCache 流媒体架构师、高升控股 CDN 技术总监、金山云高级技术专家；曾作为联合创始人兼 CTO 创立 OnVideo。

立即报名 >

专题：音视频技术前沿

会议地址：三层·云南大宴会厅C（07/01下午）

本专题将聚焦音视频技术前沿，包括音视频技术的发展方向，新场景下音视频技术实践，AI 等技术与音视频技术的结合等，一起探索音视频技术的极致。

如何利用播放器节省 20% 点播成本

14:00-14:45

赵春波

火山引擎视频点播产品负责人

10 余年视频云相关研发和产品经验。当前主要负责火山引擎视频点播的产品工作，支撑抖音、西瓜等业务的点播体验优化和成本优化，并将这些技术能力沉淀到火山引擎，来服务更多的行业客户。

内容介绍

在具有视频点播业务的公司里，点播的基础设施成本经常是公司采购成本的重要构成部分，如何做优化成本是业务发展的必备工作。我们在 toB 业务交流中发现，大部分公司都关注到了服务端能力降本的手段，比如压低带宽采购价格、提升转码压缩率等，但较少有团队关注到客户端播放器在成本优化的关键作用。本次分享结合我们实践的成本优化经验和降本策略，介绍客户端播放器对点播业务的成本优化方法，以及背后数据驱动能力的建设思路。

演讲提纲

1. 点播成本构成

2. 播放器的成本优化方法

3. 成本评估公式

4. 数据挖掘成本优化空间

5. 总结和展望

FreeSWITCH 连接 RTC 及人工智能融合通信实践

14:45-15:30

杜金房

烟台小樱桃网络 CTO

FreeSWITCH 中文社区创始人，《FreeSWITCH 权威指南》、《Kamailio 实战》作者。烟台小樱桃网络科技有限公司CTO，腾讯云 TVP。

内容介绍

聚焦实时音视频与各种前沿技术融合。通信的本质是“通”。本次演讲便以 FreeSWITCH 开源软件为基础，兼谈商业化实践，分享融合 SRS、声网SDK、腾讯会议、微软 Teams、微信小程序、4G VoLTE、5G VoNR、ASR/TTS、ChatGPT 等各种平台和技术，打造统一通信平台的技术要点和实践经验。

演讲提纲

1. FreeSWITCH 与 RTC 简介

2. MCU 与 SFU 对接解决方案

3. FreeSWITCH 连接各种音视频服务

4. FreeSWITCH 连接 AI 平台及 AI 服务

5. 小结

RTC 场景下的视频编码优化与 AI 超分结合实践

15:30-16:15

苗晋伟

网易云信视频编解码算法专家

10 余年视频编解码与处理、音视频引擎开发优化等实践经验。曾就职于华为、腾讯，目前在网易云信负责视频编解码算法的开发和优化工作，主要包括 RTC 实时通信场景、视频直播点播转码场景等。

内容介绍

网易云信在 RTC 场景下的 NE 系列视频编码器包括 NE264、NE265、NEVC 编码器，其中 NE264、NE265 是符合标准的 H264、H265 协议，在此基础上结合 RTC 场景下的一些痛点问题，定制了 NEVC 私有编码器，可以进一步改善 RTC 场景下端到端的通话体验。针对 NE 系列视频编码器，在降低码率、提升质量、码控控制等方向上，我们尝试了大量的快速算法的优化。同时也结合 AI 前处理，结合网络状态等，也做了很多编码优化。另外，结合网易云信自研的轻量级的 AI 超分算法，在 NEVC 编码器内部做了自适应降分辨率的策略，可以在保持主观质量不降低的情况下，进一步的降低编码码率。

演讲提纲

1. NE 编码器介绍

2. NE 编码器在 RTC 场景下的优化

3. 轻量化端侧的 AI 超分介绍

4. NE 编码器与 AI 超分结合的落地实践

基于单张 RGB 图片的人脸重建方法

16:15-17:00

王丽

声网 AI 算法工程师

复旦大学计算机系理学博士。主要从事基于深度学习的计算机视觉方向研究，研究内容包括 2D/3D 目标检测、人群计数、3D 人体/人脸重建等。在计算机视觉领域发表学术论文 10 余篇，引用量达 1500 余次，获 ICME 2017 最佳会议论文奖。 2022 年加入声网，主要从事 3D 人体/人脸重建方向的研究和应用。

内容介绍

使用单张 RGB 图片进行人脸表情、姿态捕捉，进一步进行人脸重建，已成为计算机视觉领域的一个新兴研究课题。它的迅速发展驱动了 VR/AR 的 3D Avatar 创建，可以帮助进行人机交互。现在热门的应用，如视频编辑、图像合成、虚拟化妆等都离不开人脸的感知。如何让算法在能捕捉到精准细微的面部表情和姿态的同时保证实时性，则成为我们主要的研究方向。本次分享将分为三个部分：第一部分介绍人脸重建的背景和主要技术路线；第二部分介绍如何在移动端实时的进行人脸表情、姿态捕捉及重建；第三部分介绍算法的后续可能发展方向。

演讲提纲

1. 人脸重建的背景和主要技术路线介绍

2. 在移动端实时进行人脸重建技术介绍

3. 人脸技术当前的局限性以及未来发展方向