我在2021年3月份来到了字节跳动的火山引擎部门,担任智能美化特效CVsdk的产品实习生。这段实习中认识了很棒的mentor,很可爱的同事,这是一段很快乐的时光!
实习结束了,我也来到了新的公司。总想为上半年留下点什么,正好碰到朋友约稿写一写AI落地的小行业,就动笔写了这篇博文,经过改编后将会发到朋友的公众号上。
抖音快手等短视频的爆火在拉动泛娱乐行业快速前进的同时,也催生着美颜特效产业不断壮大。比起高大上的AI名词,在手机App中触手可得的美颜滤镜、酷炫特效、贴纸玩法似乎更能吸引大家的注意力。奶瓶面膜、透明雨衣、金凤凰,哪怕你不是短视频爱好者,也难免会被他们吸引住目光。
这些美颜特效似乎也不止停留在了这些短视频APP中,我们打开小红书拍照后可以进行美化处理,我们打开腾讯会议会自带美颜效果,甚至打开智能电视都能找到系统自带的贴纸小游戏,就连商汤的打卡机在打卡成功后都会出现有趣的贴纸特效。似乎每一个能让你看到人脸的地方都有着美颜特效的影子。
美颜特效产业的背后技术
功能项
|
功能小项
|
美颜
|
磨皮、美白、红润、锐化
|
美型
|
大眼、瘦脸、小脸、瘦鼻、隆鼻、白牙、缩人中等
|
美体
|
美臀、美胯、丰胸、瘦身、瘦腰、长腿、瘦手臂等
|
美妆
|
腮红、口红、修容、美瞳、眼影、眉毛、高光等
|
滤镜贴纸
|
人像滤镜、风景滤镜、食物滤镜、3D贴纸、GAN特效贴纸、交互贴纸等
|
虚拟形象
|
animoji形象生成、avatar形象驱动
|
看似简单的美颜特效背后,却包含着来自算法、工程和产品层面的大量挑战。仅从技术的角度看,美颜特效大量的使用了计算机视觉(CV)和计算机图形学(CG)的相关技术。除了这些单点技术本身,如何从多样的功能和场景中提炼出统一的处理链路,也是极度考验团队技术实力的一大难题。
我们先看CV和CG这两项核心技术。利用计算机视觉技术,可以实现对场景的检测和理解,无论是人脸关键点识别、还是面部瑕疵检测,无论是手势动作识别,还是自然场景理解,各种智能能力中都包含着以深度学习为核心的CV技术的影子。深度学习的发展大幅度的推动了CV技术的进步,在检测、分割、智能生成等方面都表现出了极佳的精度、准确度和场景适应性。借助上述算法的识别结果打造强互动性的特效玩法已经成为了行业内的一大发展趋势。而伴随着GAN网络的工程化落地,使用生成式模型打造千人千面的效果也成了各家鼓吹的新兴卖点。
除了CV技术外,将虚拟的素材叠加渲染到真实画面上也是一个重要的环节,这其中离不开CG的各项技术。为了更好的完成工程化落地,各家也会打造自己的特效渲染引擎。渲染引擎往往会适配OpenGL、Neon等多种计算后端并提供统一的调用接口,引擎本身也会针对场景需求进行轻量化改造、跨平台适配、高性能优化等定向开发。经过近几年的不断打磨和发展,各家的渲染引擎也变得越发强大,能够模拟真实的材质、变换的光影,甚至使用GPU粒子系统模拟出近乎真实的烟花效果。
美颜特效不只是一门技术,更是一项完整工程。只有将CV和CG的原子能力进行完善的工程化、系统化和产品化包装,才能真正的产生客户价值。不同技术提供商所选用的pipeline各不相同,但无不围绕着算法和渲染两大功能簇展开,下图就是执行流程的一个示例。而在工程化的过程中还会遇到模块化组件、多机型适配、稳定性优化等多种实际问题。针对效果、性能、成本的不同优化也形成了行业内不同玩家的各自优势。