Hotchips 33学习：Google的Video Coding Unit 视频转码单元

zoukankan html css js c++ java

Hotchips 33学习：Google的Video Coding Unit 视频转码单元

视频转码的算法在逐渐优化，软件转码消耗的时间也越来越多，
换算为pixels/second的话，可以看出更加明显的数量级的差异
描述一个这个卡的作用，同样的视频质量的话，传输带宽可以降低5倍；
1920*1080pixels*30frames/s*rgb32bit/10^6=1990Mbps=248MBps，不知道20Mbps是不是算错了。
自研的卡实现了两种转码算法：
编码核心，使用标准的256bit位宽的AXI数据总线，和32bit位宽的APB控制总线；
设计上采用了西门子的EDA的软件；
设计上的目标：1. 最大化利用效率；2. 最大化用户空间的控制；3. 为编码器优化带宽和延时
支持1个decode对应48个encode，也就是上传1个视频，转码成多种版本；
从下图可以看出，三个解码，十个编码单元；其他的控制器模块通过片上网络进行互联；
下面这个图具体描述一个片上互联网络的拓扑
用户空间控制转码的选择，固件控制了任务的分发和隔离。
解码的任务到达固件，转发给DMA引擎，然后到达加速器上的编码单元；这里重要的事解码帧的复用，可以提高编码的并发；
为了最大化Perf/TCO，每个卡支持2个ASIC，每个主板支持5个卡，每个host支持2个主板，因此一个host支持20个ASIC；
性能对比部分可以看到编码部分的增长是线性的，但是单输出转码因为受限解码模块的数量并不会很快，多输出转码反而是比单输出的情况下提高了1.2倍；
【这个卡设计的确实不是很好看】

参考文献：
https://www.anandtech.com/show/16912/hot-chips-2021-live-blog-graphics-intel-amd-google-xilinx

THE END
2021年8月29日

万事走心精益求美

查看全文

相关阅读:
驱动控制浏览器和排程算法
 Python简单人脸识别，可调摄像头，基础入门，先简单了解一下吧
 机器学习
 “一拖六”屏幕扩展实战
 Apple iMac性能基准测试
 IDC机房KVM应用案例分析
 突破极限解决大硬盘上安装Unix新思路
 Domino系统从UNIX平台到windows平台的迁移及备份
 走进集装箱数据中心（附动画详解）
企业实战之部署Solarwinds Network八部众

原文地址：https://www.cnblogs.com/kongchung/p/15202065.html