当前位置:主页 > 娱乐 > 影视 > 正文

首次披露!阿里线下智能方案进化史

未知 2019-06-10 11:28

阿里妹导读:AI 技术已经从互联网走向零售、汽车、银行等传统行业。受限于延时、成本、安全等多方面的限制,单一的云解决方案往往不能满足场景需求。线下智能方案逐步成为了智能化过程中重要的一环,今天,我们就一起来了解这一环,希望这些内容可以让同学了解线下智能的前景和其中待解决的技术点。

前言

阿里巴巴机器智能实验室线下智能团队从16年底开始涉及线下智能领域,从算法、工程、产品化、业务落地多个方面入手,与合作伙伴们一起取得了一些小小的成绩。算法方面,我们提出了自主研发的模型压缩方法,新型模型结构和目标检测框架;工程方面,我们研发出一套非数据依赖的量化训练工具,并且针对不同硬件平台,研发了高效推理计算库;同时我们也和服务器研发团队一起抽象出了一套软硬件产品化方案,以服务多样的业务形式,并在真实业务场景中实验落地。

在后面的篇幅中,我们主要会从算法探索、训练工具、推理框架、产品化和业务模式等方面对之前的工作做一个总结和分享。

算法探索

基于 ADMM 的低比特量化

低比特量化是模型压缩( ModelCompression )和推理加速( Inference Acceleration )中一个核心的问题,目的是将神经网络中原有的浮点型参数量化成 1-8Bits 的定点参数,从而减小模型大小和计算资源消耗。为了解决这个问题,我们提出了基于 ADMM(Alternating Direction Method ofMultipliers)的低比特量化方案。在公开数据集 ImageNet 上,我们在 Alexnet,ResNet-18,Resnet-50 等经典 CNN 网络结构上做了实验,无论是精度上还是速度上均超过了目前已知的算法。我们可以在 3-bit 上面做到几乎无损压缩。目前该方法已经被广泛应用到各种端上目标检测和图像识别的实际项目中。相关成果已经在 AAAI 2018 上发表。

统一量化稀疏框架

量化技术可以通过简化计算单元(浮点计算单元->定点计算单元)提升推理速度。 稀疏化( Pruning ) 技术则是通过对神经网络中的通路进行裁剪来减少真实计算量。我们很自然的将这两个技术融合到了一起,来获取极限的理论加速比。在剪枝过程中,我们采用了渐进式的训练方法,并结合梯度信息决定网络中路径的重要程度。在 ResNet 结构上,我们可以做到90%稀疏度下的近似无损压缩。

在稀疏化研究过程中,我们发现了一个问题,更细粒度的裁剪往往会获得更高的精度,但是代价是牺牲了硬件友好性,很难在实际应用中获得理论加速比。在后面的章节中,我们会通过两个角度来解决这个问题:

软硬件协同设计,从软硬件角度同时出发解决问题;

新型轻量级网络,从软件角度设计适合更适合现有硬件的结构。

软硬件协同网络结构

通过量化和稀疏技术,我们可以获得一个理论计算量足够低,所需计算单元足够简单的深度网络模型。下一个要解决的问题就是我们如何将其转换成一个真实推理延时低的算法服务。为了挑战极限的推理加速效果,我们和服务器研发团队一起,从软硬件联合设计出发解决该问题。在该项目中,我们提出了以下几个创新点,其中包括:

软硬件协同设计方面,我们针对硬件物理特性提出了异构并行分支结构,最大化并行效率。

算法方面,我们利用量化、稀疏、知识蒸馏等技术,将理论计算量压缩到原始模型的18%。

硬件方面,我们通过算子填充技术解决稀疏计算带来的带宽问题,利用算子重排技术平衡PE负载。

通过上述方案,我们只需要 0.174ms 的 latency 就可以完成 resnet-18 复杂程度的模型推理,达到业内最佳水平。该方案在对 latency 敏感的领域具有极大的优势。相关成果已经在 HotChips 30 上展出。

新型轻量级网络

软硬件协同设计是一个非常好的推理解决方案,但是改方案的开发成本和硬件成本都很高。某些特定的场景对于 latency 和 accuracy 的容忍度比较高(例如人脸抓拍)。为了解决这类需求,我们提出了一种多联合复用网络 (Multi-Layer Feature Federation Network, MuffNet) ,该结构同时具有3个特点:

稀疏的拓扑结构,同时更容易获取高频响应;

密集的计算节点,保证硬件友好性;

针对低成本硬件充分优化,小计算量下精度提升更明显;

我们提出的新型网络由于每个单元的计算比较密集,并不存在过多的碎片操作,是非常适合在通用硬件上运行的。在公开数据集 ImageNet 上,我们在 40MFLops 计算量上相比目前业内最优的 shufflenetv2 结构,准确度绝对提升了2%。

在过去的2年间,我们尝试过多种不同的业务模式。在这里我们会列出主要几个不同形式的实例。

菜鸟未来园区

在菜鸟未来园区项目中,我们主要负责基础视觉类算法的输出,由菜鸟智慧园区团队同学负责业务算法和工程服务研发工作。经过半年的共同努力,我们先后完成了离岗睡岗检测,消防通道异常检测,车位占用检测,行人越界检测,入口计数检测等多个功能。

在项目合作的过程中,我们发现计算单元成本高是制约算法大范围推广的一个主要原因。为了解决这个问题,我们联合了服务器研发团队,开发出一版定制化软硬件解决方案:该方案的硬件平台为我们在上文中提到的边缘计算产品 Alibaba Edge,同时配备特别定制的高效模型结构和自研的快速检测算法。新版方案在检测精度几乎无损的情况下,推理速度提升了4-5倍,成本相比边缘 GPU 方案下降了1/2。

模型压缩加速

我们协助阿里集团不同业务同学完成对已有算法模型的量化瘦身与加速工作。例如:手机端 OCR 识别、手机端物体检测、手淘实人认证和刷脸登录/验证、菜鸟自提柜、阿里体育赛事刷脸入场、神州鹰人脸识别云相册等。

总结与展望

经过近两年的努力,机器智能技术实验室线下智能团队深耕线下智能领域。算法方面:我们在低比特量化、稀疏化、软硬件协同设计、轻量级网络设计、端上目标检测等多个方面取得了一定的积累,多项指标达到了业内最佳水平。工程方面:我们积累出了一套 高灵活性,高数据安全性 的训练工具 ; 并在合伙伙伴的帮助下,在ARM,FPGA,GPU 等多个平台下达到了业内最佳的推理性能。产品化方面:我们与合作伙伴一起,研发出适合于不同业务场景的智能盒子与一体化相机。最后,我们很幸运可以在集团内外多个不同形式的业务场景内打磨我们的技术。

标签