深度学习框架
2019-06-25 09:32:05
3051

MDTB++深度学习框架和Data++数据管理平台,实现了从算据、算力到算法的深度布局,以及适用于云、端、芯多类平台的算法创新

作为一家技术驱动的产品型AI企业,互衍科技的核心能力是深度学习算法能力,互衍科技一切的产品和方案创新都是围绕这一核心能力进行展开。为了实现对物理世界中人、物、场的数字化,互衍科技基于MDTB++深度学习框架和Data++数据管理平台,实现了从算据、算力到算法的深度布局,以及适用于云、端、芯多类平台的算法创新。

互衍科技将核心的深度学习算法分为感知、控制、优化三类,致力于实现从人脸、环境到万物全目标的认知与决策,而这些核心的算法已经在互衍科技各个业务场景中得到不同程度的应用。

感知
控制
优化
感知算法
人脸识别
人脸识别是当前计算机视觉领域运用最广泛的技术之一,也是互衍科技的核心技术产品。整套技术由人脸检测开始,对输入图像中是否存在人脸进行判定,得到人脸的位置、尺寸等初步信息;为了提高识别率,接着需要图像预处理,利用灰度矫正、滤除噪点等方法提升图像品质,为后续操作提供更好的数据基础;然后便是进行人脸特征提取,并于数据库里的海量人脸样本进行匹配,最终生成目标识别结果;对于一些安全性要求更高的场景,还需要通过活体检测技术,判断图像中人脸目标是否为用户真实本人,进一步提高安全性。
人体识别
为了通过图像读懂人类的身体动作所表达的信息,互衍科技研发了一套成熟的人体识别技术。其基础是人体关键点检测,对人体的关键部位点(如头部、四肢、躯干等)进行定位和追踪,生成点线集合的人体骨架,从而确认姿态、动作以及行为;在此基础上拓展的人体属性检测,可对人体所在图像区域采取特定算法进行模块化分析,并与数据库样本进行比对,最终得到目标人物性别、年龄、衣着服饰等属性信息。
文本识别
对于图像场景内文字的识别一直都是计算机视觉领域的热门,互衍科技基于深度学习研发了一套完整的文字检测与识别技术。文本检测是技术基础,通过扫描图像得到文本位置、类型和尺度信息,分割文字区域,为后续处理提供数据基础;接着进行文本识别,利用深度学习技术对文本区域内容进行识别和提取,将文本像素信息转化为字符串信息,完成了图片到文字的转化过程。
商品识别
针对正在火热发展的新零售行业,互衍科技自研了一套商品识别技术。其核心技术为细粒度识别,将目标商品图像分为整体和局部两个部分,采用不同的模型和算法与数据库模板进行匹配,从而精确定位到特定目标商品子类;而对于样本数量极少的新商品目标,通过小样本学习技术,通过大量数据训练的网络或者根据以往特点和经验生成的模拟数据集等方式来进行学习并完成分类识别,从而快速准确地将新生产品进行有效的分类和记忆并归纳入数据库,极大的方便了新商品的人工学习和分类检索。
物体检测
物体检测是计算机视觉领域的一个重要研究方向,互衍科技目前已有一整套基于全景分割和场景解析的物体检测系统。物体检测技术是整个系统的核心,利用深度学习技术将获取的图像进行像素级别分析,确定对应物体的类别、大小以及位置等信息,作为后续处理的数据基础;全景分割技术是实例分割和语义分割的统一,将目标物体与背景分割开,具有目标物体不重叠、独立化分割显示的特点;场景解析让机器之眼理解图像里场景的意义,分析物体和背景之间的元素关系,生成图像元素关系特征并与数据库比对,判别图像所对应的场景类别及意义。
视频分析
针对高速信息时代越来越庞大的视频流数据量,互衍科技已开发一套成熟的视频分析系统。这套系统:综合运用识别、检测、追踪和视频结构化分析,将视频内容转化成可供计算机和用户理解的文本信息;进而实现对场景、行人的综合感知,以及跨摄像头行人再识别,即识别到特定行人后在多个摄像头视频流里跟踪同一特征目标;通过视频分析也可实现行为检测和预测,利用深度学习技术对目标进行姿态估计,与数据库行为模板进行匹配,完成识别并生成结果。
影像处理
随着摄影成为更多人的兴趣爱好,为了通过AI视觉技术辅助用户拍出更好的照片,互衍科技研发了一系列影像处理技术,其中包括:将图像中的人物从背景中分离出来的人像分割技术,可对人像进行独立的分析以及后期处理;将低画质图像输入转为高画质图像输出的夜摄降噪(超画质)技术,使手机拍摄出来的图片能够还原类似数码单反相机般的画质;解决手机感光元件过小、镜头焦距过短从而无法从光学上获得浅景深效果和显著的散景效果问题的景深虚化,对图像进行精细的背景虚化渲染,从而模拟大光圈数码单反相机浅景深的效果;恢复图像中场景深度信息的深度恢复技术,还原场景的物体距离等深度信息,让图像从“扁平”变得“丰满”。
3D感知
随着硬件算力的不断提升以及用户对于场景的需求越来越高,2D 平面图像处理已经不再能够解决所有的问题,结合深度信息的 3D 感知技术逐渐发展起来。互衍科技也结合自身机器视觉技术优势,发展了一系列 3D 感知技术。从 2D 到 3D,是计算机视觉不可避免的一次范式升级。借助于 3D 传感器的崛起,机器将会处理信息更为丰富的数据,比如深度,向着更加智能加速进化。
3D重建
3D重建,是指通过摄像机获取场景物体的数据图像,并对此图像进行分析处理,再结合计算机视觉技术推导出现实环境中物体的3D信息,可依据对象分为人脸重建、人体重建、 物体重建,甚至城市重建。互衍科技的城市级3D重建技术,拥有万亿级图像像素处理能力,可对高低空、多角度的万张航拍照片进行解析,并进行三维数据处理和三维模型编辑,再现城市全景。
V-SLAM
将计算机视觉技术赋能到实物机器人上是人工智能发展的主流,互衍科技一直致力于机器视觉技术与机器人的融合。这一切的基础是3D视觉,包括:AR增强现实/VR虚拟现实/MR混合现实,在虚拟世界、现实世界和用户之间搭起一个交互反馈的信息回路;将场景内的目标以三维空间的区域分割出来的3D分割;利用摄像机对三维物体进行拍摄以建立适合计算机表示和处理的空间模型的3D重建。而将这些技术赋能给机器人的核心就是V-SLAM(视觉实时定位与建图),基于前面的视觉信息,配合后程优化和闭环检测技术,为机器人在场景中提供实时定位和场景三维地图。
控制算法
控制算法
互衍科技机器人致力于向物流仓储、制造工厂等客户提供全面的自动化、智能化和无人化解决方案。采用领先的机器人底盘和控制技术,基于深度学习融合多传感器实现自主定位、建图及导航。广泛适配各类场景,精准定位,运动平稳,安全可靠,部署轻便。更可提供多元化解决方案,融合激光、视觉、反光柱、地面纹理、二维码、色带等多种导航定位技术,极大提高机器人对环境的适应性和可靠性。
优化算法
智能调度
智能调度是一种运用人工智能技术来替代传统人工调度的智能化调度方式,被广泛应用在物流及供应链领域。其目的主要是为了合理并高效的利用资源,找到效率与成本的最优解。互衍科技自主知识产权的七层集群调度算法,通过智能决策、规模调度、最小单位路权、地图区域划分等技术,实现拥塞预判和任务动态管理,从任务分配管理、订单排序及合单等多个层面进行精细的智能管理,规划机器人最优路径,提高机器人工作效率和整体效能。
路径规划
机器人路径规划算法可以让机器人根据自身传感器对环境的感知,自行规划出一条安全的运行路线,同时高效完成作业任务。主要解决从初始点运动到目标点,同时可以智能绕开障碍物,经过指定地点完成相作业任务,并尽量优化机器人运行轨迹。互衍科技基于在计算机视觉技术上的优势积累,持续探索将优化搜索和深度学习技术进行有效融合,制定最优的路径规划方案以为供应链大脑场景降本增效,目前互衍科技的路径规划算法以被广泛应用在实际业务场景中。
相关案例
  • 机器学习框架

  • 供应链大脑解决方案

  • 个人设备智能大脑

  • 智慧城市大脑