软件产品

HyperAI Cloud是公司面向教育、科研、企业等行业用户的一款人工智能云计算服务平台软件,通过整合高性能计算、云计算、大数据和人工智能等多学科的关键技术,打造自主、高效、易用、开放的创新计算平台,能够帮助用户快速构建人工智能研发服务环境,大幅降低人工智能准入门槛,提升人工智能研发效率。 HyperAI Cloud形成了一套包括分布式云资源管理平台AI-Operation、交互式深度学习计算服务平台AI-Foundation和人工智能应用服务平台AI-Innovation在内的完整产品体系。其中AI-Foundation在v1.0的基础上,全新集成基于贝叶斯优化的超参数调优工具、拖拽式神经网络建模工具,并支持基于MPI的Tensorflow、Caffe并行计算架构;全新发布的AI-Operation产品则提供了一套图形化的容器云运维管理平台,全面支持CPU、GPU等异构资源的统一管理和资源调度; AI-Innovation则面向推理应用的批量部署和在线服务,以容器云平台为基础,集成Nvidia TensorRT推理优化引擎,支持预训练模型的快速部署和在线服务调用。

产品需求分析

  • 1 学习应用难
  • 2 管理调度难
  • 3 性能优化难
  • 4 安装部署难

    学习应用难

    深度学习研究的热潮持续高涨,各种开源深度学习框架也层出不穷,其中包括TensorFlow、Caffe/Caffe2、Keras、CNTK、Torch、MXNet、Leaf、Theano、DeepLearning4、Lasagne、Neon等 众多的计算框架以及CNN、RNN等复杂的网络模型,即便是资深工程师也需要花费大量的时间成本学习和应用。

    管理调度难

    传统通用计算的方式已经无法满足我们对计算能力的需求,异构计算被认为是现阶段挑起计算大梁的关键技术, 主流计算框架采用CPU+GPU/FPGA的异构计算平台,其管理和调度融合了高性能计算、大数据和云计算等多领域技术,实现难度较大。

    性能优化难

    深度学习网络模型日趋复杂,神经网络是公认的难以配置,而又有很多参数需要设置,通常包含数以万计的训练参数。最重要的是,个别模型的训练非常缓慢,如何更智能的进行超参数调优是提高训练推理效率的的一个关键问题。

    安装部署难

    一套完整的计算环境包括操作系统、驱动程序、数学库、计算框架、网络模型、数据集合等多个组成,有经验的工程师也通常需要数周才能完成。

HyperAI Cloud技术架构

HyperAI Cloud提供完整的人工智能云计算解决方案,它包括三个子产品,AI-Operation,AI-Foundation和AI-Innovation,分别负责分布式容器云管理、计算平台管理以及应用服务管理。

产品功能特性

    多租户共享

    平台基于定制优化的容器云平台提供计算服务支撑,支持多租户共享集群计算资源且实现安全隔离, CPU、内存、GPU等根据用户请求按需动态分配,提升资源利用效率。

    模型训练

    平台内置优化的并行计算函数库,支持单机多GPU(Tensorflow、Caffe、Torch)和多机多GPU(Tensorflow、Caffe2)的并行训练,提升计算能力,缩短训练时间。通过模型训练可视化界面,可实时监控模型训练进度、资源消耗情况并查看相关日志。

    自助式服务

    方式一: 交互式模式提供友好的WEB服务界面,通过让用户填写一些基本参数并选择计算资源,即生成模型训练和预测任务请求。
    方式二: 高级用户模式支持用户通过上传自定的代码和参数文件,在自动分配的计算集群上运行训练和预测任务,通过高级用户模式,平台能扩展支持更多应用场景。
    方式三:Restful API接口允许用户基于API调用平台集成的场景应用服务,获取在线推理预测服务能力。平台支持基于访问请求按需、动态、弹性扩展计算能力。

    模型预测

    模型训练完成之后,可对单个样本或者批量样本进行模型预测验证,用以检验训练完成的模型是否符合预期,平台可提供单样本或多样本预测准确率指标输出,以及神经网络每一层的统计信息。 模型预测支持图像分类、图像分割、文本分类等十几个应用场景,并可通过高级用户界面扩展更多应用服务。

    资源动态调度

    结合深度学习训练和推理计算任务需求,提供动态资源调度管理系统,全面支持CPU、GPU等异构资源的混合调度,提供FIFO、作业优先级、资源抢占、资源配额等调度策略,支持自动选择性能最优的作业部署拓扑,同时内置高可用方法应对硬件失效问题。

    超参智能调优

    提供基于改进贝叶斯Bayes优化和基于种群训练算法的超参数智能调优方法,支持GD、ADAM、Momentum等优化器,支持学习率、动量、指数衰减等超参数的智能调优。提交改进超参优化算法的详细设计方案。

    数据集管理

    用户可便捷地将所需要的样本数据、预测数据等数据集上传到平台,提供图片归一化等数据预处理功能,支持LMDB、HDF5、TFRecord等数据格式,支持对接集群NAS、分布式文件系统等存储后端。

    网络可视化与网络自定义

    平台提供自定义网络以及网络可视化模块,将深度学习的网络模型,从一段段代码变成直观的可视化网络模型,且支持通过拖拽方式,自由组装网络模型,自动生成网络模型代码,大幅度降低网络编排难度,提升工程化效率。

    模型管理

    平台内置图像分类、物体识别、图像分割、文本分类等十多个应用场景,支持TensorFlow、Caffe、Torch等计算框架,内置LeNet、AlexNet、GoogleNet等预训练网络模型, 且支持自定义网络模型的添加。提供场景插件模式,可扩展、定制更多应用场景。

    应用商店

    平台提供应用商店功能,支持多用户之间共享数据集和模型,用户可一键发布自己的模型和数据到应用商店,也可以在应用商店一键下载数据和模型到用户空间,实现部门内部的业务协同。

  • 多租户共享
  • 模型训练
  • 自助式服务
  • 模型预测
  • 资源动态调度
  • 超参智能调优
  • 数据集管理
  • 网络可视化与
    网络自定义
  • 模型管理
  • 应用商店

一体机产品

人工智能云计算一体机 HyperCloud

人工智能云计算一体机HyperCloud主要是面向高校、科研院所、企业、政府、军工等大型客户,通过整合HyperAI Cloud软件和优化的GPU服务器硬件,提供一站式人工智能云计算服务解决方案。HyperCloud一体机标配4个计算节点,每个计算节点可选配置8块NV Tesla P100/V100深度学习专用GPU卡, 单个计算节点的单精度浮点计算能力达74.4-112 TFlops,且支持按需扩展至最高128个计算节点。计算节点之前通过高性价比的10G或25G以太网互联。

人工智能教学实训一体机 HyperCub

人工智能教学实训一体机HyperCub专为高教、高职等教育和科研单位量身定制,包含:定制优化的异构计算桌面超级工作站,支持多台集群互连; 预配置中科弘云HyperAICloud人工智能云计算软件平台;集成图像分类、物体识别等六大应用场景和20个动手实验;配套教学课程、实验指导、算法库、推荐教材和集中培训 。

Copyright © 2017 中科弘云.版权所有
京ICP备18011114号-1

京公网安备 11010802025683号