寄云工业数据分析建模

寄云 DAStudio 是面向工程数据分析人员的全流程数据建模分析平台,对接丰富的海量工业数据源,快速构建数据模型和数据对象,支持拖拽式、零代码、敏捷式的算法模型开发。提供海量数据预处理、机器学习和人工智能建模分析以及模型在线部署能力。

「工程数据分析」面对的挑战
数据来源繁杂

需要从多种数据源中手动的挑选各种结构化、非结构化以及实时数据,并通过SQL代码实现数据关联,效率很低。

无法实现海量数据分析

能支持少量离线数据分析,面临海量实时/非实时数据的挑战。

数据质量低

对于很多原始数据,需要耗费大量精力执行格式转换、过滤、填充在内的各种清洗和预处理。

算法开发门槛高

不具备专业的算法工程师,因此无法实现代码级别的算法开发,无法完成深层次的分析任务。

不支持在线分析和预测分析

目前很多数据分析工具,都只能实现有限的、离线的统计分析,无法实现海量数据的在线分析和实时的预测;无法对离线分析结果进行自动部署。

不支持机器学习和人工智能

部分分析工具只能支持统计分析,无法实现海量数据的机器学习和人工智能模型的开发、训练、测试、评估。

无法实现协作

不同团队开发的模型和算法,无法被其他人所使用,知识无法实现传递。

寄云工业数据分析建模平台特点
支持丰富的数据源

支持对接多种不同类型的数据源,屏蔽底层的连接细节/数据量,而将来自不同数据源的数据抽象成可直接被分析的数据对象。

支持海量数据的全流程分析

支持可扩展的并行计算引擎,支持海量数据的数据准备、数据处理、组件开发、训练模型、部署任务功能

支持在线部署

可以直接对接各种实时数据流,实现在线分析。

低门槛,易操作

整个建模流程设计基于拖拽式布局、连线式流程编排和指导式参数配置,使用者根据业务需要快速完成建模分析,并且每步的操作执行结果支持可视化显示。

组件可扩展,支持团队协作

用户可上传自己写好的组件,也可订阅其他用户公开的组件进行建模分析。

数据集管理

数据集管理 可以对接文件、Hive, HBase, PG, MySQL 、MongoDB等多种数据源,并支持将多种数据源绑定为一个数据集进行后续的分析工作。

数据模型/数据对象管理

可以将物理世界中的设备,流程抽象成一个数据模型,每个数据模型可以实例化成多个数据对象,定义好的数据对象可以直接作为组件在分析工程中使用。

分析组件

数据预处理(去重,过滤缺失值,自定义过滤,插值,类型转换,时间戳类型转换,特征分桶,重命名,自动分箱,标准化,归一化,PCA等),特征工程(时域频域变换、小波变化、ButterWorth滤波等),机器学习算法(KMeans,BisectingKMeans,GaussianMixture, 线性回归,决策树回归,GBT回归,SVM分类,决策树分类等),建模(训练模型,交叉验证,应用模型)。

分析工作流

用户可以使用拖拽式、可视化对选择的组件进行连接以构建自己的分析流。分析工作流可以按步骤运行,执行结果会保存到对应的每个组件实例里,并提供可视化的执行结果。建模组件支持网格参数最优模型选择。

实时在线模型部署和分析

分析完成的模型,可以通过在线部署,对接到实时的数据源上,并构建分析任务,实现实时的分析。

模型目录

用户上传和发布并分享的算法模型组件,可以在模型目录里被其他用户订阅并使用,可直接使用在分析工程中,能够与其他组件进行连接。

产品价值
简化了分析工作,提升了分析效率
拖拽式建模相比传统代码开发方式简单、高效,模型的发布及重用使得分析工程实现了资源复用,进而减少了大量重复工作量。
降低数据处理、分析和人工智能建模的门槛
丰富的组件库提供了丰富的数据预处理、数据分析、机器学习和建模的组件,将复杂的算法封装成简单配置的算法组件,极大的降低了开发底层算法的需求。
加速了模型到应用落地的过程
模型可直接在线部署,对接实时数据流。
提高了团队协作能力
分析工程可方便的分享给团队中的其他人员,既能够减少重复开发,也方便实现协同调试。
数据分析模型和组件的无缝迭代
数据分析不再是一次性固化的程序,允许在之前的工程和分析结果的基础上,快速的叠加新的组件、更新以往的模型,实现模型的迭代和分析的不断完善深入。
欢迎咨询或预约演示
立即试用