Skip to content

数据集

数据集是一个数据的集合,是数据分析的核心组件,后续的数据探索和数据管理都是基于数据集而做的。

根据数据集来源和用途不同,提供了以下几种数据集的创建方式。

  1. 文件上传:支持直接上传 CSV、XLS、XLSX、XLSM 格式的文件来创建数据集。所有有数据分析角色的用户都可以直接使用这个功能创建数据集。创建本地文件数据集的时候可以将文件上传至数据源,支持上传文件的数据源有引擎连接(内置数据连接)、Greenplum、PostgreSQL 和 Amazon Redshift。但是应用中必须有已经建立的同源数据集才可以将本地文件上传至相应的非内置数据源。
  2. 数据连接:可以连接企业中的各种关系型数据库,如 Oracle,SQL Server,MySQL 等;NoSQL 数据库,如 Elastic Search, Solr, MongoDB 等;大数据平台,如 Hive, Impala 等,然后利用可视化的图形操作界面选择合适的数据子集创建。
  3. SQL 查询:在数据连接的基础上,通过自定义的 SQL 语句来创建数据集。适合对 SQL 语言理解比较深刻的用户。
  4. API 查询:在创建数据集时,使用 API 查询功能可以将一个 HTTP 的 JSON API 转化成一个数据集。
  5. 多表联合:将多个已创建的数据集进行联合生成新的数据集。
  6. 数据聚合:在已创建数据集的基础上,通过聚合来创建新的数据集,适合对列较多的数据集进行数据分析。
  7. 数据合并:将多个数据集的数据汇总到一个数据集中。

衡石分析平台使用手册