Skip to content

数据集管理

数据集是数据建模的基础,是数据分析师进行数据分析的重要依据。数据集包含了字段、指标、数据等信息,是对明细数据的详细描述,也可以在数据集上定义分析指标。

数据集展示

点击应用中的数据集菜单,进入数据集展示页面。数据集列表有两种展示样式,一种是默认的卡片样式,一种是列表样式。

卡片样式

列表样式

点击列表按钮切换到列表样式。 在列表样式中,还同时提供了访问热度最近访问时间,以便用户掌握对资源的访问情况,还可以根据该数据清理长时间无人访问的资源。

排序

数据集列表默认是按修改时间倒序排列的。

在列表样式中,可以点击表头列进行排序,比如下图中按照访问热度进行排序:

搜索

在搜索框中输入字符,会根据数据集的名称进行搜索,筛选出来名称中包含了输入字符的数据集。

数据集操作

新建数据集的入口是数据集列表的右上角菜单,对于单个数据集的操作都在数据集卡片的三点菜单中。

新建数据集

新建空白数据集

点击右上角的新建数据集按钮可以创建数据集,详见创建数据集

导入数据集

点击右上角的新建数据集按钮,下拉菜单中选择导入数据集。 可以将其他应用或数据包中的数据集导入进来。

提示

  1. 仅本地文件、数据连接、SQL 查询数据集支持该功能,所以导入数据集列表中不一定是该应用中全部数据集。
  2. 数据集导入后,数据集指标、数据集相关数据模型不会跟随着导入到新应用中。
  3. 应用设置的数据权限为使用者时,不能导入开启加速引擎的数据集。

删除

删除数据集时,如果数据集已被关联模型或者图表引用,则无法删除,只能删除未被引用的数据集。此时只是将数据集存放到应用内回收站并不是真的删除。

应用内回收站中存放的数据集可以进行恢复,也可以彻底删除,回收站内的资源最多保留90天。有应用管理和应用编辑权限的人才能见到应用内回收站入口。

重命名

可以将数据集重新命名使其更贴合业务逻辑。

创建副本

创建数据集副本,生成一个新的数据集。

复制到

复制到可以将数据集复制其他应用、数据包中。 实现数据集跨应用复用。

提示

  1. 仅本地文件、数据连接、SQL 查询数据集支持该功能,其他数据集不支持。
  2. 数据集复制到其他应用时,数据集指标、数据集相关数据模型不会复制。
  3. 开启引擎的数据集复制到其他应用时,该应用数据权限必须是应用作者或数据集作者模式。

替换数据集

对数据集进行替换,详见替换数据集

隐藏

对数据集进行加工后,一些中间数据集在作图时可能不再需要,那么可以将这些数据隐藏,作图时就看不到隐藏的数据集。

隐藏的数据集仍可以参与关联模型或者数据集加工,只是在仪表盘和图表页面看不到隐藏的数据集。

数据集进行隐藏后,三点菜单中的隐藏功能变为显示,可通过点击显示将数据集设置为可见状态。

设为默认数据集

系统支持设置数据集为默认数据集,在图表制作过程中,会展示数据包中的默认数据集,减少做图时切换和查找数据集操作。

数据管理

在数据集列表页面点击单个数据集就进入了该数据集的数据管理页面。这里是一个二维表的结构,展示了数据集的表头和部分数据。在表头的上方,是数据集的操作菜单。

字段选择

对应数据管理界面的①图标。点击字段选择图标,弹出字段选择列表,选择用户关心的字段,然后点击应用,数据集页面就会显示所选字段的数据。

筛选数据

对应数据管理界面的②图标。点击筛选数据图标,弹出数据筛选弹窗,在弹窗中添加筛选条件,然后点击确定,数据集页面会显示筛选过后的数据。

信息展示区域

对应数据管理界面的③区域。它展示了数据集的行数、列数和预估占用空间大小。只有直连数据集和导入引擎的数据集才会展示预估占用空间大小。预估空间大小是根据数据集的行数和行数据值计算出来的,只是一个参考值,不代表它在数据库中的实际存储大小。

知识管理

对应数据管理界面的④图标。知识管理是为了在AI分析中提高使用数据集的准确度,它包含下面的功能: 1. 编辑数据集描述,智能查数助手在进行回答时,将使用此描述进行相关度搜索,大模型在回复时也会进行参考。 1. 编辑权重,智能查数助手在进行回答时,用来计算本数据集相关度的权重,权重值为 1-100 范围内的整数。 1. 可以触发 智能学习 任务,将数据集内容进行知识抽取,提升数据集在智能查数助手在回答问题时的准确度。另外还可以查看任务查看学习结果,以及直接开启与当前数据集的智能查数功能。

数据管理

文件类型的数据集,数据管理菜单提供了追加文件数据导出数据的功能。导出数据功能是把数据集的数据导出成 excel 表格。

非文件类型的数据集,数据管理菜单提供了编辑数据集导出数据的功能。编辑数据集时,会有引用检查,已被其他地方引用的字段无法去除,必须保留。

数据信息

数据信息里面展示了数据元信息,包括:

  • 数据集名称
  • 数据集类型:文字表明这个数据集的来源:数据连接、本地文件、SQL 查询等,图标表明这个数据集的存储类型
  • 数据连接: 数据集使用的数据连接
  • 行数/列数/大小:显示目前数据集在系统所占用的空间情况
  • 原始表:数据连接数据集的原始表名。
  • 引擎表:存储类型为引擎连接的数据集在引擎中的表名。
  • 开启加速引擎:关闭/开启加速引擎。
  • 公共字典: 开启公共字典,不同数据源之间可以进行建模。公共字典表要求数据集中的列只有数字、文本、日期类型的字段,并且数据总行数不能超过500。
  • 继承上游权限:开启后,对于转换数据集(多表联合、数据聚合、数据合并、行转列、列转行)可以继承上游数据集的权限设置。 如果当前数据集或它的下游数据集已经导入引擎,则继承上游权限功能失效。
  • 更新时间:数据集内容更新的时间。
  • 数据更新:
    • 立即更新:对于导入引擎的数据集,会启动更新任务,从数据源重新检视数据,生成数据探索所需要的信息。对于直连数据集,立即更新会更新元数据信息。
    • 更新计划:设置更新计划,详见更新计划
  • 更新状态:指最近一次执行数据更新操作的状态,有更新完毕、更新失败、等待更新、正在更新等状态。

字段管理

字段管理主要是对字段进行操作,如字段分组、新建字段、字段类型修改等,详细说明参见字段管理

指标管理

指标管理对数据集指标进行操作,包括新建指标、指标分组等,详细说明参见指标管理

衡石分析平台使用手册