简而言之,是的。 当我们谈论数据完整性时,我们指的是组织数据的总体完整性、准确性、一致性、可访问性和安全性。 这些因素共同决定了组织数据的可靠性。 数据质量使用这些标准来衡量数据完整性的水平,进而衡量其预期用途的可靠性和适用性。 数据质量和完整性对于数据驱动的组织至关重要,该组织利用分析进行业务决策、为内部利益相关者提供自助数据访问并向客户提供数据产品。
数据的完整性
为了实现高水平的数据完整性,组织实施管理数据收集、存储、访问、编辑和使用方式的流程、规则和标准。 这些流程、规则和标准协同作用:
- 验证数据和输入
- 删除重复数据
- 提供数据备份,保证业务连续性
- 通过访问控制保护数据
- 维护问责制和合规性的审计跟踪
组织可以在整个数据生命周期中使用任意数量的工具以及私有或公共云环境,通过称为 数据治理。 这是创建、更新和一致执行流程、规则和标准的做法,以防止错误、数据丢失、数据损坏、敏感或受监管数据处理不当以及数据泄露。
数据完整性的好处
具有高水平数据完整性的组织可以:
- 提高发生泄露或意外停机时数据恢复的可能性和速度
- 防止未经授权的访问和数据修改
- 更有效地实现和维持合规性
良好的数据完整性还可以通过提高组织分析的准确性来改善业务决策结果。 数据集越完整、准确和一致,商业智能和业务流程就越有信息。 因此,领导者能够更好地制定和实现有利于组织并提高员工和消费者信心的目标。
机器学习等数据科学任务也极大地受益于良好的数据完整性。 当基础机器学习模型在可信且准确的数据记录上进行训练时,该模型在进行业务预测或自动化任务方面就会越好。
不同类型的数据完整性
数据完整性主要有两类:物理数据完整性和逻辑数据完整性。
物理数据完整性是指在数据存储或传输过程中保护数据完整性(即数据不会丢失重要信息)、可访问性和准确性。 自然灾害、停电、人为错误和网络攻击都会对数据的物理完整性造成风险。
逻辑数据完整性是指在跨部门、学科和地点的不同利益相关者和应用程序访问数据时保护数据的一致性和完整性。 逻辑数据完整性是通过以下方式实现的:
- 防止重复(实体完整性)
- 规定数据的存储和使用方式(引用完整性)
- 以可接受的格式保存数据(域完整性)
- 确保数据满足组织的独特或行业特定需求(用户定义的完整性)
数据完整性与数据安全性有何不同
数据安全是数据完整性的一个子组成部分,是指为防止未经授权的数据访问或操纵而采取的措施。 有效的数据安全协议和工具有助于增强数据完整性。 换句话说,数据安全是手段,数据完整性是目的。 发生数据泄露、攻击、断电或服务中断时的数据可恢复性属于数据安全领域。
数据完整性差的后果
人为错误、传输错误、恶意行为、安全性不足和硬件故障都会导致“不良数据”,从而对组织的数据完整性产生负面影响。 面临以下一个或多个问题的组织可能会遇到:
数据质量差
由于分析不准确和不知情,低质量的数据会导致糟糕的决策。 数据质量下降可能会导致生产力损失、收入下降和声誉受损。
数据安全性不足
未得到适当保护的数据会面临更大的数据泄露或因自然灾害或其他意外事件而丢失的风险。 如果没有对数据安全的适当洞察和控制,组织可能更容易不遵守本地、区域和全球法规,例如欧盟的通用数据保护法规。
数据质量
数据质量本质上是数据完整性的衡量标准。 数据集的准确性、完整性、一致性、有效性、唯一性和及时性是组织用来确定数据对于给定业务用例的有用性和有效性的数据质量衡量标准。
如何确定数据质量
数据质量分析师将使用上面列出的维度评估数据集并分配总体分数。 当数据在每个维度上排名靠前时,就被认为是高质量的数据,对于预期的用例或应用程序来说是可靠且值得信赖的。 为了测量和维护高质量的数据,组织使用数据质量规则(也称为数据验证规则)来确保数据集满足组织定义的标准。
良好数据质量的好处
提高效率
业务用户和数据科学家不必浪费时间在不同的系统中查找或格式化数据。 相反,他们可以更加自信地轻松访问和分析数据集。 节省了额外的时间,否则这些时间将浪费在处理不完整或不准确的数据上。
增加数据价值
由于数据的格式一致并针对用户或应用程序进行了上下文化,因此组织可以从可能已被丢弃或忽略的数据中获取价值。
改善协作并做出更好的决策
高质量的数据消除了系统和部门之间的不一致,并确保跨流程和程序的数据一致。 利益相关者之间的协作和决策得到改善,因为他们都依赖相同的数据。
降低成本并提高法规遵从性
高质量数据易于查找和访问。 由于无需重新创建或追踪数据集,因此降低了劳动力成本,并且手动数据输入错误的可能性也降低了。 而且由于高质量的数据很容易存储在正确的环境中以及收集和编译在强制性报告中,因此组织可以更好地确保合规性并避免监管处罚。
改善员工和客户体验
高质量的数据可以提供更准确、更深入的见解,组织可以利用它们为员工和客户提供更加个性化和有影响力的体验。
数据质量的六个维度
为了确定数据质量并分配总体分数,分析师使用这六个维度(也称为数据特征)评估数据集:
- 准确性:数据是否可以证明是正确的并且是否反映了现实世界的知识?
- 完整性:数据是否包含所有相关且可用的信息? 是否缺少数据元素或空白字段?
- 一致性:相应的数据值在不同位置和环境中是否匹配?
- 有效性:收集的数据是否按照其预期用途的正确格式?
- 唯一性:数据是否重复或与其他数据重叠?
- 及时性:数据是否是最新的并在需要时随时可用?
数据集在每个维度上的得分越高,其总体得分就越高。 总体得分高表明数据集可靠、易于访问且相关。
如何提高数据质量
组织用于提高数据质量的一些常见方法和举措包括:
数据分析
数据分析,也称为数据质量评估,是审核组织当前状态的数据的过程。 这样做是为了发现错误、不准确、差距、不一致的数据、重复和可访问性障碍。 可以使用任意数量的数据质量工具来分析数据集并检测需要纠正的数据异常。
数据清理
数据清理是修复数据分析过程中发现的数据质量问题和不一致的过程。 这包括数据集的重复数据删除,以便多个数据条目不会无意中存在于多个位置。
数据标准化
这是将不同数据资产和非结构化大数据整合为一致格式的过程,以确保数据完整且可供使用,无论数据源如何。 为了标准化数据,应用业务规则来确保数据集符合组织的标准和需求。
地理编码
地理编码是将位置元数据添加到组织的数据集的过程。 通过使用地理坐标标记数据以跟踪数据的来源、曾经到过的位置以及驻留的位置,组织可以确保满足国家和全球地理数据标准。 例如,地理元数据可以帮助组织确保其客户数据管理符合 GDPR。
匹配或链接
这是识别、合并和解决重复或冗余数据的方法。
数据质量监控
保持良好的数据质量需要持续的数据质量管理。 数据质量监控是重新审视之前评分的数据集并根据数据质量的六个维度重新评估它们的做法。 许多数据分析师使用数据质量仪表板来可视化和跟踪数据质量 KPI。
批量和实时验证
这是跨所有应用程序和数据类型大规模部署数据验证规则,以确保所有数据集都遵守特定标准。 这可以作为批处理过程定期完成,也可以通过变更数据捕获等过程连续实时完成。
主数据管理
主数据管理 (MDM) 是创建和维护组织范围内的集中式数据注册表的行为,其中所有数据都被编目和跟踪。 这为组织提供了一个快速查看和评估其数据集的单一位置,无论数据位于何处或其类型。 例如,客户数据、供应链信息和营销数据都将驻留在 MDM 环境中。
数据完整性、数据质量和 IBM
IBM 提供广泛的集成数据质量和治理功能,包括数据分析、数据清理、数据监控、数据匹配和数据充实,以确保数据消费者能够访问可信的高质量数据。 IBM 的数据治理解决方案 帮助组织建立一个自动化的、元数据驱动的基础,为资产分配数据质量分数,并通过开箱即用的自动化规则改进管理,以简化数据质量管理。
借助数据可观察性功能,IBM 可以帮助组织更快地检测和解决数据管道中的问题。 与 Manta 的自动化数据沿袭功能合作使 IBM 能够帮助客户发现、跟踪和预防更接近源头的问题。