数据矿工的博客

您现在的位置是:首页 > 数据资讯与书籍推荐 > 正文

数据资讯与书籍推荐

提高数据性能的 7 个数据质量最佳实践

admin2022-09-19数据资讯与书籍推荐33
数据质量对于任何分析或商业智能都至关重要。采用最佳实践可以让组织解决随着团队构建数据分析管道而变得更加关键和具有挑战性的问题。
数据质量对于任何分析或商业智能都至关重要。采用最佳实践可以让组织解决随着团队构建数据分析管道而变得更加关键和具有挑战性的问题。
提高数据性能的 7 个数据质量最佳实践

改进的自动化和增加的数据聚合可能会放大细微的问题。团队还可能难以找出复杂数据管道中隐藏的问题的确切原因。

“数据通常被视为组织最有价值的资产,”Nucleus Research 分析师 Alexander Wurm 说。“然而,这并不总是正确的。糟糕的数据质量可能会因信息不准确而影响业务成果,并对运营产生负面影响,而不是改善它们。”

企业可以建立实践来跟踪数据沿袭、确保数据质量并防止适得其反的数据。

数据质量的关键指标
数据质量团队需要解决许多方面的问题。为金融、零售和消费市场提供分析智能的提供商 1010data 的首席技术官 Terri Sage 表示,团队应该从高和低数据质量的核心属性入手。这些必须反映有效性、准确性、完整性、相关性、统一性和一致性等特征。

自动化这些测量的团队可以确定他们的努力何时得到回报。此外,这些指标还可以帮助团队将干预、工具或流程的成本与其对数据质量的影响联系起来。

为什么数据质量对数据分析管道很重要
数据质量对于数据分析和数据科学管道至关重要。Sage 说,低质量的数据可能会导致错误的决策,例如在错误的事情上花钱。不正确或无效的数据可能会影响操作,例如错误地检测到网络安全事件。

聊天列出了用于提高数据质量的七种最佳实践
: 提高数据质量的七个最佳实践
高数据质量的衡量标准是数据去重、纠正和验证的程度,以及是否有正确的关键观察结果。高质量的数据会根据其预期目的的适合性导致更好的决策和结果。

相比之下,不良数据会降低客户信任度,降低消费者信心。纠正充满错误的数据也会消耗宝贵的时间和资源。

IT 咨询公司 Mindtree 的全球技术服务主管 Radhakrishnan Rajagopalan 表示:“拥有低质量数据的企业可能会做出判断错误的商业决策,从而导致失去销售机会或失去客户。”

管道如何影响数据质量
数据分析管道影响数据质量的方式多种多样。Sujoy Paul——税务自动化平台 Avalara 的数据工程和数据科学副总裁——面临的最大问题之一是他们汇总的数据的质量。

随着数据聚合管道的增长,有两个因素使数据质量面临挑战。

一个问题是在从源系统传输到数据湖和数据仓库期间可能会丢失或复制数据。例如,云数据管道技术和数据排队机制的内存问题通常会导致小批量的交易丢失。

第二个问题是源系统中不可预测的变化导致目标系统中出现重大数据质量问题。许多潜在问题会导致来自源系统的数据不可预测,但数据模型的变化,包括数据类型的微小变化,可能会导致目标系统的显着变化。

以下是提高性能的七种数据质量最佳实践:

1.创建准确的地图
IT 管理软件提供商 Quest Software 的产品营销总监 Danny Sandwell 说,团队应该对数据资产和管道、它们的质量分数和详细的数据沿袭分析进行准确、易懂的图景。

该地图确定了数据的来源以及数据在传输过程中可能发生的变化。许多团队使用数据转换来简化集成。但是,许多高级分析需要原始数据来提供足够的准确性和详细信息。收集元数据、分析数据沿袭和执行影响分析的现代数据目录可以帮助自动化此过程。

2. 确保正确的治理和控制
Rajagopalan 说,数据管理和治理措施至关重要。良好的治理始于确保组织可以实时加入各种数据源和格式,同时保持质量而不重复。

拥有让用户轻松定位数据集的元数据存储策略也很重要。治理框架还应保护任何个人身份数据,以遵守隐私法。

Rajagopalan 说,对于许多在没有建立正确的治理措施结构的情况下填充数据湖的组织来说,治理问题正在成为一个问题。这导致数据质量较差,并且对数据湖库的兴趣更高,数据湖库使用数据仓库的一些最佳功能,例如正式的治理控制。它们具有成本效益且开放,例如数据湖。

“目前正在使用数据湖的公司应该确定它是否会损害他们的数据质量,以及数据湖库是否是一种更好的方法,”他说。

3. 自动化数据治理
区块链数据库平台 Fluree 的首席执行官兼联合创始人 Brian Platz 表示,当数据治理方法依赖过多的手动流程来衡量库存和修复数据时,它们就会失败。随着数据量的增加,这些手动方法无法以适当的规模和速度运行。

组织应通过机器学习自动化数据治理流程,以加快分析流程,同时降低出错风险。企业可以通过自动化这一治理过程来显着降低数据管理转换的 IT 开销。这可以促进大规模的数据质量。

4. 与数据提供商建立 SLA
电子工程自动化平台 CELUS 的首席执行官 Tobias Pohl 表示,与数据提供商建立服务水平协议 (SLA) 很有帮助。这些应包括对数据质量、来源和格式的明确定义。Pohl 的团队设置了数据保管人和管家以及数据管理框架,以确保主题专家在应用转换并将数据加载到他们的系统之前解释数据输入。

“需要设置监控和警报,以确保传入数据的质量,”他说。

5. 建立数据驱动的文化
强调整个企业的观察、讨论和补救的数据驱动文化至关重要。

“这消除了孤岛,并使不同部门和业务用例的数据民主化,”托管服务提供商 Syntax 的商业智能项目团队负责人 Jeff Brown 说。

6. 追踪数据沿袭
现代分析管道很复杂,具有各种数据源、转换和技术。当发生数据质量问题时,组织通常会花费大量 IT 资源在其影响扩散之前确定原因。因此,许多组织正在采用数据沿袭解决方案来快速识别数据质量差的根本原因和下游影响。

Wurm 说,组织越来越认识到数据沿袭和编目对于确保数据质量的重要性。同时,组织在实施解决方案之前拥有最大的灵活性,因此优先考虑数据沿袭路线图,以便在流程的早期更好地应对未来的挑战。

7. 建立数据管理员
算法无法修复所有数据质量问题。Talend 全球解决方案工程副总裁 Christophe Antoine 表示,数据管理员可以对数据进行深思熟虑并纠正任何突出的错误。这应该只需要几分钟,并将显着提高您的数据质量和相应的分析。

应任命一名数据管理员来管理部门级别的所有数据,但对于整个企业而非 IT 单独拥有数据至关重要。挑战在于,企业无法仅通过技术实现这一目标。数据驱动的文化需要企业各个层面的认同和支持。


文章翻译自:https://www.techtarget.com/searchdatamanagement/tip/Data-quality-best-practices-to-improve-data-performance

发表评论

评论列表

  • 这篇文章还没有收到评论,赶紧来抢沙发吧~
展开