谈谈新时期数据质量管理方法

每个组织都努力以数据为导向，但糟糕的数据质量往往会破坏人工智能、自动化和分析，无法提供真正的价值。本指南可帮助数据专业人员和业务领导者将数据质量作为战略重点——超越技术，探索全面、可行的解决方案。

一概述

如今，企业正在大力投资数据、分析和人工智能，以增强决策能力、简化运营流程并推动业务增长。然而，尽管进行了这些投资，许多企业仍难以充分发挥其数据的潜力。原因何在？数据质量差仍然是真正实现数据驱动的最大障碍之一。无论技术多么先进，每一项依赖数据的计划都只能与数据本身的质量一样强大。当数据不可靠时，人工智能、分析和自动化的投资回报就会停滞不前，从而限制企业从数据中创造真正价值的能力。

数据质量差会给人工智能、商业智能和自动化带来障碍，限制组织充分利用数据的能力。

研究始终支持这一现实：Dataiku 的一项研究发现，缺乏高质量数据或无法访问正确的数据是实现 AI 和分析价值的头号障碍。同样，Precisely报告称，虽然60% 的组织认为 AI 是其数据计划的关键驱动因素，但只有12% 的组织认为其数据质量足以有效实施 AI。dbt Labs 的“ 2024 年分析工程状况”报告进一步强调了这一问题，揭示了57% 的专业人士因数据质量差而苦苦挣扎——与2022 年的 41%相比大幅增加。

尽管人们普遍认识到了这个问题，但许多组织仍然缺乏明确、结构化的方法来提高数据质量。多年来，我与各种规模的组织合作过，从初创公司到大型企业，但有一件事始终不变：数据质量问题是一个普遍存在的难题。每个组织都面临着这些问题，解决这些问题从来都不容易。一刀切的解决方案根本不存在——每家公司都必须制定一种符合其独特数据成熟度、结构和业务需求的方法。

本文分享了在应对不同环境中的数据质量挑战时所获得的经验教训，并提供了在不同成熟度水平上改善数据质量的具体策略。本文的目的不是提供严格的、循序渐进的蓝图 — — 因为不存在通用的解决方案— — 而是启发您采用可以适应您组织特定环境的实用方法。

二企业数据流

在解决数据质量问题之前，让我们先了解数据在企业中的流动方式。如下图所示，数据从上游（创建）流向下游（消费） ——就像河里的水一样。就像在水系统中一样，源头的污染会影响下游的一切。了解这一流程是识别和解决数据质量问题的根本原因的第一步。本节的其余部分将描述此企业数据流的不同阶段（如下图所示）。

1 —3 数据创建

数据创建始于业务流程，用户在日常工作中生成、更新或修改信息。这些操作依赖于各种技术——从 ERP 和 CRM 系统到移动应用程序和物联网传感器——这些技术是企业数据的主要来源。这些活动的结果是原始数据：新创建的信息成为整个组织进一步使用的基础，无论是出于运营目的还是分析见解。

4 — 通过集成机制获取数据

此阶段是企业数据流中最复杂且最难理解的部分之一。它涉及两种主要机制：

数据集成——将来自多个来源的数据收集、组合和转换到数据平台（例如数据仓库、数据湖或湖屋）的过程，可用于报告、分析或 AI 应用程序。
系统集成——使用API、中间件或事件驱动架构在操作系统之间实时交换数据，确保不同平台和应用程序能够高效地通信和同步信息。

为了阐明系统集成和数据集成之间的区别，让我们来看看上图所示的场景：

用户将数据输入系统 1（以红色框表示）。
系统集成机制（例如 API）将该数据传输到系统 2，以便其他用户可以看到它。
然后，另一个集成层（如流中间件）从系统 2 获取数据并将其发送到系统 3，另一个用户（例如客户）可以在用户界面中看到该信息。
最后，来自系统 3 的数据流入数据平台，在那里，数据经过铜牌、银牌和金牌层转换为可供分析和报告使用的数据集。然后，其他用户可以通过报告或仪表板使用这些数据集。

值得注意的是，此场景跨越两个不同的层面。步骤 1 至 3 发生在运营层面，日常业务流程在此执行。步骤 4 发生在分析层面，在此收集、转换和准备数据，以供洞察、报告和 AI 等高级用例使用。在某些组织中，这两个层面之间的界限很模糊；在其他组织中，界限明确且严格区分— 这取决于数据生态系统的架构和成熟度。

每种集成机制都有其自身的技术复杂性——其内部工作原理本身就可以写成整篇文章。但在数据质量的背景下，关键点在于：这些集成步骤通常非常复杂，组织内只有少数人了解。更重要的是，在这一层，一个系统的数据质量问题很容易蔓延到其他系统，从而扩大其对整个 IT 环境的影响。

5 —将原始数据转换为可用的数据集

集成和转换过程的结果是可供使用的数据——无论是由另一个系统还是分析工具使用。在本文中，我使用术语“数据集”来指代这些准备好的数据资产。虽然“数据集”通常与分析相关联，但在这种情况下它具有更广泛的含义：任何结构化的、精炼的数据——无论它是用于操作目的（例如，在其他系统或界面中）还是用于分析用途（例如，在报告、仪表板或 AI 模型中）。

6 — 数据消耗

在最后阶段，数据将在整个组织中发挥作用，包括运营层面和分析层面。业务用户、分析师甚至客户都可以通过运营应用程序、Web 门户、移动设备、仪表板、报告和 AI 工具访问数据。

在此阶段，数据用于：

启用操作流程，确保团队在正确的时间获得正确的数据
支持从日常运营到战略规划的各个层面的决策
推动自动化，减少人工，提高效率
通过个性化、预测和智能洞察增强产品和服务

最终，这个消费阶段是数据开始产生到真正实现商业价值的阶段。

三数据质量问题的症状

为了真正了解数据质量问题的影响，让我们来探讨一下当不良数据渗透到关键业务流程时出现的一些现实症状。这些示例突出了数据质量问题的多样性和严重性，说明了为什么这不仅仅是一个 IT 问题— — 这是一个关键的业务挑战。

几乎在任何过程中，数据质量症状都可能出现在多个角色中。以下是不良数据在整个组织中的体现：

客户主数据问题 —数据质量问题不仅影响内部运营 — 还会直接影响客户。一个常见的例子是质量低劣的客户主数据。如果 CRM 中包含错误的地址，则可能会无法送达，从而导致客户失望并增加运营成本。
客户服务失败——在人工智能时代，客户支持严重依赖聊天机器人和自动助理，其中许多都由大型语言模型 (LLM)提供支持。这些系统依赖于准确的结构化数据，例如流程描述、CRM 记录和历史支持日志。如果其中任何一个包含错误，聊天机器人就会提供不正确或误导性的答案，从而降低客户体验并增加人工支持团队的负担。
员工运营中断 —数据质量差会影响各级员工。最令人沮丧和最明显的例子之一是由于时间跟踪数据有缺陷而导致的工资单错误。人力资源或工资系统中的数据不正确可能会导致工资支付不足或延迟，从而导致员工不满、不必要的行政工作和潜在的法律风险。
高管决策风险 —在高管层面，数据是关键业务决策的基础。首席财务官和首席运营官依靠报告、预测和分析来指导投资和战略方向。但是，如果这些报告基于有缺陷的财务数据，高管可能会做出错误的投资选择，从而可能导致重大财务损失和错失增长机会。
监管合规风险— GDPR、个人数据保护法、HIPAA、SOX和Basel III等法规要求组织维护准确、及时且可审计的数据 — 尤其是在处理个人、财务或风险相关信息时。数据质量差不仅会破坏合规工作，还可能导致监管罚款、声誉受损和法律风险。

少数利益相关者首先遇到的数据质量问题可能会迅速升级为整个公司的混乱。虽然这些例子只是孤立事件，但真正的危险在于数据质量问题升级的速度。当多个系统和利益相关者受到影响时，最初的局部问题可能会演变成全公司的危机，导致运营效率低下、合规风险以及对数据驱动决策的信任崩溃。

四数据质量的五个维度

数据质量的 5 个维度。现在我们已经了解了数据质量差是如何在整个组织中体现出来的，让我们来定义什么使得数据“高质量”。在数据管理文献中，描述了五个维度，它们为可靠和可操作的数据奠定了基础：

准确性——数据是否反映现实？
如果数据错误地表示了现实世界，那么它就是不准确的。例如，如果一个实体实际上是一个三角形，但在数据中却被记录为一个矩形，那么这个记录就是不准确的。
有效性——数据是否符合预期格式？
数据必须符合预定义的规则和格式。例如，电子邮件地址需要“@”和“。”，社会保险号遵循固定字符长度，银行账号遵循标准模式。举个直观的例子，如果我们只预期白色项目，但出现了蓝色项目，则认为它无效。
一致性 — 数据是否跨系统匹配？
在大多数组织中，相同的数据存在于多个系统中。如果这些系统中的值不同，则会产生不一致。例如，如果一个系统将客户记录存储为三角形，而另一个系统将同一客户记录为矩形，则数据不一致。
唯一性 — 是否存在不必要的重复？
如果不希望出现重复，则每条记录都应该是唯一的。例如，在CRM 系统中，每个客户只应记录一次。重复记录可能导致计费错误、冗余通信和错误报告。在视觉表示中，如果我们期望每个形状只出现一次，但存在两个蓝色三角形，则存在唯一性问题。
及时性——需要时数据是否可用？
数据必须在正确的时间可用才能发挥作用。在时间敏感的流程中，数据应在特定时间范围内准备好，通常由服务水平协议 (SLA)定义。如果数据在 SLA 截止日期之后到达，则被视为及时性问题。

五数据质量失败的原因

三大类原因可能导致数据最终用户遇到数据质量问题。所有出现在下游的数据质量问题都源于数据流上游的问题。如上图所示，不良数据有三个主要原因：

错误的数据输入
组织中的数据流几乎总是从人工输入开始。人们直接（例如，输入 CRM 或 ERP 系统）或间接（例如，通过 IoT 传感器或外部数据集成）输入数据。众所周知，人都会犯错误。一些数据错误是意外发生的，例如拼写错误，而其他错误则是当用户持续输入错误信息时系统性地发生的。这通常是由于指令不明确、培训不足或系统中缺乏验证规则造成的。
软件错误
即使用户正确输入数据，软件本身也会出现错误。数据输入应用程序中的错误或设计不良的用户界面可能会无意中扭曲或错误分类数据。例如，假设有一个软件系统允许用户从四个选项中选择服装尺码：S、L、XL 和 XXL。然而，在存储数据时，系统错误地将这些输入映射到两个类别：SL 和 XL。此类设计缺陷可能会在下游造成重大数据不一致，影响报告、分析和自动化流程。
数据管道问题
即使数据输入和源系统存储正确无误，数据集成和转换期间仍可能出现错误。这些问题通常出现在ETL（提取、转换、加载）管道、数据集成或实时数据处理中。在许多情况下，这些管道中的软件错误会导致转换不正确、记录丢失或数据格式损坏。下图说明了此类问题：在管道 1中，三角形和矩形被错误地转换为矩形，而正确的转换应该得到房屋形状。相比之下，管道 2运行正常，保留了预期的数据结构。

管道错误可能会引入新的数据质量问题。这些原因都表明，数据质量问题并非随机发生——它们是由人工输入、软件设计和数据处理流程中的特定故障引起的。了解这些故障点是防止和解决数据质量问题蔓延到整个组织的第一步。

六提高数据质量的三大黄金法则

了解数据质量问题的根本原因至关重要，但真正的挑战是解决这些问题。解决数据质量问题并不像购买工具并期望立即获得结果那么简单。获取高质量数据需要结构化的方法和规范的工作方式。数据质量问题不是一朝一夕就能解决的——这是一个持续的过程，更像是一场马拉松而不是短跑。

为了保持领先，我建议遵循三条黄金法则，这三条法则提供了一种系统的方法来逐步提高数据质量。

规则 1：解决根本原因

第一条规则是解决根本原因，而不是仅仅纠正不良记录。许多组织专注于清理表面的不良数据，但除非解决根本问题，否则相同的错误将继续出现。将数据问题想象成花园中的杂草——如果您只修剪树叶，问题就会持续存在。永久消除不良数据的唯一方法是确定并修复根本原因，无论是数据输入错误、软件缺陷还是集成错误。

解决数据质量问题的最佳解决方案是解决根本原因。

规则 2：快速修复

第二条规则是尽快解决数据质量问题。正如我们在本文前面所看到的，单个数据质量问题可能会迅速升级为混乱。最初只是一个小的局部错误，但可能会波及整个系统和部门，随着传播，其影响会成倍增加（另见下图）。问题持续的时间越长，后果就越严重——从效率低下和决策失误到合规风险和声誉损害。

尽早解决问题可防止问题失控。积极主动的心态可确保您的数据保持可靠、可操作和可信——在小问题演变成整个企业的混乱之前。

早期修复可避免数据质量问题可能造成的负面影响。

规则 3：清理混乱局面

第三条规则是在修复根本原因后清理历史数据问题。消除坏数据的来源可以防止出现新的错误，但不会自动纠正现有的不准确、不一致或重复的数据积压。如下图所示：

只要根本原因仍未解决，新的错误数据就会不断流入系统，随着时间的推移，问题将变得更加严重。
一旦解决了根本原因，就不会再有其他坏数据进入系统 – 但历史错误仍然存在，因为它们是在问题解决之前创建的。

为了恢复数据完整性，组织必须使用数据清理策略主动清理现有错误，其中包括：

删除不再反映现实的错误或过时的记录。
消除重复条目以防止冗余和不一致。
纠正格式问题并解决不一致问题以确保跨系统的统一性。

如果没有这个关键的清理步骤，过时和不准确的数据将继续扰乱报告、分析和自动化流程，导致持续的效率低下和错误的决策。

需要执行清理步骤来解决过去产生的不良数据。

七七头数据质量怪兽

将这三条黄金法则付诸实践比乍一看要复杂得多。我通常将其比作与七头野兽搏斗：解决一个数据质量问题，又会出现三个。然而，即使有了这些规则，公司仍然难以实施它们。在本节中，我们将深入探讨使公司难以实施这些规则的障碍，以便我们随后寻找更好的解决方案。

“七头兽”代表着数据质量挑战的复杂性——解决一个问题往往会引发新的问题。

障碍一：团队各自为政

孤岛使得共同解决数据质量问题变得困难。解决数据质量问题的最大障碍之一是组织孤岛。如上图所示，不同的团队负责数据流中的不同步骤：

业务团队负责在日常运营中创建和输入新数据。
IT 团队开发和维护输入数据的软件系统并确保系统相互集成。
数据团队管理数据管道和转换，确保数据正确流入分析平台和数据仓库。
然后，业务团队和其他利益相关者使用报告、仪表板和 AI 应用程序中的数据来做出战略决策。

但实际上，业务、IT 或数据团队不止一个，而是有很多，每个团队都专注于不同的优先事项和目标。这种基于团队的分裂造成了组织孤岛，团队独立运作，但缺乏结构化的沟通渠道，尤其是在数据质量方面。

这里就有一个悖论：

下游工作的团队（例如，使用数据的业务团队）会经历坏数据带来的痛苦。
上游工作的团队（例如，生成和处理数据的业务和 IT 团队）通常要为这些问题负责，但他们自己却不会感受到后果。

这种脱节使得解决数据质量的根本原因变得异常困难。由于数据问题很少影响到负责引入这些问题的团队，因此通常很少有内在动力去修复这些问题。同时，遭受这些问题困扰的团队缺乏解决这些问题所需的直接控制。

因此，业务用户在处理有缺陷的数据时举步维艰，而掌握解决问题关键的上游团队却对下游影响视而不见。而且由于这些团队通常各自为政，数据质量问题在整个组织中持续存在，无法得到解决。

障碍二：责任不明确

障碍 2 和 3 是相互关联的：谁需要采取行动以及我们需要如何针对数据质量问题采取行动？

运用三大黄金法则的第二个主要障碍是数据质量责任的归属不明确。

考虑一下这种情况：数据质量问题的根本原因已经确定并修复。但是，历史不良数据仍留在系统中，需要清理 —如黄金法则 3 中所述。挑战是什么？没人知道谁应该负责清理这些数据。

在许多组织中，数据治理框架引入了数据所有者和数据管理员，他们的任务是监督特定数据域并确保数据质量。在高度成熟的数据环境中，这些角色定义明确，职责也易于理解。

然而，在数据成熟度较低的组织中，这些角色通常不存在、不明确或执行不力。因此，当出现数据质量问题时，没有明确的责任——这意味着关键的清理任务得不到解决。缺乏责任感导致每个人都认为其他人会解决问题——但实际上没有人这样做。

障碍三：请求不明确

第三个障碍是责任不明确的直接延伸。即使明确了谁负责修复数据质量问题，下一个挑战是弄清楚如何真正解决这个问题。

在许多情况下，操作系统缺乏必要的工具或界面，无法让用户轻松清理不良数据。一些常见的障碍包括：

没有内置功能来修改或更正某些数据字段。
限制访问权限，只有超级用户或管理员可以编辑关键数据。
安全问题，防止广泛访问敏感记录，以最大限度地降低意外更改的风险。

作为一种解决方法，数据清理通常依赖于直接修改源系统数据库中数据的脚本。然而，这带来了新的复杂情况：

编写和运行脚本通常是 IT 的职责。
理解和定义数据更正是一项企业责任。

这种职责不匹配造成了瓶颈，业务团队依赖 IT来执行数据修复，但 IT 团队可能缺乏背景信息、时间或优先级来快速解决问题。

再次，组织孤岛加剧了这一挑战。当业务和 IT 团队在有限的协作下单独运作时，数据清理请求会丢失、延迟或优先级降低，导致坏数据得不到解决并继续影响组织。

解决数据质量问题不仅仅是修复错误，它需要一种结构化的方法。为了实现长期改进，组织需要制定与其数据成熟度水平相符的数据质量管理策略。

八数据质量管理策略

本节介绍了组织如何在发展过程中提高数据质量——从刚开始解决问题的组织到开发复杂的 AI 驱动解决方案的组织。正如我们所见，数据质量问题可能会引发一系列负面的内部和外部后果。然而，虽然三条黄金法则——解决根本原因、迅速采取行动和清理历史错误——提供了明确的解决方案，但在组织内有效执行它们却非常复杂。

为了推动数据质量有意义且持久的改进，组织需要一种结构化的方法——这就是数据策略，更具体地说，数据质量管理策略发挥作用的地方。

数据质量管理策略定义了在人员、流程和技术方面提高数据质量所需的举措、流程和责任。解决所有三个层面的问题至关重要，因为只关注其中一个层面很少能带来可持续的改进。

对于每个数据成熟度级别，可以采用不同的数据质量管理策略。随着时间的推移，这将帮助您提高数据成熟度。

然而，数据质量管理没有“一刀切”的方法。在实践中，许多组织试图复制粘贴其他组织的数据质量策略，但实施起来却很困难。一个关键原因是数据质量管理必须与组织的数据成熟度水平保持一致。在高度成熟的组织中行之有效的策略通常会在数据成熟度较低的组织中失败，因为它们需要的结构、流程或技能可能尚未到位。

在本节的剩余部分，我们将探讨三种不同的数据质量管理策略，每种策略都是为不同数据成熟度级别的组织设计的。虽然这些只是一般性示例，但它们可以作为灵感来源——提供实用的见解，可根据组织的独特挑战和能力进行量身定制。

1.低成熟度组织

对于数据成熟度较低的组织而言，最大的挑战是数据质量问题往往被忽视、无人负责和得不到解决。如果没有明确的角色或结构化流程，数据质量管理往往是被动的而不是主动的，问题只有在已经造成严重问题后才会得到解决。在此级别建立数据质量文化的第一步是建立可见性、所有权和基础流程。

数据质量经理率先打破孤岛并建立第一个结构化数据质量流程。启动结构化数据质量管理的最有效方法之一是指派一名数据质量经理 (DQM)。此人充当业务、IT 和数据团队之间的桥梁，确保系统地识别、优先处理和解决数据质量问题。但是，DQM 并不是一个人就能解决所有问题的角色——他们促进协作并将合适的团队聚集在一起解决问题，而不是自己处理所有问题。他们的角色包括提高认识、推动问责制并推动跨部门流程改进。

为了防止数据质量问题处理混乱，组织应引入数据质量待办事项列表——一种跟踪、分类和确定数据问题优先级的结构化方法。此待办事项列表可确保团队首先关注最关键的问题，而不是临时对问题做出反应。随着时间的推移，这可以清晰地了解重复出现的模式，帮助组织识别和解决不良数据的根本原因。

数据筛选工具监控数据流各个阶段的数据质量。由此产生的监控导致 DQ 积压出现新问题。

组织不应立即尝试大规模数据修复，而应从数据质量监控工具开始。这些工具有助于检测重复出现的数据问题，深入了解不良数据的来源以及它在系统中的传播方式。我经常将这些工具比作“数据筛选” ——它们充当过滤器，将干净数据（通过）与不良数据（被筛子捕获）分开。通过实施基本的数据质量监控，组织可以从被动方法（仅在问题引起问题后才修复）转变为主动方法，从一开始就防止不良数据积累。

我现阶段的建议是：

找到合适的数据质量经理至关重要，但也很有挑战性。这个职位需要很强的沟通、谈判、领导和项目管理技能，以及建立新流程的经验。从长远来看，投资合适的人才会带来丰厚的回报。
为数据质量经理提供一个结构化的论坛来上报问题。确保他们在治理和优先级排序会议中占有一席之地，让他们能够突出关键的数据质量问题并确保修复资源。将他们的工作与现有的优先级排序流程相结合，以获得更大的影响力。
为数据质量经理提供专项预算。该预算可用于购买数据质量工具、自动化或额外人员，以加速问题解决和主动改进。
将早期的数据质量管理工作与主数据管理 (MDM) 相集成。如果您的组织计划实施 MDM，那么将 DQM 作为该计划的一部分可确保从一开始就嵌入数据质量，而不是将其视为单独的问题。
超越数据思考 — 关注人员、流程和工具。数据质量问题通常是工作流程、培训、系统设计或治理中更深层次问题的症状。识别和解决这些根本原因是长期成功的关键。

2.中成熟度组织

随着企业在数据实践方面的进步，它们必须从孤立的、IT 驱动的数据质量工作过渡到更广泛的嵌入式方法，即业务团队对他们所依赖的数据负责。在这个阶段，数据质量不应再被视为IT 问题，而应被视为业务运营的一个组成部分。

将责任从数据质量经理转移到业务领导者。这一层面上最关键的转变之一是将数据质量的责任从 IT 和数据团队转移到业务领导者。特定的业务角色必须负责确保其数据的准确性、一致性和可用性，而不是指望技术团队来管理所有数据质量问题。首席财务官应对财务数据质量负责，确保报告和预测基于可靠的数据。同样，人力资源主管应对员工数据负责，而运营经理则应监督供应链或生产数据的完整性。通过向业务领导者明确分配责任，组织可以为主动数据管理创造更强的激励。

企业对数据负有责任，IT 在需要时支持复杂的任务。当然，数据所有者无法独自管理数据质量。这就是为什么大多数数据治理框架引入了一个更具操作性的角色：数据管理员。数据管理员负责分析和提高数据质量。他们的工作包括确定根本原因、定义清理策略以及建立区分好数据和坏数据的业务规则。在某些情况下，他们会与数据保管员合作，后者负责处理更多技术任务——例如编写和执行数据库查询。值得注意的是，这些角色的确切定义和职责在不同组织之间可能存在很大差异，具体取决于组织的规模、结构和数据成熟度。

数据筛选不仅可以帮助组织检测不良数据，还可以在数据进入关键系统之前主动将其过滤掉。此阶段的另一个重要步骤是将预防措施整合到日常工作流程中。企业不应依赖被动修复，而应将数据验证、标准化和自动化直接嵌入到业务流程和系统中。这意味着在输入和集成点引入数据筛选，预先应用规则和控制以防止错误向下游蔓延。在此级别，数据质量改进通常与主数据管理 (MDM) 计划保持一致，有助于简化数据治理并实现跨系统的一致性。

通过在业务团队之间分配责任和义务并实施主动预防性控制，中期成熟度组织可以显著减少数据质量问题的发生频率和影响。这种转变使数据质量管理成为业务运营的自然组成部分，而不是仅在出现问题时才引起注意的被动的 IT 驱动过程。

我现阶段的建议是：

将数据质量责任制作为业务角色的一部分，并使其可见。可以通过业务主管拥有和跟踪的数据质量 KPI来增强可见性。
获得数据所有权是一项挑战，因为它通常与日常业务活动脱节。投资培训、讲故事和清晰的沟通，以帮助团队了解其重要性。这甚至可能成为此阶段数据质量经理的一项关键职责。
继续完善和改进数据质量流程。业务用户应该清楚地了解如何清理数据、如何解决问题、如何报告问题以及如何随着时间的推移改进数据质量流程。如果没有明确、成熟的流程，业务领导者可能会以程序不明确为借口，逃避承担责任。一个好方法是引入数据管理员或保管员等额外角色。

3.高成熟度组织

虽然本文主要关注如何从早期阶段提高数据质量，使组织绩效良好，但值得探讨的是，高度成熟的组织如何大规模管理数据质量。在这个层面上，数据质量不再被视为一项单独的举措，而是深深嵌入到团队创建、管理和使用数据的方式中。

数据成熟度较高的组织通常会超越集中式数据管理，采用分散式、领域驱动的方法。这种转变与现代组织转型和架构相一致，例如Data Mesh，其中各个业务领域拥有并管理自己的高质量数据产品。每个领域都对自己的数据负责，而不是依靠单个集中式数据团队来监督整个企业的质量。例如，营销团队拥有客户数据产品，财务团队拥有财务数据产品，等等。这确保了数据干净、记录良好且适合其他团队使用。

高成熟度组织通常依赖于领域团队维护的数据产品。为了支持这种分散式模型，组织必须建立将数据视为产品的跨职能团队。这些团队汇集了业务专家、数据工程师、分析师和 IT 专业人员，确保在每个阶段都主动管理数据质量。这些团队不是在问题出现后才去解决，而是设计数据管道、验证流程和治理机制，从一开始就确保质量。

在这个成熟度级别，组织还可以利用先进的自动化和人工智能驱动的数据质量监控。机器学习模型可以实时检测异常、不一致和缺失数据，使组织能够在潜在质量问题影响下游流程之前快速识别和解决这些问题。这种方法可确保数据质量管理与组织一起扩展，从而实现持续改进，而无需依赖人工干预。

九小结

数据质量不仅仅是IT 问题，更是业务的当务之急。每个组织都渴望实现数据驱动，但数据质量差仍然是从数据投资中实现真正价值的最大障碍之一。它会影响决策、人工智能的采用、自动化和整体业务效率。尽管人们普遍认识到这个问题，但许多组织缺乏结构化、可操作的方法来解决这个问题。

在本文中，我们探讨了数据质量问题持续存在的原因、这些问题对组织的影响以及解决这些问题需要采取的措施。三条黄金法则——解决根本原因、快速解决问题和清理历史数据——是提高数据质量的基础。然而，能否有效地应用这些规则取决于组织的数据成熟度。

成熟度较低的组织需要分配所有权、引入监控并创建结构化流程来管理数据质量。随着业务的成熟，企业必须在业务团队中嵌入责任制，将预防措施集成到工作流程中，并使数据质量成为共同的责任。在成熟度最高的情况下，分散的数据所有权、自动化和人工智能驱动的监控可实现可扩展、自我维持的数据质量管理。

对于数据质量，没有一刀切的解决方案。每个组织都必须根据其人员、流程和技术状况量身定制方法。关键是要从某个地方开始— 不要等待完美的策略。每个组织都已经知道其最大、最痛苦的数据质量问题。从解决这些问题开始，改进流程，并在过程中学习。

最后建议：

尽快开始您的数据质量之旅。不要花费数月时间完善策略而不采取行动。每个组织都已经知道其最大的一些数据质量问题– 以这些问题为起点进行实验、解决根本原因、清理数据并明确职责。您越早开始，您获得的宝贵见解就越有助于构建强大的数据质量策略。
将数据质量整合到更广泛的数据战略中。数据质量并不是孤立存在的——它必须与数据治理、数据管理和业务优先级保持一致。将数据质量工作整合到主数据管理 (MDM)和其他治理计划中可确保一致性和可持续性。数据角色（包括数据管理员或协调人）、流程和策略应共同发展，确保数据质量成为推动因素，而不是事后才想到的问题。

提高数据质量不是一次性项目— 而是一个持续的过程。等待的时间越长，修复损坏的数据流程就越困难。

相关文章

从 Bengio 到 Sutskever：AI 高被引学者群像出炉，“百万引用时代” 见证深度学习黄金 20 年

MarkItDown：为大模型注入高质量非结构化数据

大规模数据集，需要团队进行数据标注工作，以确保标注的准确性和一致性

近期文章

AI领域大地震：马斯克Grok-4.1登顶双料冠军，王座易主

后RAG时代已至，SAG为何能成为ZLEAP重新定义AI搜索的答案？

AI教父LeCun公布Meta生涯“最后一作”，定义下一代AI架构

“世界模型”不再遥不可及！李飞飞团队重磅开放，Pro版有哪些升级？