2025-04-27 14:49:18 来源:

(图源:freepik)
AI的兴起迫使企业更多地考虑如何存储、维护和使用大量数据。企业在实施 AI 解决方案时很快面临的一个现实是,一旦数据用于 LLM 或 SLM,就没有“回头路”了。
传统上,努力处理大量数据的公司使用数据湖来存储和处理数据。在存储数据时,通常没有对来源、最近的更新和其他关键治理措施进行管理来确保数据完整性。
这种数据存储方法对当今的企业来说是一个问题,因为如果使用过时或不准确的数据来训练 LLM,这些错误就会融入模型中,导致模型工作正常,而对模型进行的数据训练则是错误的。
同样令人担忧的是,由于数据在 LLM 的黑匣子内,如果用户没有其他可以参考答案的东西,他们通常只是认为答案是理所当然对的。所以,就需要更多的数据来支持 AI,但如果源数据都是错误的,那一切都将变得没有意义。
1.数据来源
在数据湖中存储大量数据给企业数据带来了很大的不确定性。谁创建了这些数据?它从哪里来?上次更新是什么时候?它是可信的来源吗?了解数据集的沿袭是信任和自信使用数据的关键第一步。
2.数据分类
随着各种来源数据进入数据湖并进行数据存储,企业面临的另一个挑战就是数据分类。谁可以查看特定数据?从政府安全分类到机密的 HR 信息,数据不应该对每个人都开放。数据必须进行适当的分类,并且随着公司以新的方式整合和利用数据,这些类别及其带来的限制必须得到维护和延续。
3.数据稳定性
许多数据是瞬态的。比如说如果要从传感器获取数据,则需要了解根据传感器读数刷新数据的频率。这是一个数据稳定性问题,因为不断变化的数据可能会导致不同的结果。
数据也在“老化”。例如,假设企业有一个特定的流程,用于为新员工提出为期 9 年的职位申请,但去年修改了该流程。如果使用所有 10 年的数据来训练模型,然后询问如何打开求职申请,大多数情况下,会得到错误的答案,因为大多数数据都已过时。
所以,数据越多并不总是越好。跨越主要流程变更的 10 年数据不如准确捕获现有流程的较小数据块有价值。
4.复制偏差
当企业开始使用数据来训练 AI 时,则会冒着根据现在的情况而不是预期结果来训练模型的风险。例如,假设企业的人力资源部门正在使用 AI 来筛选求职者,用公司的现有数据来训练理想候选人的模型,那么模型最终可能会复制员工中与年龄或性别相关的现有偏见。
希望训练模型不是基于数据集中的现实,而是基于想要实现的结果,这从清楚地了解数据及其局限性开始。
除了以上 4 个方面,还有一个挑战就是问题数据风险。使用有问题的数据来训练 LLM 可能会有严重的危险。在基本层面上,它会增加“幻觉”并破坏企业或用户对结果的信心。可能会遇到不准确或系统无法按用户希望的方式运行。发生这种情况时,企业的信任度和使用系统的意愿可能会下降。
使用不良数据甚至可能导致声誉受损。如果使用数据来训练性能不佳的面向客户的工具,可能会损害客户对公司能力的信心。
使用泄露的数据生成有关公司或其他公共信息的报告甚至可能成为政府和合规性问题的导火索。如果数据被错误分类,就有可能暴露个人信息。所有这些情况都可能在财务和声誉上付出高昂的代价。
企业现在可以采取以下数据管理步骤来实现 AI 革命:
1.加强数据治理流程
每个企业都需要一个强大的数据治理流程,必须通过回答以下问题来定义有关处理、存储和更新数据的规则:
· 谁负责数据分类?
· 谁负责查看您数据的访问权限?
· 谁将控制这些数据的管理?
· 您会任命首席数据官、分析团队还是其他人?
· 您将保留数据多长时间,谁做出这些决定?
在开始将公司数据用于 AI 解决方案之前,回答这些问题将使您的企业受益。
2.确保合规流程
企业应将强大的治理流程与同样强大的合规性流程相结合。当数据成为消费目标时,确保有一个合规性流程来确认提交数据的人已经通过了适当的治理检查?
当开始采用 AI 工具时,正确存储数据是不够的。必须确保有关数据完整性的策略和程序扩展到访问和使用数据的任何位置。
总而言之,治理和合规流程是维护数据完整性的核心,而且鉴于公司正在积累的大量数据,它们的重要性只会越来越大。当数据对公司至关重要时,尤其是当数据也在快速增长时,需要明确的规划和角色职责来保护、管理和利用它。
3.了解数据
使用多少数据的问题不应该基于企业拥有多少数据,而应该基于了解自身数据和目标。在 AI 的早期,传统观点认为数据越多意味着 LLM 越好。然后出现了一种趋势,即使用更准确的数据对小型语言模型进行高度调整。决定采取哪种方法将取决于手头的情况。但是,如果不首先对数据及其局限性有深入地了解,就无法做出明智的决定。
4.Agentic AI 的数据计算
下一个重大前沿领域是如何通过代理 AI 使用数据。让 AI 代理使用 LLM 还是让一个主代理协调多个 AI 代理(每个代理都有自己的 SLM)会更有效?
思考代理 AI 将为企业带来的可能性令人兴奋。无论哪种方法胜出,代理 AI 都将以强大的数据治理和合规流程为基础。强大的数据完整性将使 AI 能够真正交付。
在匆忙训练 AI 模型的过程中,不能只是大喊“数据越多越好”,相反,得要求高质量的数据,因为你知道,现在设定高标准,将在未来提供优化的结果。
作 者 | Dave Wright
编 译丨新基建创新研究院 内容组
参考:
https://www.cio.com/article/3967159/thanks-to-ai-the-data-reckoning-has-arrived.html
免责声明:本文系网络转载,对文章部分内容进行选取、编译,版权归原作者所有。但因转载众多,或无法确认真正原始作者,故仅标明转载来源,如涉及作品版权问题,请与我们联系,我们将在第一时间协商版权问题或删除内容!内容为作者个人观点,并不代表本公众号赞同其观点和对其真实性负责。

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。
