CIO关于生成式AI项目的数据管理需要做好这三件事

IP属地北京 编辑：钟景轩至顶头条 时间：2024-10-06 10:48:19

在对生成式AI进行了近两年的试验之后，许多IT领导者已经准备好扩大规模了。然而，在此之前，他们需要重新考虑数据管理问题。
根据Nvidia公司AI模型、软件和服务副总裁Kari Briski的说法，成功实施生成式AI取决于有效的数据管理以及评估不同模型如何协同工作以服务于特定用例。Nvidia等少数精英组织把生成式AI用于设计新芯片等工作，但大多数组织还是决定瞄准那些模式简单的、不复杂的用例，而且可以专注于实现卓越的数据管理。
自动化和人工智能从业者、Gartner同行社区大使Doug Shannon表示，绝大多数企业现在把重点放在了最有可能带来积极投资回报的两类用例：一类是知识管理（KM），包括收集企业信息，对其进行分类，提供允许用户查询的模型；另一类是检索增强生成（RAG）模型，其中来自较大来源的数据片段被矢量化，以允许用户“与”数据“对话”。例如，他们可以获取一份长达一千多页的文档，让模型进行提取，然后向模型询问有关它的问题。
Doug Shannon，Gartner全球智能自动化负责人
Shannon说：“在这两种用例中，企业都依赖于自己的数据，而利用自己的信息是需要花钱的。与那些负担遗留流程、工具、应用和人员的大型企业相比，中小型公司拥有巨大的优势。当我们坚持旧习惯的时候，我们有时会遇到自身带来的麻烦。”
如果数据管理做得不好，会导致收益减少和额外成本。例如，由不良数据引起的幻觉，需要花费大量额外的时间和金钱来修复——并且会让用户对工具失去兴趣。有些IT领导者做得好是因为他们专注于以下三个关键方面。
收集、过滤和分类数据
首先是一系列过程——收集、过滤和分类数据——对于KM或RAG模型来说，可能需要几个月的时间。结构化数据相对容易，非结构化数据虽然分类难度更大，但却是最有价值的。“你需要知道数据是什么，因为只有在你定义了数据并将将其分类了之后，你才能用它做任何事情，”Shannon说。
Nvidia提供了相关的开源工具和企业软件用于进行过滤，用户可以配置这些工具和软件以删除个人身份信息（PII）或对特定领域有害的信息。工具包中提供了分类器，允许企业设置阈值。“我们还进行数据混合，将来自不同来源的数据组合在一起，”Briski说。
在这个混合过程中，用户可以重新排列数据以改变相对数量。例如，一些企业可能希望30%的数据来自18至25岁之间的人，只有15%的数据来自65岁以上的人。或者他们可能希望20%的训练数据来自客户支持，25%来自售前。在混合的过程中，还可以消除重复性的信息。
Kari Briski，Nvidia公司AI软件产品管理副总裁
信息也应该经过过滤以确保质量。据Briski介绍，这是一个迭代的过程，涉及到各种任务以获得最高质量的数据——这些信号可以提高模型的准确性。而且，质量是和你所在领域的背景有关的，例如，某个对于金融行业来说是准确的响应，对于医疗行业却是完全错误的。“通过高质量的过滤，我们找到了正确的信号，让我们可以合成类似类型的数据来提高信号的重要性。”
Briski还指出，对用于训练AI的数据集进行版本控制也是很重要的。由于不同的人会过滤和扩充数据，因此你需要追踪都有谁做了哪些更改，以及为什么这样做，而且你要知道使用哪个版本的数据集来训练特定的模型。
由于企业必须管理所有数据，因此数据收集、过滤和分类过程的自动化就变得至关重要。哈佛大学副总裁、首席信息官Klara Jelinkova表示：“很多组织拥有数据仓库，用结构化数据进行汇报，还有很多组织已经采用了数据湖和数据结构。但随着数据集随着生成式AI而增长，确保数据的高质量和一致性成为一项挑战，尤其是在速度不断加快的情况下。自动化和可扩展的数据检查，就成了关键。”
完善数据治理和合规性
数据管理需要关注的第二个方面，是数据治理和合规性，哈佛大学进行的实验清楚地说明了这一点。去年，哈佛大学IT部门推出了AI Sandbox，一个内部开发的生成式AI环境，免费提供给用户社区。这种沙盒提供了多种不同的大型语言模型，让人们可以尝试各种工具。
哈佛大学的IT部门还运行了一些创新计划，让人们可以在那里推广生成式AI项目，其中必须包括预期投资回报率的内容，不一定是关于财务回报，但可能是其他收益的组合，例如获得新知识和新发现，或者流程得到改进。如果项目获得认可，就会得到一小笔种子资金，而那些显示出预期收益的项目可能会进一步扩大规模。
Klara Jelinkova，哈佛大学副总裁兼首席信息官
据Jelinkova称，生成式AI项目的数据管理中，最要的一个方面就是重新审视数据治理，思考需要改变什么。她说：“我们从通用AI使用指南开始，只是为了确保我们的实验是设置了护栏的。我们进行数据治理已经有很长一段时间了，但当你开始谈论自动化数据管道时，很快就会发现，你需要重新思考那些围绕结构化数据构建的旧数据治理模型。”
合规性是另一个重要的关注领域。作为一个考虑扩展部分AI项目的全球性企业，哈佛大学密切关注着世界各地不断变化的监管环境。哈佛大学有一个活跃的工作组，致力于遵循和理解欧盟AI法案，在用例投入生产之前，他们会经历一个流程，以确保满足所有合规义务。
“当你使用新技术的时候，你就走在了前沿，而且随着时间的推移，立法环境可能会发生变化。对我们来说，这都是数据治理的其中一部分。你需要有一个合规框架，允许你随着立法环境的变化，重新处理你以前做过的事情。”
优先考虑数据隐私和保护知识产权
第三，就是数据隐私和知识产权（IP）保护。对于大多数组织来说，数据管理本质上与隐私息息相关。他们需要确保自己不会面临风险。Jelinkova说：“你需要过滤、规范化、以及某种增强，必须对数据进行注释。你还需要解决数据的安全性和隐私性问题，需要保护自己的知识产权。”
在深入研究数据时，很多企业会发现，他们不了解与某些数据相关的、基于角色的访问控制（RBAC）——如果有的话。因此，他们不知道在企业内部甚至外部共享了哪些数据，这个时候就体现出了指导方针和护栏的重要性，也是需要提前实施的一个原因。
Jelinkova说，哈佛大学在隐私原则方面非常积极主动，并且有一个全面的数据安全计划，其中包括了数据分类和指导哪些数据可用于不同类型的AI。她说：“我们对知识产权是非常谨慎的，当我们收集数据来构建AI导师时，需要确保我们对于将要输入的所有数据是拥有相关知识产权的。”
而且，和大多数大学一样，哈佛大学自己也有很多知识产权，因此必须要保护这些知识产权。对于内部创建的AI工具来说，这并不难。但是，当使用公共模型的时候，就必须采取额外的措施，以免他们直接或间接地利用你宝贵的信息来获取商业利益。为了安全起见，哈佛大学与第三方AI工具供应商签订了合同保护措施，以确保数据的安全和隐私。
Shannon表示：“在非常庞大的基础模型中使用自己的数据时，仍然存在着很多误解，而且对于某些工具如何处理你的数据，其透明度也不高。Azure支持使用OpenAI，因此即使他们说他们不会获取用户数据，并为你提供了一份所有受保护内容的长列表，但仍然是一个黑匣子。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为星河AI高品质酒店网络点亮美仑美奂“上海滩”

AI高效复刻《黑神话：悟空》场景盛趣游戏加速打磨AI工具

超便携专业AI大师本带来生产力跃升，联想ThinkPad P1 AI 2024 AI元启版上市

AI安全新突破！阿里云实现Confidential AI全栈覆盖

AI中国！AI龙江！

山水相逢！卧虎山水库秋景惹人醉 | AI音乐

CIO关于生成式AI项目的数据管理需要做好这三件事

CIO需权衡AI改善数据管理发挥的作用

聊天机器人帮你“全面了解”约会对象，Grindr将推“AI僚机”功能

Meta发布AI视频生成器Movie Gen：一键生成高清视频

AI 识别小偷抢手机，谷歌为安卓推出盗窃检测锁定功能

Meta电话会：未来是“AI、AI还是AI”！

“中国蔬菜之乡”如何诞生？AI还原当年大棚种植场景

又一款锐龙AI 9 365笔记本来了，这次是华硕，新品主打香氛加轻薄

看见，是沟通的开始 | AI晚读

AI音乐

“河西反诈AI小警”的第一个国庆节

AI服务器需求依旧强劲，鸿海三季度营收续创新高 | 财报见闻

AI大数据处理能力增强， Claude超大文件处理技术更新

微软新专利：利用AI智能配乐能让音乐更匹配场景

跟着线条“云”游重庆 AI集邮解锁国庆新玩法

为了抢夺 AI 人才，马斯克在 OpenAI 旧总部开了一场招聘会

Claude AI 被曝正研发新功能，突破 20 万 tokens 文件处理上限

微软新专利探索 Copilot AI 应用，匹配视频等生成背景音乐

谷歌最便宜AI模型商用：腰斩击穿价 0.15 美元买百万 tokens 输出

蔚来欧洲与 Monolith 合作进行实时 AI 电池测试

两款全新 Chromebook 加入全新 AI 功能

全站最新

为啥被嫌弃的“老小区”，如今越来越“吃香”？中介说出了大实话

大赛 | 2024第一届 Oakhouse 共享住宅设计竞赛（截至2024.12.16）

末日卡车运输模拟游戏《PACS》上线多人合作刺激爽快

《战锤40K 星际战士2》成功出圈：核心战斗有趣才是王道

【国庆我在岗】台江供电圆满完成2024年“村BA”球王争霸赛全国总决赛保电任务

全新Meta Avatars化身已上线Horizon Worlds、Home和Workrooms

60多岁退休的你，还敢说要做一辈子游戏吗？

S14世界赛最OP英雄诞生！瑞士轮BP率86%，登场10次胜率高达80%

热门推荐

华为星河AI高品质酒店网络点亮美仑美奂“上海滩”

AI高效复刻《黑神话：悟空》场景盛趣游戏加速打磨AI工具

超便携专业AI大师本带来生产力跃升，联想ThinkPad P1 AI 2024 AI元启版上市

AI安全新突破！阿里云实现Confidential AI全栈覆盖

AI中国！AI龙江！

山水相逢！卧虎山水库秋景惹人醉 | AI音乐

江苏昆山公安：“AI警察”上岗 “算力”引爆“战力”

CIO关于生成式AI项目的数据管理需要做好这三件事

CIO需权衡AI改善数据管理发挥的作用

聊天机器人帮你“全面了解”约会对象，Grindr将推“AI僚机”功能

Meta发布AI视频生成器Movie Gen：一键生成高清视频

软银 CEO 孙正义：将重视开发可读取大量学习数据的高性能大型 AI

AI 识别小偷抢手机，谷歌为安卓推出盗窃检测锁定功能

Meta电话会：未来是“AI、AI还是AI”！

“中国蔬菜之乡”如何诞生？AI还原当年大棚种植场景