当前,企业普遍认同智能化是构建其核心竞争力的重要支柱。AI技术未来将深刻融入企业业务的方方面面,为营销、研发、生产、服务等环节都带来革命性的效率提升和用户体验优化,以及商业模式上的创新。那些能够将智能化融入企业基因,拥抱智能化的企业,将在未来的竞争中抢得先机,引领行业发展。
企业AI建设工作开展的前提
智能化转型不能成为一句空谈,必须切实转化为行动,通过高层共识、愿景定义、战略对齐,三个方面的动作,实现将AI纳入到企业的智能化转型战略。
第一,高层领导要达成共识,明确AI的战略意义,是智能化成功的基础。只有建立了这种共识,才能帮助团队理解AI将如何支持企业的业务增长、运营优化和业务创新,从而在资源分配和项目推进中获得支持。通过在高层战略会议中讨论,应明确把AI建设纳入到企业战略级项目中,并且给予更高的优先级。
第二,企业一把手的推进至关重要,一把手要牵头,各个业务负责人参与,设定长期目标和关键业务领域的AI应用,这样才能有助于为企业的AI战略提供更加清晰的方向。
第三,AI落地绝非一个部门所能独立完成的,它需要多个部门协同推进,要确保AI建设与企业整体战略保持一致,同时需要设定相关绩效指标并跟踪进展。
企业AI建设的路线图
这张图展示了企业AI建设的整体路线图,通过8个关键步骤,帮助企业实现AI项目的全面落地与持续运营。
确定目标
明确的目标是项目成功的基础。设定目标有助于指导后续的所有工作,并确保团队在同一方向上努力。目标应与企业的战略紧密相连,确保AI的建设为实现整体战略目标服务。企业在建设AI时,经营目标、运营目标和部署目标相互依存,形成了一个完整的目标体系。经营目标提供了方向,运营目标确保了效率,部署目标实现了技术落地。企业应当在制定和实施AI建设计划时,充分考虑这三者之间的关系,以实现技术与业务的深度融合,从而推动企业的持续发展和竞争力提升。
企业在部署大模型时需要清晰地识别其适用场景与局限,不能一刀切,而应制定合理和差异化的目标。过高的期望目标,可能会导致整个过程受挫。因此,了解何时适合采用AI、何时应避免使用AI,以及针对特定场景选择何种AI技术至关重要。在此,我们主要聚焦大语言模型的建设。
大语言模型,主要是做语言理解和生成的,但是对于一些传统AI已经展现出出色表现的场景,大模型其实并不具备明显的优势。例如,在一些应用CV/OCR等技术的场景,已经有非常成熟的技术和产品,是没有必要应用生成式AI去重构的。同样,在一些高度定制化的场景中,生成式AI也并不适用,如下述高度定制化服务场景所示。
在中间这几类,都是生成式AI的典型应用领域,例如,内容生产、个性化服务、写代码等,在很多场合效果已经非常好,可以替代大量人力工作。而在一些场合,如流程自动化、数据分析方面,可以对原有系统提供更好的补充和辅助作用。
评估现状
在明确了目标之后,我们需要了解企业自身所处的阶段,发现薄弱环节,并为下一步的建设方向提供指导。我们主要从4个方面来评估企业的现状。
首先是战略与场景,要确保已经在企业内部达成了目标的对齐,这个也是我们一开始所强调,需要重视的;在场景上,企业需要优先选择符合战略目标,并且具备可行性的场景进行实施。
第二,要评估的是企业的数据就绪度。AI项目的成功,一定是数据驱动的。高质量的数据是AI模型项目的基础,这对于传统AI还是生成式AI都是一样。但是生成式AI更重要的一点就是,数据的规模和多样性。我们所熟知的GPT系列的模型能力强,一方面原因是算法创新,像自注意力、强化学习等,更重要的一点是数据质量高,场景覆盖广。另外,企业想要长久保持AI模型的高质量服务,还需要不断采集数据、反馈数据,对模型进行迭代更新。
第三,AI项目的落地实施,离不开团队,需要具备理解业务并转化为项目的核心架构,以及一些工程化的角色,如数据标注、清洗、模型训练和调参、工程优化等角色。
第四,资源就绪度,指的是AI算力,包括计算存储、网络等,以及为了实施项目所需要的一些基础框架、开发工具等,目的是提供对AI全生命周期的支撑。
选择场景
接下来我们要面对的是如何选择企业的AI应用场景,我们所面临的几乎所有的企业应用场景,归根结底都是围绕降本增效、提升体验和模式创新三个方面来展开的,这也是企业智能化转型的终极目标。
首先需要从战略匹配度,看是否符合这三个方面的目标,其次在技术支撑方面,重点考虑是否是生成式AI的应用场景,以及我们通过哪些技术路径来支持场景落地。另外就是数据和AI基础设施。数据层面,需要具备精标注数据、反馈数据,以及垂类语料(无标注数据)条件;算力方面提供AI计算支撑;基础大模型方面,这个是企业应用AI的最基础条件,企业需要考虑大模型的开源/闭源路线。目前开源生态比较强大,进步也很快,是一种更高性价比的选择。
初步评估可行性
选定了场景之后,我们需要对某个特定场景有个初步可行性判断,这个判断需要结合业务、技术和工程角色,共同参与评估。
业务如何判断呢?业务方就是实际的使用部门,比如业务方是合同审核部门,场景是审核合同里边的关键内容是否缺失(乙方名称、付款条件、付款方式等)。那么输入就是一段合同文本,输出就是几个关键字段和它的值;目标就是提取这些信息,并且内容没有丢失。只有这些还不够,业务部门可以尝试直接调用一些大模型(在确保数据安全前提下),看看效果怎么样,这是没有任何技术和工程参与优化的结果。这个工作业务团队的是完全可以胜任的,如果让技术部门来判断,可能会存在业务知识的缺少,无法准确判断业务场景的可行性。
从技术部门角度,重点是关注基础模型本身的能力,也就是大模型在预训练阶段已经基本定型的,主要包括它在预训练阶段用的知识、采用了哪些语言、有没有用一些带有逻辑推理的语料。这些我们做了判断之后,也可能没有找到一些能够激发它本身知识的好方法,这里就需要用一些专业性强的问题去测试,看看他能不能突破这个上限。
第三,就是工程角度,门槛最低的就是Prompt(提示词)优化,这是一个非常实用并且简单的工程优化方法,我们还可以结合few shot(示例),以及思维链等方式,来激发大模型本身的能力。如果是企业内部限定的文档,要去用RAG(检索增强)生成这种方式。如果是因为大模型对指令的遵循能力差等问题,则需要考虑用SFT(supervised fine tuning)微调。如果尝试了以上方式都不行,需要再看下,我们要解决的是不是术语专业领域的问题,那可能需要准备大量的专业领域语料,去做二次预训练。这种方式不推荐,它所消耗的资源,对团队的要求都是极高的。他们的具体差别对比如下:
准备所需资源
在确定初步可行之后,即可开始准备大模型落地所需要的资源。主要从4个方面准备:与建设场景相匹配的数据、算力、开发工具和团队。
1.准备数据
根据选择场景的不同,需要准备的数据也会有很大不同:
-
RAG场景下,主要的数据准备工作包括:
文档预处理(如文档格式转换等)、文档解析(PDF识别,版式识别)、OCR(图像转文字)、文档切分(切分为小的片段)、数据增强(提取QA、生成摘要)。
-
大模型微调场景,主要的数据准备工作包括:
精标注QA数据(问答对形式)、准备指令数据(如人设遵循、输出格式要求等)。需要确保数据准确性(例如做过滤低质量,去掉重复数据等)、数据多样性(要能够覆盖各种真实应用场景)、数据一致性(数据不冲突)、数据增强(生成QA、摘要)等。
-
二次预训练场景,主要的数据准备工作包括:
专业领域的语料(如金融、医疗、法律专业术语,在这些领域使用语境等)。需要确保数据多样性(如覆盖场景种类要足够多)、数据规模要足够大(一般要达到数十亿级token以上)、一定的配比数据(增加通用领域数据一起做二次预训练,如1:1配置)、数据处理(去除重复数据、去除低质量数据、去除隐私数据、去除不合规数据等)。
2.准备算力
在企业的大模型建设中,算力的多少决定了训练速度、效率和模型表现,是推动模型快速高效落地的关键资源。那么企业要准备多大的算力才能满足实际应用需求呢?这里有一些经验,可以用于快速进行算力数量估算(此处仅考虑GPU算力)。
对于训练场景,全参微调所需的总显存一般为模型参数量(以B-十亿为单位)的20倍,例如70亿(7B)参数大模型,至少需要140G显存,按照单卡80G显存,则对应的GPU卡至少需要2张。而130亿(13B)参数大模型,至少需要260G显存,按照单卡80G显存,则对应的GPU卡至少需要4张。
另外,企业也要在算力投入和训练时间上进行权衡,训练时间可参照如下公式进行估算:
以Qwen2-72B为例,在24张80GB显存的A100上,在3B tokens的数据上训练72B参数量的Qwen2。80GB显存A100的峰值性能为312 TFLOPS,设GPU利用率为0.45,则所需要的训练时间为5.9天。
而在推理场景,总显存计算公式为:
其中n_layer为解码器/注意力层数,n_heads为每个注意力层的注意力头数,d_head为注意力层的隐藏维度,p_a为精度,batch_size为批处理大小,max_length为模型最大序列长度,KV Cache为模型推理过程中的KV缓存。
以常见的参数量模型为例,计算推理所需要的算力资源。
以 Yi1.5-34B 为例,n_layer(解码器/注意力层数)为60,n_heads(每层注意力头数)为56,d_head(注意力层隐藏维度)为128,p_a(精度)为2,batch_size(批处理大小)为1,max_length(模型最大序列长度)为4096。
模型参数量需要的显存为68GB(34*2=68GB),另外需要预留模型推理过程中的KV缓存,约为7GB(2*1*4096*60*56*128*2)*1024-3=7GB)。总共需要的显存至少需要75GB。
3.准备工具
这里分为三个方面:
首先是基础大模型的选择,这个往往决定了企业应用效果的基线。例如目前效果比较好的开源大模型 Qwen系、Llama系,由于开源大模型的能力越来越强,性价比更高,这些都可以作为企业的首要选择。除此之外,还需要考虑模型与任务的匹配度、参数规模和预训练数据量、算力资源、语言支持等方面。
其次,企业是为了解决特定场景下的应用目标问题,则需要AI应用开发,例如开发一个RAG应用、Agent智能体应用等。首先要评估的还是这个应用开发工具对场景效果的支撑。开发工具必须能够针对企业的具体业务场景(如流程自动化、知识检索、智能推荐等)提供符合业务预期效果的模型输出,保证大模型在实际应用中的可落地性;要能够支撑企业用户从概念到快速构建应用、应用效果提升的操作自闭环,让企业能够自主进行效果评估、自助优化,从而可以不过度依赖大量昂贵的外部人力调优服务;工具的使用门槛应低,既能够让专业的AI工程师快速上手,也允许业务人员参与配置和使用。理想的工具应该有良好的用户界面、代码示例、API文档等支持,以减少开发复杂度和时间。
第三,在模型微调和部署工具选择上,基于长远考虑,关注对资源的利用率和整体的性价比,其次是工具的完整性、兼容性、易用性、可靠性、以及安全性。例如,在性价比方面,在相同的基础大模型条件下,平台对于算力资源消耗和模型服务性能,能否做到更好的提升;在用户使用时,学习门槛是否足够低,操作是否足够简便,过程是否自动化等。
4.搭建团队
大模型项目团队与传统应用系统团队在技能、角色和需求上有显著的差异。
大模型项目更依赖于数据驱动的效果调优、模型微调和二次预训练等技术,而传统系统更关注业务流程的实现与系统的长期稳定性。企业在推动大模型项目落地时,应根据首先落地的场景,来做差异化的团队配置。例如,企业初期只选择了内部流程自动化场景,只需要做prompt优化和系统对接就可以,所以在AI团队上重点配置的就是提示词优化工程师、工程开发工程师;而在RAG应用场景,就需要文档数据预处理、检索优化等工程师。
分阶段实施
推荐企业分阶段实施,避免一开始目标过大过难,从而造成建设过程受挫。
阶段一:场景为王&运营提效
场景为王,指的是选择最简单、最容易做出效果的场景去建设。这个也是符合绝大多数企业的现状,比如,优先选择企业内部的知识问答、流程自动化、代码辅助编写等。投入小、见效快。在这个阶段做出了成果,就能进一步扩大,小步快跑。
例如,将传统表单流程改造为自然语言交互的的智能化流程,主要利用Prompt优化技术。
也可以选择基于RAG的企业知识问答机器人,整合企业内部文档,提高知识检索的效率和检索效果。
这两类场景,都能够快速进行落地,并且进行效果调优之后上线,迅速在企业内部推广使用。在上线后,需要同步进行运营提效工作,持续收集场景反馈数据,对落地场景效果持续优化,真正在初始落地阶段产生明显价值。
阶段二:场景扩展
基于第一阶段的成功,企业要深入到核心业务场景去,解决一些复杂的场景问题,发挥AI的价值。从辅助性角色,变成核心角色,例如企业的销售机器人、个性化服务机器人、运维机器人等。这个阶段的特点就是复杂度会更高,往往不是单靠大模型能完成的,往往需要借助小模型、智能体等来协作完成。
阶段三:持续优化
为什么要做这个事情呢?因为不管是什么样的AI模型,只要部署了以后,它的固有知识就相对不会变化。而业务场景不是一成不变的,如果不持续优化模型,它的效果一定会持续衰减。另外,企业落地的场景越来越多,并发量越来越大,它所消耗的资源也成倍增加,如果我们不对它的底层资源进行优化,那对企业来说将是一笔非常大的成本支出。
综上,在效果方面,我们通过不断采集、反馈、优化,形成数据闭环,来持续对场景做提效。构建数据反馈闭环是确保企业大模型适应业务变化的基础,优化后的模型重新部署到业务场景中,继续收集新的数据,形成持续反馈的闭环。这不仅让模型适应业务的变化,还能不断提高其在核心场景中的应用效果。
根据实际的不同,可能需要选择进行SFT或者二次预训练的方式,提升模型的能力。二者的区别在于,SFT微调更注重任务和场景的定制化表现,而二次预训练更适用于提高模型在特定领域的专业能力。
在资源利用方面,企业可以选择通过模型压缩、国产算力替代等方式,实现资源的优化配置。
阶段四:赋能核心业务
这是AI落地的终极目标,AI大量融入到关键业务链条中,深入到企业核心业务,比如制造企业的研产供销服等环节。未来,企业的AI建设不断深入,将不再是覆盖单一领域,而是会覆盖到企业的全部链条,例如以上这些。在每一个环节,都可以发挥AI的作用。有了前三个阶段的经验积累,在这个阶段一定会走得更稳、更深入。例如,在研发板块,可以充分利用大模型的理解以及调用外部工具、生成代码的能力,辅助进行产品工艺设计和参数选择;在生产板块,可以通过语音自然语言交互,对机器人进行操作;在销售板块,大模型结合数字人,能够为用户提供更好的体验和服务响应;在设备运维方面,能够及时给出设备故障的维修方案;在运营方面,通过大模型提供个性化的数据分析和运营报告。
评估
企业对大模型项目建设评估不仅仅是对一次项目执行结果的评估,更是对阶段性工作的评估,包括但不仅限于项目业务价值、用户体验、成本效益、模型性能与合规性、安全性等多个维度的综合评估。通过建立持续的监控与反馈机制,优化运营成本,分析模型的扩展潜力,并结合未来发展战略,企业能够在评估阶段进一步确保大模型项目的成功和长期价值。
持续运营
只有坚持长期在数据和场景方面的运营深耕,才有助于构建企业的持续竞争优势。在持续运营,重点关注数据飞轮持续化和场景运营精细化。
数据飞轮持续化:
- 整合多源数据(销售、客服、供应链……),统一数据质量标准,设置专门的数据治理团队;
- 设置模型效果评估标准(基于标准测试集和基于业务反馈结果);
- 收集线上/线下反馈数据;
- 关键指标监控(性能指标、业务指标,如转化率、复购率);
- 明确实施微调优化的准入标准;
- 通过持续的数据积累、数据反馈闭环,推动模型的不断优化和迭代。
场景运营精细化:
- 一把手牵头,发动各个业务部门梳理业务场景,细化到最小粒度场景;
- 对全量场景做价值度评估,排优先级;
- 建立业务部门和AI团队的场景对接机制,明确场景提出-评估-立项/关闭-建设-评估-运营的整个闭环;
- 建立效果评估机制,对用户反馈做闭环跟踪;
- 挖掘新场景,鼓励内部做业务场景与AI结合的创新。
以上就是一个完整的企业落地AI的路径方法论,不同AI能力基础的企业可以选择不同的建设起点开始启动。
下期预告:在企业实施AI落地的整个过程中,有哪些误区需要提前了解,从而避免“掉坑”呢?我们在下一期详细说一说,企业在AI建设过程汇总的八大误区。