您所在的位置:投资经开区 > 雪浪小镇 > 园区动态

对话雪浪:关于工业大模型语料合成

发布时间:2025-07-14 17:03    浏览次数: 【字号:默认 特大

导语

DeepSeek 的出现,让所有人思考如何在工作中发挥它最大的作用,工业领域当然也不例外。过年聚会,小编一位朋友是微传动元器件资深工程师,他说询问 DeepSeek 关于降低产品噪声的问题,它确实 “懂得不少”,列出了材料、工艺等一系列可供参考的解决途径,但离他具体场景具体问题的解决,还差得很远。

 

雪浪云专注于工业制造业这么多年,对于这位朋友的问题可以说感同身受。Deepseek 的推理能力的确让人印象深刻,把 DeepSeek 的 “天赋” 带到制造业客户的每一个复杂场景,解决这最后一公里的问题,就是雪浪云的价值所在。没有金刚钻,不揽瓷器活,小编一开年就来到雪浪云研发团队探班,他们最新的研发成果是一整套面向大模型应用的工业语料合成解决方案 ,这是一次技术含量十足的对话,小编第一时间分享给大家。

为什么要 “工业语料合成”?

众所周知,人工智能三大要素,算力、算法和数据,缺一不可。算力方面,我们已经讲了很多,一体机的方式是现阶段最优选择,当然租用各种云服务,或者买芯片自建集群,也都可以;算法方面 DeepSeek-R1 性能卓越,而且带动大模型市场新一轮的 “卷”,且纷纷开源,一下子让大家有了丰富的选择;唯有数据方面,只能依靠工业界自力更生。

 

垂直领域大模型的应用,无外乎从头训练、微调和 RAG(俗称外接知识库)几种途径(应该采用哪种途径,其实有讲究,下面还会详细分析),但每一种都需要准备垂直领域的数据语料。为什么医疗行业率先取得突破?很重要的原因就是医疗领域的数据,天然的问答形式,再加上大量专业术语,几乎完美适配大模型。

 

但是来到工业领域,情况就完全不同了。首先,工业领域信息化水平参差不齐,工况复杂,多源异构的数据,结构乱、质量差、类型杂;其次,工业知识、机理复杂,往往涉及学科专业,一般人难以理解,就算理解了也很难用常规的数据形式表达,非常规的表达方式,又难以与其他数据融合;第三,工业场景的应用要求高,雪浪云的制造业客户,产品不乏国之重器、精密设备和关乎国计民生等等,他们希望大模型的回答不仅精准 ,而且还要给出完整推理计算过程,以便追溯审核;最后,大部分工业语料是企业的核心私域资产,作为通用大模型发布,企业当然会担心安全风险,技术方案必须支持本地化部署。

 

这些问题,学术界自然各有研究和解决技术,但归根到底,都是要有适配大模型的高质量语料,而且很多时候都需要达到一定规模,这意味着要投入现实的工业生产应用,人工比重不能过高,毕竟 OpenAI 撒币找非洲人民代工的方式,大多数企业客户不可能接受。利用技术自动合成看起来是必由之路,但在这之前,我们首先要搞清楚另一个问题。

大模型需要怎样的 “工业语料”?

想象一下,像 DeepSeek-R1 这样的通用大语言模型犹如 “天才少年”,他们天赋异禀,双商极高,且已经完成了一整套 “通识教育”,但立刻向他咨询工业领域的具体问题,就会遇到小编那位朋友的尴尬,因为他缺少这一领域的 “工业知识”。这一 “工业知识” 又包含两部分,一部分是工业机理,简单而言,他们是事物之间的某种稳定的结构关系,比如水由氢元素和氧元素构成,比如某一金属材料的应力弹性形变公式等等(当然,实际场景中的工业机理,要复杂得多得多)。另一部分,则是事实描述,这是我们常见的数据,比如孔的直径,壁板的厚度,管道的流量等等,在工业场景中,有时它是多模态的,比如一个带有曲面外观的零件,它的形状数据,需要一整个 CAD 来描述。

 

很显然,在大模型应用的实际场景中,工业机理和事实描述缺一不可,如果工业机理是 “公式”,那么事实描述就是 “参数”,大模型要计算出结果,需要向它提供完整的 “工业知识”,这就是 “工业语料” 的完整性。

 

另一方面,我们不仅要提供工业机理的 “公式” 和 “参数”,我们还要提供它们之间所有的关系,只有这样才能发挥大模型强大的推理能力。比如一组数据描述所有金属材料的应力弹性形变,一组数据描述某一零件的外观形状,一组数据描述金属材料形变与温度的关系,它们之间需要以一种统一的描述方式建立关系,大模型才能计算出实际的形变结果。这就是 “工业语料” 描述的一致性 。

 

最重要的是,工业语料不仅要让大模型读懂,也要让人读懂,它应该是包含语义的,或者说可解释性。大模型厉害是厉害,但最被诟病的就是它的不可解释性,这是由它的构建原理决定的。2017 年,谷歌的发表论文《Attention is All You Need》,这是所有大模型的核心技术,本质上它将输入模型的字符串拆解为一堆矩阵,通过复杂的矩阵运算,让模型精准预测后续的字符串。所以,它说的是人话,想的却是 “加减乘除”。解铃还须系铃人,谷歌在 2012 年也有一篇重磅文献《Introducing the Knowledge Graph:thing,not strings》给了我们启发,简单而言,谷歌阐述了一个理念,要跳出那些表面的字符串的束缚,回归事物的本质,那么怎么做到呢,答案就是文章要介绍的技术,知识图谱(Knowledge Graph )。

 

合成 “工业语料” 的目标已经明确,接下来就是怎样合成了,没曾想,更大的挑战还在后面......

怎样合成 “工业语料”?

我们终于可以回答训练、微调还是 RAG 的问题了。首先,我们要考虑大多数工业场景,知识需要持续不断的更新。训练 DeepSeek -R1 用了 “冷启动”,微调则是在已完成训练的通用大模型的基础上增加工业语料的 “热启动”,可是大多数工业场景,一次 “启动” 就意味着巨大的成本,所以基本上只剩下外接知识库的 RAG 了。然而传统 RAG 的方式,也是将语料转换为矩阵形式经过计算帮助大模型检索到正确答案,同样存在不可解释、不可追溯的缺陷,所以,基于 RAG 技术的改进是必要的,叠加知识图谱的 Graph RAG 技术就是其中之一。

 

这就是雪浪云的工业语料 “生产线”(数字主线)。数字主线是整个工业语料合成的基础框架,负责对工业数据进行治理和组织,并通过知识图谱关联数据模型和机理模型,形成完整、语义化的工业知识体系,大语言模型是工业语料的 “生成器”,利用 “数据蒸馏” 技术,能够将工业知识最终合成为工业语料。

 

以上是理论分析,现实中的工业场景,制造业客户最关心的三件事情是:成本、成本、还是成本。确切地说,是建设成本、运行成本以及管理成本。

建设成本

客户甲:知识图谱用起来确实爽,可是构建知识图谱的过程投入巨大,需要大量的人工,漫长的周期。

 

雪浪云:这位客户一看就懂行,传统知识图谱技术最大的挑战确实是建设投入。但是雪浪云也准备了两大利器。

 

一是 “元模型”。它是从各类工业场景中抽象提炼的核心模型,是模型的模型,具有通用性和典型性。雪浪参与过上千个制造业项目,参与制定过多个工业标准,积累下大量的元模型,它们是大量现成的高质量工业语料,帮助客户快速匹配复用,减少工作量。

 

二是 “大模型” 。是的,你没看错,诸如 “DeepSeek-R1” 这样的大模型,帮助构建知识图谱高效准确。传统知识图谱构建过程中,需要大量人工投入的实体提取、关系识别、实体消歧、实体对齐等工作,大模型都不在话下。雪浪云的技术人员还掌握了进一步提升知识图谱构建能力的复杂提示词工程,几乎可以实现这一过程的全自动。

运行成本

客户乙:即使建设成本大幅缩减,但 Graph RAG 让运行成本同样上升。工业机理非常复杂,用知识图谱虽然可以描述,却也是一张极其复杂的大图,大模型对它进行推理,本质上是用矩阵运算的方式模拟复杂的图算法,这个算力成本,一体机能撑得住吗?

 

雪浪云:这位客户是算法高手,不过说到这一点,雪浪云也准备了两大利器。

 

一是 “语义编织” 技术。雪浪云对知识图谱做了扩展,引入了 “表达式” 实体类型。这是一种雪浪云自定义语法的语言形式,简单而言,诸如复杂的数学公式这样的工业机理,将不再被拆解为知识图谱,而是用一个 “表达式” 替代。与之对应的是一个 “执行引擎”,由它完成这一表达式的自动计算执行。通过语义编织技术,任何复杂的工业机理不仅能织入知识图谱,而且是以最 “经济” 的方式织入,从而大幅降低图算法的算力需求,把大模型的长链推理能力用在刀刃上。

 

即便如此,有些表达式,即使用 “计算引擎” 直接计算,都非常的复杂,比如下面这个:
(图片)
这是气动力学设计中常见的偏微分方程,对它的求解本身就是极其复杂的数值计算过程。而类似这样的复杂求解难题,在工业领域还有很多。只能说这就是硬核能力了,工业软件的积累和研究正是雪浪的立身之本。

 

二是硬件加速。利用与摩尔线程深度合作的契机,雪浪云进一步结合硬件优化和并行计算技术,为复杂工业机理推理计算提供强大的性能支持。比如内置复杂机理计算的数学算子、逻辑算子、张量算子、集合算子、映射算子等;充分利用 GPU 的多核并行计算能力、显存高速传输特性以及专有张量计算核心,实现图计算加速;以及数据变量与机理表达式的动态引用与实时更新等。

管理成本

客户丙:单点技术问题看来都解决了。但是你这一整套方案,涉及面很广,听下来管理、运维上会很吃力。比如,你首先要做好数据治理吧,还是面向知识图谱和大模型工业语料的;非结构化数据也得融合进来,这是一套复杂的知识工程;更要命的是,如你所说,我的工业语料天天在变,你需要实现全过程自动更新,全链路打通;你还要支持我的追溯审核甚至审计的需求,这些问题每个点都不算复杂,但如果都需要派人盯着,此起彼伏,这个管理成本会难以承受。

 

雪浪云:这位客户更是厉害,你不仅全都听懂了,还看到了潜在的风险。不过,我们也有 “杀手锏”,雪浪云已经实现了这一整套解决方案的产品化,它就是 “数字主线” 产品,V1.0 去年年底刚刚发布。

 

数字主线(Digital Thread)的概念,最初就是来自于工业界,是对数字孪生的一种有益补充。数字孪生将物理世界的对象复制到数字世界,在实践中,容易让企业抓不住重点,缺少优先级管理,有限的资源下,不知道先数字化哪部分。数字主线则一方面帮助企业找到主干,先完成主线数据链的打通,再逐渐扩展到支线;另一方面更强调跨业务域的整体性,一致性,从上层业务架构到底层技术实现,需要统一建模。

 

雪浪云将经典的数字主线技术做了进一步的扩展,整合湖仓一体数据平台与图数据库,实现 “元模型” 与 “语义编织” 扩展的知识图谱,它不仅是客户业务主价值链的载体,也是从数据治理到工业语料合成再到大模型智能体应用全过程的载体 。在工业领域,雪浪云原本就有成熟的数据治理最佳实践,完整的知识工程解决方案,丰富的工业元模型沉淀,完全针对工业场景打造的基础软件设施,以及始终跟踪前沿的智能化技术研发能力,数字主线平台实现了上述能力的集成,正是 MindCenter 中这一系列杀手级隐藏功能的 “控制面板”。全明星阵容只有明星教练才能驾驭,高端食材必须由顶级大厨掌勺。软件业有句名言:“把复杂度留给自己,把便捷给到客户”。