对话数库科技创始人沈鑫:大模型是效率工具,真正可供使用的高质量数据非常缺乏丨WAIC 2023

“这个世界不存在魔术,不存在一个大模型‘啪’得一瞬间把所有问题都解决了。”


(资料图)

7月6日至8日,2023世界人工智能大会在上海举办。6日下午,数库科技创始人兼总裁沈鑫在大会现场接受了《每日经济新闻》记者专访。

沈鑫 图片来源:企业供图

数库科技成立于2009年,是一家专注产融数字化的数据科技公司,主要在金融及产业领域提供基于产业逻辑的智能数据产品与系统服务,帮助金融机构、企业集团、政府部门解决业务场景中的数据和系统需求。

本次大会期间,数库科技将发布融合统一产品图谱体系与大模型的概念型产品“istari”。记者现场观察到,用户输入问题后,istari可以将需求转化成统一产品知识图谱(UPG)相关的查询,并呈现出相关的专业产业知识以及各个知识点之间的关系。

据沈鑫介绍,目前,istari主要通过大模型来做产业关系的推演。“以前我们只有单纯的上下游关系,今天大模型可以通过各种各样的资讯,来反推除了产业关系之外潜在的经营联系。”

在谈及通用大模型是否会取代行业大模型时,沈鑫表示,通用大模型如果真的做到垂直领域,经过很高级别的训练之后,可以做得很好。“但是问题在于,能够真正供大模型使用的高质量的数据是非常缺乏的……(做得好的)几家肯定不会把数据贡献给别人,所以(通用大模型取代行业大模型)其实是一个漫长的过程,没有大家想象得那么快。

以下是部分问答实录:

NBD:对于当今市场而言,产业链数据价值体现在哪里?

沈鑫:我们讲数据想要用好,必须要数数相连,要有连接逻辑,产业关系是唯一一个可以连接中国所有企业的关系。我跟你之间哪怕没有金钱往来,有了金钱往来那叫供应链,(但)直接和间接,两个企业之间一定会有产业的传导路径。

我们把产业数据网络搭起来以后,第一,它本身是个数据集,你可以看到企业上下游的情况,可以做企业定位,它可以单独当成一个数据集来用,同时它又是一个数据编制的核心逻辑,我们可以把宏观行业的信息、公司相关的信息、某一个产品的产能价格等定到产品节点上。

本来是孤岛式的数据现在有了逻辑,再去叠加模型的时候,你会发现它的判断就更加精准。所以我们主要是做数据融合和数据组装。通过各种各样的大数据线索把这些数据融合起来建模,得出一个决策的结论,让我们的客户能够在最佳的市场时机去切入这些企业,去授信也好,去服务也好,找到企业生命周期中最好的介入时间点。

图片来源:每经实习记者 黄海 摄

NBD:公司过去这十年中遇到最大的难点是在哪?

沈鑫:其实难点很多,为什么讲数据行业实际上门槛比较高,首先想做好数据融合,数据就要做到高度的结构化和标准化,这件事情就有点像石油冶炼一样,怎么把粗的、颗粒的数据变成更加结构化、更加精细的,我们叫“好料子”,这有个提炼的过程。

在过去的十多年,我们用很多的人工智能技术,通过工程化建设打造自己的数据工厂,这个数据工厂会把一些非标数据转换成高度结构化和标准化的数据。在开始的时候,机器生产数据肯定是不如人的,它需要很多年的积累,但今天它已经突破了边界,生产的精度已经超过人了。

我们相信的一点是,要用工业化的思维来经营一家企业,我们不能回到劳动密集型老路上去。

NBD:如何看待大模型的应用?

沈鑫:这个世界不存在魔术,不存在一个大模型“啪”得一瞬间把所有问题都解决了。它本身是一个效率工具,我们现在会把大模型的一些技术融入到数据生产端,进一步去提升生产效率。这个实际上是我们看待大模型的一个点,就是不要为了技术而技术。

NBD:如何看待通用大模型和行业大模型之间的应用场景冲突?

沈鑫:如果通用大模型发展到极致的话,我觉得也就不存在什么行业大模型,但这是一个非常漫长的过程。

能够真正供大模型使用的高质量数据是非常缺乏的。你看我们行业里,能把金融相关数据标准做到很高的公司,可能掰手指头都数得出来,而这几家肯定不会把数据贡献给别人。所以它其实是一个漫长的过程,没有大家想象得那么快。

另外一个点,很多的场景是不需要用到大模型的。可能在咨询服务类的场景中大模型有很大的用场,但是在金融这种对数据要求很严谨的行业内,大模型实际是没有意义的,因为回馈是相对比较模糊的。

每日经济新闻