一家SaaS全球独角兽的大模型进阶之路

Eureka Blog

曾拿下国内SaaS细分赛道最大单笔融资。

作为国内科创与知产信息服务的头部企业,「智慧芽」上一次“破圈”,是在2021年。

这一年,智慧芽完成3亿美元的E轮融资,由腾讯和软银领投,一举拿下近年来国内SaaS细分赛道最大的一笔融资额,此后顺势跻身全球独角兽阵营。

一时间,这家坐落于苏州人工智能产业园的企业,不仅仅在 SaaS圈备受关注,更成为投资圈里的新晋明星。

当时有投资人评价智慧芽道,是科技创新知识产权界的“彭博”。

两年后,ChatGPT横空出世。在AIGC和大模型的风口下,AI犹如一束光,照进SaaS行业,也加速催化了智慧芽与AIGC的结合之路。

当大模型的时代东风吹来,这家全球独角兽企业行至何处?

前不久,智慧芽面向研发创新和知识产权领域的AI助手“芽仔”正式露面,这是一款生长于智慧芽两款垂直领域大模型的AI助手。

此番上线,不仅仅意味着智慧芽在专业领域与大模型结合的路上没掉队,更是一次将SaaS从工具变为专业助手的尝试之举。

1.搭建垂域大模型标准:

看数据积累和客户构成

2022年11月,ChatGPT横空出世后,大模型等AI技术以日新月异的迭代速度不断重塑着每个人对科技的想象力。

作为国内知产信息服务领域的头部企业,智慧芽也不甘示弱,迅速调整公司战略:All in AI

在当下这一时间点,类似的战略调整,已经成为多家SaaS企业心照不宣的默契。

对于智慧芽来说,这并不是一场无中生有的激情开麦,而是对沉淀多年的专利等垂直领域数据富矿的又一次激活。

早在这波大模型浪潮之前,利用机器学习和深度学习神经网络方式,智慧芽在自有的几十个“小模型”上已经初具积累。

2007年,智慧芽正式成立。成立之初,智慧芽专注于专利数据场景,对标的是一家经营了四十年多年、从事全球数据分析服务的美国公司——Clarivate。

这家老牌公司为了获得更为全面和准确的专利信息,多年以来持续在全球雇佣600-700位员工,其中不乏名校博士生,他们每天上班的工作就是负责对照文献、加工、标注处理。

相比之下,智慧芽诞生之初,就通过机器学习和人工智能的算法,将信息处理过程自动化,仅仅几十人团队就能高效处理清洗海量的专利文件和数据。

这对于当时的专利数据服务行业,无异于一次颠覆。

“我们从不吝惜在技术和AI上的投入。”智慧芽技术副总裁屠昶旸表示。屠昶旸拥有20多年高科技、互联网行业从业经验,曾在思科、网迅等公司任职。

(图注:智慧芽技术副总裁屠昶旸)

2019年,在GPT-2刚出来不久,屠昶旸就曾带领团队率先试过基于Transformer架构的语言生成模型,用来处理一些下游任务数据平台。

当时的GPT-2共包含 15 亿参数,在一个 800 万网页数据集上训练而成。

虽然比较早尝试过Transformer这种架构,但却并没有取得预想的效果。“坦率的讲,当时的效果没有达到预期,还比不上BERT模型”。

直到 GPT-3横空出世,大家才意识到,当把容量扩大到 1000 多亿参数的时候,基于大算力的暴力美学能爆发出一些 Magic的事情。

屠昶旸自嘲道,可能是当时我们缺乏技术眼光。说实话,还有成本的考虑。

去年是一个重要的转折点。

智慧芽集中资源投入大模型的研发,基于开源技术,融合自身的AI和算法能力,推演出多个垂直领域的大模型,其中最成熟的是专利大模型和生物医药大模型。

为何率先选择在这两大场景进行落地?

屠昶旸对此解释道,“搭建垂直领域的大模型,高质量的数据是第一位的。实话说,各家在算法和算力上,差距不大。因为我们在专利领域和生物医药领域已经积累了大量的专业数据,以及垂直领域的Know-How,所以才有能力来做这件事。”

从模型训练效果来看,专利大模型(500亿参数)和生物医药大模型(近700亿参数),领域知识均达到行业专家水平。

其中,专利大模型已经达到了可以通过中国专利代理师资格考试的水平;生物医药大模型达到了通过中国执业药师职业资格考试、美国注册药剂师考试(NAPLEX)的水平。

在MMLU、C-Eval,Patent-Bench等综合测评结果显示,智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。

(图:智慧芽垂直领域大模型与其他大模型考试成绩对比)

对于当前参数规模的选择,屠昶旸称是在成本和规模之间找到一个平衡点。

目前,业内已经达成共识,一味的堆参数没有意义。大模型所输出内容的准确性,其实绝大部分取决于其底层数据的质量。

而在拥有高质量的数据上,智慧芽早已构建起自己的“护城河”。

成立至今,智慧芽已拥有千亿级token的预训练数据,包含了十余年积累和深加工的全球170个受理局的超过1.8亿专利、超过1.6亿篇论文、超过2100万则新闻、超过8.6亿个生物序列、超过2.5亿个化学结构、超过4万种靶点、超过8万种药物数据等。

另外,在智慧芽垂直领域独特的数据配方构成上,还加入了7000余本专业书籍、丰富的行业常识等内容。

对于垂直领域大模型来说,除了拥有高质量的数据外,还需要深入理解行业的特定术语、概念以及流程,选择和优化最适合该行业特性的技术和算法,这种深度的专业性是区分一般模型与高效、精准的垂直领域大模型的关键。

今年2月,“智慧芽文本生成大模型算法”已成功通过国家互联网信息办公室第四批境内深度合成服务算法备案,具备了正式向用户开放的资质。

同时,面向材料、通信等领域的大模型正在训练中。

2.搭建大模型之后:持续迭代

一款大模型搭建完成,并不意味着一切画上句号。

面对行业内每天都会涌现出的大量专业信息,如何让大模型越来越聪明,越来越专业,屠昶旸认为持续迭代很重要。

他提到,对于通用大模型来说,很擅长Long Context(长文本)的关系提取。

在to C 场景中,用户出于娱乐和尝鲜的心理,容错度比较高,对于能达到85%准确率的关系提取已经很满意了。

但是真正落到专业领域是不够的。85%的准确率和100%之间的差距,其实是0和1的区别。

例如,对不同药物之间作用关系或者不同新能源材料之间关系的抽取,大模型是可以做到抽取。但是再进一步来看,具体到分子层面,通用大模型由于缺少专业领域知识,很难做到精确呈现,自然也很难用于真正提升工作效率。

如何训练自有垂域大模型成为真正的“行家”,屠昶旸提到专家反馈的加强训练系统。

这是一个由智慧芽40多位领域专家参与的训练系统,他们会深度介入整个大模型的预标注、预抽取过程,之后通过抽样,校验后的标注数据再次进入模型,不断迭代。通过多次迭代,模型会被训练的越来越聪明。

目前智慧芽的两个大模型的精确率,已经从原来的80%左右,现在逐步提高到 90% 左右。

大模型时代,如果把智慧芽比作一个科创信息的“挖矿者”,那整个工作过程大致可被简化为用AI解析数据、在数据节点中发掘科创动向、创新空白点和“价值洼地”。

屠昶旸在想,如何把智慧芽的产品完成从「工具阶段」向「助手阶段」的跃迁。

以专利数据库为例,此前市面上大部分专利数据库产品本质上还是专利领域的搜索引擎。用户搜索相应关键词后,返回的是大量的技术文档。

用户需要自行评估每篇文献的价值,理解每篇文献的主要内容,提炼信息点。

能不能让用户查询专利、技术、企业数据的过程,不再局限于关键词,而是可以用一段自然语言的方式,来表述自己的需求?

也就是说,系统可以从用户的描述中完整的理解其需求,并将需求“解构”成对应的指令。

例如当用户想了解ChatGPT背后的技术,不需要通过输入晦涩的专有名词进行检索,而是直接发出指令:

“我要想了解ChatGPT背后的技术,尤其是大规模预训练模型的技术。帮我查一查相关的技术专利和论文。依据技术的不同对结果进行分类,每项核心技术返回我10项影响力最大的专利和论文。分析一下这些技术专利都来自于哪些公司和机构。其中,中国公司又有多少技术专利和有影响力的论文。”

这样一段指令中,如果被细细拆解来看,涉及到的单个小问题不下7个。用户可以像与专业的研发助手交流一样,系统可以从用户的描述中去“理解”真实的需求,而不是一个只能听懂只言片语的冰冷机器。

这便是近期智慧芽推出的AI助手“芽仔”扮演的角色。

(图:智慧芽AI助手“芽仔”的AI技术问答功能示意)

区别于能订票、写会议纪要、帮助美化PPT的通用类“助手们”,智慧芽所打造的AI助手聚焦于研发创新和知识产权领域,能重构研发情报挖掘、技术方案探索、研发成果保护等等研发创新环节,大幅提升研发效率。

以两款垂直领域大模型为基础底座,“芽仔”游走在智慧芽研发情报库、专利数据库、新药情报库等多个产品中。

3.从专利到研发:用AI撬动第二曲线

如果说,前十年智慧芽把“掘金专利”做到了极致,此后便朝着要做研发创新“助推器”的方向迈进。

知识产权信息作为一座金矿,在战略决策、情报线索方面都具有重要价值,这也成为智慧芽构建“第二条增长曲线”的基座。

(图注:智慧芽产品从专利/论文数据中提取技术信息)

2018年,智慧芽启动科创情报服务,打响进军研发市场的第一枪。

为此,智慧芽创始人兼CEO张济徽还特意写了一篇内部信,以示公司业务线向研发创新领域拓展的决心。其中在研发场景选择上,生物医药成为智慧芽坚定押注的方向。

在信中,张济徽补充道,中国的生物医药数据情报市场还在春秋时期,连战国时期都未开启,这个市场太大了,公司会持续投入在生物医药数据情报市场。

“200人研发团队,50位AI工程师,这是我们的基础投入和起点。”

前所未有的投入力度,带来的结果也显而易见。

此后五年里,智慧芽的生物序列数据库BIO、化学结构数据库Chemical以及新药情报库Synapse三大产品线陆续面世,构建起了智慧芽面向生物医药场景的多样化服务能力。

如今,智慧芽有20%以上的客户来自生物医药领域,服务超1200家生物医药公司。

2023年,国内迎来了国产创新药“出海元年”。这一年,国内药企不仅出海案例不断增加,还屡次刷新了国内首付款纪录。

这对于有20%以上的客户来自生物医药领域,服务超1200家生物医药公司的智慧芽来说,是一次产品检验。

在助力国产创新药出海,智慧芽主要对接生物医药公司的两个部门:一个是立项部门,一个是 BD 部门。

众所周知,在一款新药启动之初,需要立项。用户在智慧芽的新药情报库中可以看到某一个赛道、靶点在管线上的布局进展,同类公司的竞争格局,从而指导立项部门;当新药进入临床试验阶段,智慧芽的产品也能帮助BD部门做决策,选定更好的合作方。

除了在生物医药领域,智慧芽还在同步完善通信、新材料等领域的知识图谱。

信息服务行业,本就是一场马拉松。作为一家已经长跑了17年的SaaS企业,智慧芽在“为客户的创新研发提质增效”这一问题上,不断尝试。

当同「甲子苏州」谈及SaaS服务商的市场机会这一问题时,屠昶旸认为要回归本质:要看SaaS企业提供的产品价值,有没有真正满足用户提高生产效率的诉求,毕竟这才是立身之本。

从宏观层面来看,业内普遍认为,当一个国家人均 GDP 要达到 35000 美金以上,利用SaaS工具来替代人力的需求才会旺盛起来。也许那时,属于中国的SaaS大年会真正到来。

从企业端来看,只有当企业意识到要切入整个产业链的高端领域后,利润率才会上去时,也许才会更愿意为创新研发类工具付费花钱。

“智慧芽的客户群主要是在研发上重投入的企业,企业规模普遍偏大。虽然有些公司从规模上来看比较小,但是只有重视研发,在未来才有希望成长为真正的大客户。”屠昶旸说道。

“所以说,智慧芽没有小客户”,他笑称。