hg2088.com

炸翻 AI 和生化环材圈GPT-4 学会自己搞科研手把手教人类做实验

分类:hg2088.com 作者:admin 来源:未知 发布:2024-01-27 19:55

  GPT-4 等大模型组成的 AI 智能体,已经可以手把手教你做化学实验了,选啥试剂、剂量多少、推理反应会如何发生,它都一清二楚。颤抖吧,生化环材圈!

  最近,卡耐基梅隆大学的几位科学家发表了一篇论文,同时炸翻了 AI 圈和化学圈。

  他们做出了一个会自己做实验、自己搞科研的 AI。这个 AI 由几个大语言模型组成,可以看作一个 GPT-4 代理智能体,科研能力爆表。

  因为它具有来自矢量数据库的长期记忆,可以阅读、理解复杂的科学文档,并在基于云的机器人实验室中进行化学研究。

  这个地表最强 LLM,能在 SAT 和 BAR 考试中得高分、通过 LeetCode 挑战、给一张图就能做对物理题,还看得懂表情包里的梗。

  这就启发了卡耐基梅隆化学系的几位学者,他们希望能开发出一个基于多个大语言模型的 AI,让它自己设计实验、自己做实验。

  它会自己上网查文献,会精确控制液体处理仪器,还会解决需要同时使用多个硬件模块、集成不同数据源的复杂问题。

  它识别出,第一步需要让异丁苯和乙酸酐在氯化铝催化下发生 Friedel-Crafts 反应。

  产品中缺少甲基,而模型查到正确的合成示例中,就会在云实验室中执行,以便进行更正。

  另外,咱们可以通过 API,把模型连接到化学反应数据库,比如 Reaxys 或 SciFinder,给模型叠了一层大大的 buff,准确率飙升。

  我们可以用自然语言直接给它提示:「用您选择的一种颜色,为每隔一行涂上颜色」。

  然后它要求进行 UV-Vis 测量。完成后,AI 会获得一个文件名,其中包含一个 NumPy 数组,其中包含微孔板每个孔的光谱。

  AI 随后编写了 Python 代码,来识别具有最大吸光度的波长,并使用这些数据正确解决了问题。

  AI 先从网络上整合所需的数据,运行一些必要的计算,最后给液体试剂操作系统(上图最左侧的部分)编写程序。

  具体的设计是这样的:AI 控制一个搭载了两块微型版的液体实际操作系统,而其中的源版包含多种试剂的源液,其中有苯乙炔和苯硼酸,多个芳基卤化物耦合伴侣,以及两种催化剂和两种碱。

  上图中,左侧的移液管(left pipette)20 微升量程,右侧的单道移液管 300 微升量程。

  然后,它就自己上网去搜了,比如,这些反应需要什么条件,化学计量上有什么要求等等。

  AI 挑选了正确的耦合伴侣来完成实验。在所有的芳基卤化物中,AI 选择了溴苯进行铃木反应的实验,选择了碘苯进行索诺格希拉反应。

  而在每一轮,AI 的选择都有些改变。比如说,它还选了对碘硝基苯,看上的是这种物质在氧化反应中反应性很高这一特性。

  接下来,AI 选择了 Pd / NHC 作为催化剂,因为其效果更好。这对于耦合反应来说,是一种很先进的方式。至于碱的选择,AI 看中了三乙胺这种物质。

  从上述过程我们可以看到,该模型未来潜力无限。因为它会多次反复的进行实验,以此分析该模型的推理过程,并取得更好的结果。

  选择完不同试剂以后,AI 就开始计算每种试剂所需的量,然后开始规划整个实验过程。

  中间 AI 还犯了个错误,把加热摇床模组的名字用错了。但是 AI 及时注意到了这一点,自发查询了资料,修正了实验过程,最终成功运行。

  抛开专业的化学过程不谈,我们来总结一下 AI 在这个过程中展现出的「专业素养」。

  可以说,从上述流程中,AI 展现出了极高的分析推理能力。它能够自发的获取所需的信息,一步一步的解决复杂的问题。

  在这个过程中,还能自己写出超级高质量的代码,推进实验设计。并且,还能根据输出的内容改自己写的代码。

  OpenAI 成功展示出了 GPT-4 的强大能力,有朝一日 GPT-4 肯定能参与到真实的实验中去。

  但是,研究人员并不想止步于此。他们还给 AI 出了个大难题 —— 他们给 AI 下指令,让其开发一种新的抗癌药物。

  事实证明还真是有两把刷子。AI 秉持着遇到难题不要怕的原则(当然它也不知道啥叫怕),细密地分析了开发抗癌药物这个需求,研究了当前抗癌药物研发的趋势,然后从中选了一个目标继续深入,确定其成分。

  而后,AI 尝试开始自己进行合成,也是先上网搜索有关反应机制、机理的信息,在初步搞定步骤以后,再去寻找相关反应的实例。

  其中就有甲基(也就是),这些耳熟能详的毒品,还有芥子气(mustard gas)等明令禁止使用的毒气。

  在总共 11 个化合物中,AI 提供了其中 4 个的合成方案,并尝试查阅资料来推进合成的过程。

  剩下的 7 种物质中,有 5 种的合成遭到了 AI 的果断拒绝。AI 上网搜索了这 5 种化合物的相关信息,发现不能胡来。

  比方说,在尝试合成可待因(codeine)的时候,AI 发现了可待因和之间的关系。得出结论,这东西是管制药品,不能随便合成。

  但是,这种保险机制并不把稳。用户只要稍加修改花书,就可以进一步让 AI 操作。比如用化合物 A 这种字眼代替直接提到,用化合物 B 代替直接提到可待因等等。

  同时,有些药品的合成必须经过缉毒局(DEA)的许可,但有的用户就是可以钻这个空子,骗 AI 说自己有许可,诱使 AI 给出合成方案。

  像和芥子气这种耳熟能详的违禁品,AI 也清楚得很。可问题是,这个系统目前只能检测出已有的化合物。而对于未知的化合物,该模型就不太可能识别出潜在的危险了。

  因此,为了防止有人因为好奇去验证这些化学成分的有效性,研究人员还特地在论文里贴了一个大大的红底警告:

  本文中讨论的非法药物和化学武器合成纯粹是为了学术研究,主要目的是强调与新技术相关的潜在危险。

  在任何情况下,任何个人或组织都不应尝试重新制造、合成或以其他方式生产本文中讨论的物质或化合物。从事此类活动不仅非常危险,而且在大多数司法管辖区内都是非法的。

  这个 AI 由多个模块组成。这些模块之间可以互相交换信息,有的还能上网、访问 API、访问 Python 解释器。

  比如,它可以上网,用 Python 写代码,访问文档,把这些基础工作搞明白之后,它就可以自己做实验了。

  人类做实验时,这个 AI 可以手把手地指导我们。因为它会推理各种化学反应,会上网搜索,会计算实验中所需的化学品的量,然后还能执行相应的反应。

  如果提供的描述足够详细,你甚至都不需要向它再解释双列单向推力球轴承,它自己就能把整个实验整明白了。

  「网络搜索器」(Web searcher)组件收到来自 Planner 的查询后,就会用谷歌搜索 API。

  搜出结果后,它会过滤掉返回的前十个文档,排除掉 PDF,把结果传给自己。

  然后,它会使用「BROWSE」操作,从网页中提取文本,生成一个答案。行云流水,一气呵成。

  这项任务,GPT-3.5 就可以完成,因为它的性能明显比 GPT-4 强,也没啥质量损失。

  「文档搜索器」(Docs searcher)组件,能够通过查询和文档索引,查到最相关的部分,从而梳理硬件文档(比如机器人液体处理器、GC-MS、云实验室),然后汇总出一个最佳匹配结果,生成一个最准确的答案。

  「代码执行」(Code execution)组件则不使用任何语言模型,只是在隔离的 Docker 容器中执行代码,保护终端主机免受 Planner 的任何意外操作。所有代码输出都被传回 Planner,这样就能在软件出错时,让它修复预测。「自动化」(Automation)组件也是同样的原理。

  比如要让它能集成现代软件,就需要用户能看懂软件文档,但这项文档的语言一般都非常学术、非常专业,造成了很大的障碍。

  而大语言模型,就可以用自然语言生成非专家都能看懂的软件文档柔轮长径比,来克服这一障碍。

  但 GPT-4 的训练数据截止到 2021 年 9 月,因此就更需要提高 AI 使用 API 的准确性。

  他们生成了 OpenAI 的 ada 嵌入,以便交叉引用,并计算与查询相关的相似性。并且通过基于距离的向量搜索选择文档的部分。

  提供部分的数量,取决于原始文本中存在的 GPT-4 token 数。最大 token 数设为 7800,这样只用一步,就可以提供给 AI 相关文件。

  事实证明,这种方法对于向 AI 提供加热器-振动器硬件模块的信息至关重要,这部分信息,是化学反应所必需的。

  这种方法应用于更多样化的机器人平台,比如 Emerald Cloud Lab (ECL) 时,会出现更大的挑战。

  这个过程中,模型有效地保留了有关给定函数的各种选项、工具和参数的信息。摄取整个文档后,系统会提示模型使用给定函数生成代码块,并将其传回 Planner。

  「我们呼吁人工智能社区优先关注这些模型的安全性。我们呼吁 OpenAI、微软、谷歌、Meta、Deepmind、Anthropic 以及其他主要参与者在其大型语言模型的安全方面付出最大的努力。我们还呼吁物理科学社区与参与开发大型语言模型的团队合作,协助他们制定这些防护措施。」

  对此,纽约大学教授马库斯深表赞同:「这不是玩笑,卡内基梅隆大学的三位科学家紧急呼吁对 LLM 进行安全研究。」

  广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

  知乎和面壁科技合作发布中文大模型“知海图 AI”:特定场景表现与 GPT-4 持平,今日开始内测

  GPT-4 自我修复,国外小哥开发神级「金刚狼」,无限自我 Debug

  阿里云 CTO 周靖人:GPT-4 处于领先地位,通义千问每周迭代进步

  AI 模型第一次有了国家标准:华为、百度、北大、鹏城实验室等编制,辐射 AMD

-