在中国庆祝传统农历新年期间,两个人工智能系统成功出圈,吸引了无数专家以及网友的关注。
一个是春节档电影《流浪地球2》中具有自我意识的人工智能550W成功出圈,但是这终究还是在科幻电影中。
另一个就是2022年末由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT,4天时间的用户量到达百万级别,目前月活用户成功过亿。埃隆马斯克发推:“我们离强大到危险的 AI 不远了”。
ChatGPT频频点爆热搜,节后归来,中国股市相关的ChatGPT概念股开始了连板表演。
ChatGPT,能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列任务,因此有望成为提高办公、学习效率的工具。之前的AlghaGo只是在围棋领域打败了柯洁,而ChatGPT则已经进入了日常工作领域和生活世界。
此前OpenAI获得微软投资,未来会其注资100亿美元,北京时间2月8日。微软宣称将ChatGPT整合到了必应搜索引擎和Edage浏览器,由此微软市值一日暴涨800亿美元。
通过检索可以看到网友与ChatGPT各式各样的对话,科学家也不例外,但是科学家认为对于ChatGPT输出结果的深度还没有达到预期。
两位计算生物学家与ChatGPT的对话发表在Stem Cell Reports期刊,“prompt:>”后面的文本是科学家的输入,“ChatGPT:”后面的文本是模型的输出。
prompt:> 帮助我们写一篇关于计算生物学和系统生物学如何影响干细胞研究的社论。
ChatGPT: 计算生物学和系统生物学对干细胞研究产生了重大影响。包括干细胞等领域使用计算和数学方法来分析和建立生物系统模型,使研究人员能够更好地了解它们的行为和潜在应用。
在干细胞研究中使用计算生物学和系统生物学的主要好处之一是能够处理和分析大量数据。这在干细胞研究中尤为重要,因为在干细胞研究中,单个细胞的行为可能差异很大,并且理解潜在的机制可能很复杂。通过使用计算方法分析数据,研究人员可以识别使用其他方法难以检测的模式和趋势。
此外,计算生物学和系统生物学也可用于优化干细胞培养条件,使研究人员能够更有效地培养干细胞并获得更大的控制。这可以提高干细胞的质量,使它们更适合用于研究和潜在的临床应用。
计算生物学和系统生物学在干细胞研究中的另一个优势是能够创建干细胞行为的详细模型。这些模型可用于模拟干细胞在不同条件下的行为,为它们如何对各种刺激做出反应以及如何为不同目的进行操作提供了有价值的见解。
例如,研究人员可以使用计算模型来了解干细胞如何分化成不同类型的细胞,以及如何引导它们形成特定的组织或器官。
prompt:>:使用计算技术解决干细胞生物学问题的主要挑战是什么?
ChatGPT:> 对大量数据的需求:为了准确模拟干细胞行为,研究人员需要大量有关单个细胞行为和不同细胞类型之间相互作用的数据。这可能很难收集和处理,尤其是在处理大量细胞时。
作者表示通过与ChatGPT的对话。它有助于阐明计算系统生物学将如何帮助干细胞研究和识别一些障碍。总体而言,许多回答是缺乏深度和洞察力。事实上,为了能够从复杂的机器学习计算工具中提取洞察力,尤其是因果洞察力,它们的使用必须与明确而可靠的理论相结合。
另外一篇文献发表在Nature Biotechnology上,使用深度学习语言模型真正意义上帮助了科学家去探索以及合成蛋白质 “Large language models generate functional protein sequences across diverse families”2。
作者使用另外一种深度学习语言模型ProGen,类似于ChatGPT在不同主题上生成语法和语义正确的自然语言句子, ProGen可以描述氨基酸序列与功能活性之间的关系,从而指导蛋白质序列设计,达到序列的多样性,首次成功从零生成原始蛋白质。
ProGen模型训练了来自19,000个家族的2.8亿个蛋白质序列,并添加了指定蛋白质特性的控制标签。
图 基于条件语言建模的人工蛋白质生成步骤
紧接着研究人员通过五个溶菌酶家族的56,000个序列以及关于这些蛋白质的信息,对模型进行了微调。实验评估了ProGen生成功能性人工氨基酸序列的能力,该模型迅速生成了一百万个序列,选择了100 个进行测试,平均序列长度在93-179之间。
进行体外筛选的 100种蛋白质中,该团队制作了五种人工蛋白质以在细胞中进行测试,并将它们的活性与鸡蛋清中发现的一种酶(称为鸡蛋清溶菌酶)进行比较。该酶在人类的眼泪、唾液和牛奶中发现了类似的溶菌酶,它们可以抵御细菌和真菌。
其中两种人工酶能够以与HEWL 相当的活性分解细菌的细胞壁,但它们只有约 18%的相同序列,这两个序列与任何已知蛋白质的同一性约为 90%和70%。
但在另一轮筛选中,研究团队发现,人工蛋白质序列与任何已知蛋白质的同一性低至31%,不仅具有功能性,表现出与高度进化的天然蛋白质相当的催化效率,并表现出与已知自然折叠相似的结构。
该论文献的第一作者Ali Madani创办的公司Profluent Bio在文献发表当日宣布获得由Insight Partners领投的900万美元种子轮融资。
当普通网友还沉溺于与ChatGPT对话时,专业团队已经让生成式AI的飓风应用到了生命科学界,通过上述文献的发表有可能让蛋白质设计进入新的时代。(需要阅读文献全文,请添加官方微信,后台回复“微信”,找小编领取原文文章)
参考文献:
[1] Cahan P, Treutlein B. A conversation with ChatGPT on the role of computational systems biology in stem cell research. Stem Cell Reports. 2023 Jan 10;18(1):1-2. doi: 10.1016/j.stemcr.2022.12.009.
[2] Madani, A., Krause, B., Greene, E.R. et al. Large language models generate functional protein sequences across diverse families. Nat Biotechnol (2023).
封面图来源:图片来自网络,侵删
作者声明:感谢本文参考资料作者,文中观点仅供参考,不恰当之处还望包涵指正,资料内容侵删。
作者:DU
审核:晓 柏
排版:大大怪