目前,大众能实际接触感知到的AIGC世界可能源自很多真假难辨的照片,比如AI生成的世界杯中国男足夺冠的图片,以及2023年5月22日AI生成的美国五角大楼爆炸的假新闻图片,后者甚至导致道琼斯指数瞬跌0.26%。
当然也有比较严肃的AIGC应用。于海华介绍称,“OpenAI在2023年3月发表了一篇论文,他们运用GPT大语言模型这一AIGC中的核心技术参加了美国多种考试,GPT3.5版本已在多种考试中表现出色,而用了一年左右时间升级到的GPT4版本已能在美国AP微积分BC(理工类大学入学资格,偏重数学概念理解、公式方程运用、符号交流及推理)中超越40%的人类,在美国律师资格考试中更是超越了88%的人类。”
“OpenAI论证,GPT类大模型有潜力成为人类史上类似于‘印刷术、蒸汽机’这样的通用基础技术,触发科技、社会巨大变革。”于海华说。
除了考试,AI在艺术领域同样表现出色。比如Midjourney这一人工智能程序,该程序由美国Midjourney研究实验室(11名创始成员,自筹资金)开发,可根据文本生成图像,于2022年7月12日进入公开测试阶段。Midjourney的底层算法参考CLIP和Diffusion开发了自有闭源生成模型,前端搭载在Discord社交通讯平台开放给社区用户使用,用户能利用它生成各种各样有特色的艺术图片,而通过数据飞轮和快速迭代建立护城河,网传该应用已实现约2亿美元年收益。
Midjourney尚需要相对复杂的格式化提示词脚本,但2023年新上线的OpenAI DALL•E3则完全使用自然语言形成脚本,能生成细节充沛的图片。此外基于文本生成视频、基于文本及2D图片生成3D模型,并可全程通过自然语言人机对话调优生成内容的AIGC技术,在2023年如同雨后春笋般涌现 其他如真人语音克隆系统,只需上传几十秒的真人语音就能输出以假乱真的AI语音,还能保留上传者的口音和语气风格,不但支持文本情感色彩,还支持超过一百多种语言。
一些AIGC的前沿探索团队,开始尝试利用Stable Diffusion可视化人脑信号,日本一个研究团队用fMRI脑磁活动数据训练编解码器,进行去噪优化并生成可视化图像。
总之,AIGC已在众多非严肃的娱乐领域有了很多惊艳的表现,在严肃科研领域也正在展露锋芒,比如AlphaFold这一系统已可预测并生成几乎全部已知蛋白质的3D结构。
于海华表示,AIGC背后能使之发挥巨大作用的核心技术是“大模型”,目前国内外都在积极投入这方面的研发。