2024中国生成式AI大会上海站开幕！首日大模型峰会燃爆魔都

⋅ 2024-12-07 18:03:56 ⋅ 阅读 ⋅ 探索

作者| 智东西编辑部

智东西12月5日报道，今天，以“智能跃进创造无限”为主题的2024中国生成式AI大会（上海站）正式开幕，大会现场座无虚席。

大会为期两天，共有50+位嘉宾基于前瞻性视角为大家解构和把脉生成式AI的技术产品创新、商业落地解法、未来趋势走向与前沿研究焦点。

大会首日，由复旦大学计算机科学技术学院教授、上海市智能信息处理实验室副主任张奇领衔，17位嘉宾围绕通用大语言模型、多模态大模型、行业大模型、垂直大模型、智能体、具身智能、大模型对齐与安全、投资风向等前沿议题，分享了最新的研发与实践经验。

“大模型技术作为人工智能领域的重要分支，正在不断推动着产业的创新和转型。”上海市人工智能行业协会副秘书长徐琦在致辞中表示，“在此背景下，举办此次生成式AI大会，旨在进一步推动上海市生成式AI产业的发展，促进院校和研究机构的学术成果传播，同时，加强与长三角地区优秀企业和机构的联动交流，共同探索人工智能的未来发展之路。”

▲上海市人工智能行业协会副秘书长徐琦

徐琦指出，上海一直在AI领域扮演着引领者的角色。产业规模方面，上海规模以上AI企业已从2018年的183家增长到2023年的348家，产业规模从1340亿元增长到3808亿元，居全国前列。创新成果方面，目前上海已有46款大模型通过备案，多款通用人形机器人原型机发布。产业生态方面，上海加快打造创新载体，吸引企业集聚；持续优化算力基础设施布局，加大算力资源统筹供给；完善语料数据基础支撑体系。

面向未来，上海将牢牢把握通用人工智能发展机遇，与海内外企业、机构等紧密合作，持续推动人工智能创新发展，加快塑造高质量发展新动能、新优势。

作为智一科技倾力打造的产业峰会IP，2024中国生成式AI大会由智东西和智猩猩联合主办，此次会议超过3000人报名参会，现场座无虚席。中国生成式AI大会已在北京成功举办两届，此次是中国生成式AI大会首次登陆上海举办。

智一科技联合创始人、CEO龚伦常代表主办方为大会致辞：“七年前，我们的首届AI产业大会在上海成功举办，正式开启了我们在AI领域举办产业峰会的征程。7年后，我们的生成式AI大会再次回到上海。”他提到与生成式AI大会北京站相比，上海站大会从产业和技术两个维度，围绕模型、AI Infra、应用、技术四个方向对内容进行了升级。

▲智一科技联合创始人、CEO龚伦常

龚伦常还预告了今年以及明年多个重要会议——下月初，第四届全球自动驾驶峰会将在北京举办；2025年上海车展期间也将举办产业峰会；2025年，AI芯片、生成式AI等领域品牌峰会将持续举办。欢迎大家参会。

一、高端对话：大模型是百年一遇新生产力革命，热聊资本市场新风向

高端对话环节以“大模型时代，资本市场的新风向”为主题，由智一科技联合创始人、智车芯产媒矩阵总编辑张国仁主持，靖亚资本合伙人任晓东、BV百度风投执行董事温永腾、达晨财智晨云子基金合伙人朱翔就生成式AI投资策略、大模型市场格局、大模型商业化路径等话题分享观点。

张国仁谈道，从社会的发展来看，这一波生成式AI引领的科技发展是百年一遇的新生产力革命，无论是个人交互陪伴，还是生活、工作、学习都在发生一轮新变革。但不管风向如何改变，我们对AI新技术的发展仍保持美好向往。

▲智一科技联合创始人、智车芯产媒矩阵总编辑张国仁

靖亚资本合伙人任晓东认为，大模型产品分为公有云和私有化两类，公有云由于技术开源，大厂易实现导致初创公司机会极少；在私有化部署上，初创公司可以根据企业场景进行定制部署，大厂在这方面优势不明显。另外，在AI基础设施软件领域，创业公司如果选择开源则难有作为，难以和大厂进行竞争。

他还强调，在AI投资中，合规是第一原则，要符合国家政策法规以及与LP签订的协议，什么领域不能投资、什么应该披露等都予以遵守。

▲靖亚资本合伙人任晓东

BV百度风投执行董事温永腾说，BV自2021年起密集关注生成式AI创企，从最初到现在，一直认为生成式AI会重塑内容生产和分发方式，Diffusion的出现让他们在多模态领域找到了生数科技以及其他模态方向上的优秀公司。现在，AI Agent的发展使其开始思考对智能劳动力的投资。

Sequoia Capital（红杉资本美国）分析，去年全球生成式AI的商业化达30亿美金。产业中很难看到一个刚开始受关注一年的市场方向，在一年内就实现巨大的收入增长。因为大模型公司普遍都遵从强研发投入的运营模式，融资和商业化都是关键问题，尤其是B端商业化的进展还是需要时间和耐心。但他相信实现更大增长的这一天一定会来，只是时间问题。

▲BV百度风投执行董事温永腾

达晨财智晨云子基金合伙人朱翔谈道，国内大模型创企仍在追赶OpenAI的节奏，处于军备竞赛阶段，且部分公司因融资问题发展较慢。

生成式AI领域开始涌现与OpenAI不同的训练方向，如世界模型和具身智能。近期，李飞飞和谷歌DeepMind发布了新世界模型，新的Scaling Law通过合成数据推动更高效的模型生成，可以有效避免Scaling Law放缓的问题。

朱翔说，具身智能是AGI的关键载体，但面临高训练成本和硬件限制等挑战。他预测，具身智能量产前可能会经历2-3年的“瓶颈期”，期间部分公司将退出市场。

▲达晨财智晨云子基金合伙人朱翔

二、大模型的能力边界在哪？音视频能力进阶，创新架构涌现

在今日大会上，复旦大学计算机科学技术学院教授、上海市智能信息处理实验室副主任张奇深入解读了大语言模型的能力边界及发展思考，MiniMax副总裁刘华探讨了大模型今年大模型发展重点的变化，西湖大学助理教授张驰分享了全场景通用的单目深度估计大模型，北京大学（临港）大模型对齐执行中心主任、北京阿莱门科技有限公司CEO徐骅讨论了模型安全。

张奇认为，大模型发展迅速但目前仍处于“记忆阶段”。大模型训练有不同阶段，从知识压缩和表示学习、能力注入到生成式任务能力提升，训练只需要非常少的数据，完成某个领域知识问答仅需要60条训练数据，但“怎么加数据”是最难的问题。

▲复旦大学计算机科学技术学院教授、上海市智能信息处理实验室副主任张奇

他让大模型做了今年高考数学题后发现，大模型在数学运算中的计算过程和答案选择不一致。结果表明，模型虽能完成特定任务推理，但并非真正获得了与人相似的能力。

张奇总结大模型发展有两条路径：一是跟随OpenAI，以替代所有脑力劳动为目标；二是不追求替代通用任务，只完成特定事情。最关键的是落地场景选择和大模型能力边界判断。

对于今年大模型领域的变化，MiniMax副总裁刘华认为，与2022-2023年基础大模型在文本领域能力的飞速提升相比，2024年基础大模型能力的提升更全面，体现在了文本、语音、音乐、视频等多个领域。

他表示，目前多模态大模型已赋能我国的千行百业，转化为新质生产力。比如，MiniMax在国内服务了3万多家客户；公司的视频大模型受到180个国家AI创业者的喜爱，并在文化创意、电商直播等领域得到了成熟应用。

▲MiniMax副总裁刘华

他判断，多模态大模型仍处于快速发展阶段，尚未看到模型能力的上限。面向未来，MiniMax将继续快速迭代自研的多模态大模型，并聚焦于降低模型错误率、实现无限长的输入和输出、推动多模态更加自然融合这3个方面。

西湖大学助理教授张驰分享了全场景通用的单目深度估计大模型，在解决传统单目深度估计方式痛点方面的思考。传统单目深度估计方式依赖激光雷达等专业设备，数据采集难度大、成本高，导致数据少且分散。基于AI大模型，其可以更高效地利用大数据训练、视觉大模型先验和训练优化范式，从而追求全场景泛化。

▲西湖大学助理教授张驰

同时，他提到Zero-shot单目深度估计方式胜在灵活易搭载，可应用于机器人、自动驾驶、AI文生3D、AI图生3D等领域。

西湖心辰CEO、西湖大学深度学习实验室成果转化负责人醒辰介绍了西湖心辰在AI情感理解与多模态长程对话领域的探索与成果。他们团队自创立以来便致力于研发超拟人的情商型大模型，以适配各种涉及复杂情感的人机互动场景。旗下自研的多模态通用基座大模型“西湖大模型”采用深度对齐技术与多模态情感识别技术，增强了AI的情感识别与需求理解能力，让人机长程对话成为现实。

▲西湖心辰CEO、西湖大学深度学习实验室成果转化负责人醒辰

今年该公司推出的国内首个端到端通用语音大模型心辰Lingo，补足了语音交互能力，让AI更像人、懂人心、说人话。这些“超拟人”技术已被应用于心辰旗下的AI心理咨询陪伴产品“聊会小天”。

大模型创新技术的演进也在加速。RockAI CTO杨华分享了非Transformer架构大模型Yan在端侧的实践。Transformer架构虽在大模型领域取得巨大成功，但人们也开始思考是否过度依赖它以及现有大模型形态的可持续性。

▲RockAI CTO杨华

Yan架构包含类脑激活机制和MCSD，前者参照人脑神经网络，后者在训练时可充分利用GPU计算能力，降低功耗。基于此架构的多模态大模型在手机、电脑、机器人、无人机、树莓派等端侧设备上均可部署，且模型具有强大的指令跟随能力、多应用场景。自主学习、群体智能也是RockAI在大模型领域的思考和探索。

AI应用的安全至关重要。北京大学（临港）大模型对齐执行中心主任、北京阿莱门科技有限公司CEO徐骅分析了大模型安全与实用性的矛盾，分享了多模态对齐的探索。

▲北京大学（临港）大模型对齐执行中心主任、北京阿莱门科技有限公司CEO徐骅

徐骅谈道，过度追求安全可能牺牲实用性。为此，他提出了价值对齐方案，设定“3H原则”（Helpful、Honest、Harmless）为目标，确保模型符合人类价值观。他强调，Aligner对齐器方案在多模态场景中平衡安全与实用性，下一步将聚焦提升模型在医疗、教育等领域的适配能力，突破人类专家上限，推动AGI发展。

三、AI落地拐点时刻，智能体、3D生成、具身智能成焦点

大模型的落地应用是2024年的热点话题，具身智能、3D生成、AI智能体、音乐生成等创新玩法层出不穷。

1、AI Agent已实现具体算法落地，商务场景应用价值凸显

AI Agent的多模态感知、记忆增强和推理能力正逐步提升，联汇科技CEO兼首席科学家赵天成谈道，行业正在从“LLM-First”转向更加符合人类认知的“Agent-First”架构。通过新算法，AI Agent能够在视觉信息不清晰时动态放大画面并进行信息分析，从而提升多模态感知能力，使7b模型推理精度可以超越gpt-4o大模型，达到接近人类基准的水平。

▲联汇科技CEO兼首席科学家赵天成

在推理、记忆和感知三个核心场景中，AI Agent已经实现了具体的算法落地。联汇科技推出了全面开源的Agent框架，通过构建标准化的基本框架支持AI Agent持续优化。

WeMeet荟神基于大模型构建了多智能体商务互联平台，WeMeet荟神创始人顾学斌提到AI在商务场景应用具有多方面重要价值。

▲WeMeet荟神创始人顾学斌

例如为商务人士配备的AI助理；在不同语言环境下为商务活动提供支持帮助人们跨越语言障碍进行交流；解决商机生成的问题，让潜在买家和产业卖家之间的联系更加紧密；还可以快速生成会议应用等。最后，他还强调了安全问题，要做好生成式AI服务备案，确保商务场景下AI应用稳定、可靠地发展。

2、端到端具身多模态大模型，瞄准机器人泛化

银河通用机器人联创合伙人、大模型负责人，北京智源人工智能研究院具身智能PI张直政博士谈道，具身智能从模型到产品再到新质生产力，仅关注“任务自动化”还不够，银河通用正在追求的是“流程自动化”。而实现这一点的关键在于利用大规模仿真合成数据驱动机器人从底层向上实现环境感知与动作技能学习能力的突破。从将3D小模型与动作大模型结合的大模型系统到端到端具身多模态大模型，银河通用全面布局，重点提升机器人在真实场景中的泛化工作能力。

▲银河通用机器人联创合伙人、大模型负责人，北京智源人工智能研究院具身智能PI张直政博士

谈及未来，他认为具身智能的发展方向是“机器人大脑、小脑与硬件本体”协同进化，重点关注其在“流程自动化”中的泛化性突破，从而推动机器人在推理与执行任务中更加高效、智能地完成更复杂的移动操作任务。

3、3D、音乐生成到达爆发节点，展现多场景商业化应用潜力

在3D生成方面，VAST CTO梁鼎分析了在大模型加持下，3D AIGC的发展与应用。在他看来，3D和其他多模态大模型发展历程类似，都会经历从技术积累到某个时间点爆发的过程，3D目前已经到了爆发节点。

▲VAST CTO梁鼎

他认为3D AIGC在多个场景都能进行商业化应用，如在传统游戏影视动画中实现降本增效及带来新玩法；工业中能实现3D打印定制化生产；社交直播电商等元宇宙领域也可应用，还能用于定制玩具及与教育结合。

2024年是AIGC音乐爆发元年，趣丸科技副总裁贾朔认为，人工智能的创新发展大大降低了音乐创作门槛，国产AI音乐的歌声自然度更是突破人耳识别阈值，效果比肩美国头部模型。他分享了人与音乐的AI交互形式的变化，从文生音乐，到三键成曲，再到哼唱成曲。今年6月份，天谱乐全球首发多模态音乐生成模型，支持视频成曲和图片成曲功能，一键根据用户视频或图片生成一首完整的音乐。