2023 年底,文生图、文生视频等各种模型并没有很好的评测标准。很多论文都还在使用比较传统的工具来进行自动化评测。
但是,这些指标并不能反应真实世界的用户对于这些生成模型的偏好。
而对于生成模型来说,生成结果的好坏,又恰恰非常容易被人们所看出来,比如图像是否扭曲、模糊,再比如视频是否不自然等。
那么,如何开发一个能够收集人类偏好并能直接评测各个多模态模型能力的榜单?
为了解决这个问题,加拿大滑铁卢大学博士生姜东甫和所在团队,提出一个由用户来打分的多模态生成模型的竞技场——GenAI Arena。
图 | 左起:姜东甫、max ku、tianle li(来源:姜东甫)
定下课题之后,本次论文的共同一作 Tianle Li 开始在 Chatbot Arena 的代码基础之上进行改进,并添加了对于多模态生成模型的支持。
由于 Chatbot Arena 只支持生成文字的大模型,因此需要针对模型和网站用户界面(UI,User Interface)做出修改。
比如,在 UI 上增加对于图片的支持、进行底层数据类型的修改、以及添加对于各种生成模型的支持等。
得益于之前该团队成员 Max Ku 的 ImagenHub 的成功,让姜东甫等人得以利用其中包装好的文生图与图片编辑模型的应用程序编程接口(API,Application Programming Interface),借此顺利地支持了一系列文生图模型的部署。
研究中,姜东甫主要负责提供网站部署的技术支持和榜单维护。
而由于之前他们自己的服务器没有提供网站部署的服务,出于服务器安全问题的考量,他们只能开放 https 端口。
后来,课题组使用 nginx 来进行端口转发,在购买服务器网址,并使用 certbot 生成 ssl 许可证之后,才终于支持了这一整套流程。
最终,他们在 2024 年 2 月发布了本次产品的第一个版本,并能支持文生图和图生图这两类任务。
再后来,本次产品在上线之后受到了一些关注,Hugging Face 的工作人员主动联系他们,表示愿意给他们提供图形处理器(GPU,graphics processing unit)支持。
姜东甫表示:“维护这样一个 Arena 需要很多 GPU 资源,一般来说一个模型就要单独占用一张 GPU 来进行部署。”
于是,为了适配 Hugging Face 所提供的 GPU 的使用特性,姜东甫和同事 Yuansheng Ni 开始针对代码进行彻底重构。
重构之后的代码,不仅能够保持之前所有的功能,并能顺利在 Hugging Face 的 Space 上进行部署。
同时,姜东甫的导师认为同样需要增加对于文生视频任务的支持。于是,该团队的 Max Ku 带领 Shizhuo Sun 和 RongQi Fan 开发了 VideoGenHub。
只用几行代码,VideoGenHub 就可以在本地完成一个文生视频模型的推理。
最终,他们在 2024 年 4 月发布了 GenAI-Arena 上的 text-to-video 板块。
日前,相关论文以《GenAI 竞技场:生成模型的开放式评估平台》(GenAI Arena: An Open Evaluation Platform for Generative Models)发表于 NeurIPS 2024 Dataset & Benchmark Track,论文可在 arXiv 上阅读 [1]。
图 | 相关论文(来源:arXiv)
据姜东甫介绍,这一成果受到了 Chatbot Arena 的启发。
如前所述,在 2023 年底启动本次项目的时候,对于大模型的评测来说,很多人批评采用传统基准只能测试出来准确率,并不能反应大模型在人类真实世界中的交互能力,也就是无法反应人类偏好。
而 Chatbot Arena 作为一个人人都可以参与的大模型竞技场,逐渐成为大模型评测的权威榜单。
对于该课题组来说,他们也希望自己研发的 GenAI-Arena,能在未来逐渐成为多模态生成模型的可靠榜单。
目前,GenAI-Arena 已能支持 14 个文生图模型、10 个图像编辑模型和 8 个文生图模型,并一共收集到 9000 多个人类偏好的投票。
这些投票结果经过处理之后,都将用于 GenAI Arena 榜单的计算。同时,在 GenAI-Arena 上收集的数据,能被用于多个不同的应用场景。
姜东甫展望称:“除了 GenAI-Arena 这样直接由人类进行投票进行评测的方法,能否开发出更快、更准确的指标,来对模型进行自动化评测?”
他和所在团队认为:目前的多模态语言模型已经具有这方面的潜力。
比如,可以通过使用 GPT-4o、LLaVA-Next、Mantis 等多模态模型,来进行文生图、文生视频的打分与评测。
基于此,该团队将自己收集的人类偏好投票,打包处理后变成了 GenAI-Bench,以用于衡量这些多模态语言模型的能力。
同时,GenAI-Bench 可以促进生成更好的自动化指标,在更加符合人类偏好的同时,还能更好地衡量生成式模型的能力。
另外,姜东甫所思考的另一个问题是:“能否利用所收集的偏好数据,来针对生成模型训练奖励模型?或者直接针对生成模型进行 DPO(Direct Preference Optimization,一种用于语言模型对齐的技术)?这样一来就能直接提升生成模型的能力。”
最近,领域内的一篇论文已经证明,这是一个非常有潜力的方向。
当然,姜东甫等人还需要收集更多的数据,只有达到类似 Chatbot Arena 那样的量级(百万的投票),才能达到更好的影响力。
参考资料:
1.https://arxiv.org/pdf/2406.04485
排版:何晨龙、刘雅坤
02/
03/
04/
05/