近日,安徽合肥官方对外披露对合肥三只羊网络科技有限公司(简称“三只羊”)直播带货中存在问题的调查结果,以及对“三只羊”录音门事件的调查结果。
合肥市公安局高新分局发布警情通报称,2024年9月20日,该局接三只羊公司报警称,网上传播涉卢某某的音视频不实,严重侵害其合法权益。
在市局刑警支队指导下,经过侦查,9月22日晚,合肥市公安局高新分局将犯罪嫌疑人王某某(男,25岁)抓获,并在其电脑、手机和制作AI音频的网站中发现伪造相关音视频的证据;结合其供述、调查取证,并经部、省专业机构检验鉴定,认定报案所涉网传音视频系伪造。
伴随AI技术的发展,音频、视频等内容领域均发生过AI伪造事件,除了此次“三只羊”录音门,此前韩国发生“韩国N号房2.0”事件,通过Deepfake换脸合成色情照片和视频,并在通信软件上私密传播。在瑞莱智慧算法科学家陈鹏看来,AI技术的发展使AI换脸,包括多媒体编辑技术发展到普通人唾手可得的地步。但通过法律法规监管、平台内容治理、产业界提供技术和工具等多方综合治理,对风险情况将会有所缓和。
官方确认“三只羊”录音门系AI伪造
此前抖音头部主播小杨哥(张庆杨)与“三只羊”公司因直播间产品问题引发争议,网络端传出一段“三只羊”公司高管卢文庆的录音内容,事涉多位“三只羊”高层及头部主播。随后“三只羊”方面表示录音为AI合成伪造,已报警。
据合肥市公安局高新分局发布警情通报,2024年9月20日,该局接三只羊公司报警称,网上传播涉卢某某的音视频不实,严重侵害其合法权益。在市局刑警支队指导下,经过侦查,9月22日晚,合肥市公安局高新分局将犯罪嫌疑人王某某(男,25岁)抓获,认定报案所涉网传音视频系伪造。
现已查明,9月16日,王某某利用从互联网下载的音视频资料,杜撰卢某某酒后言论脚本,先使用AI工具训练生成假冒卢某某的音频(其中出现的女声也系AI工具训练生成),后用视频软件合成音视频,并通过网络发布,形成谣言大量传播。目前,王某某已被依法采取刑事强制措施,案件正在进一步侦办中。
9月27日,深圳市言域科技有限公司发布声明,确认9月16日传播的音视频资料中音频部分为嫌疑人使用其自主研发的Reecho睿声AI配音大模型平台克隆而成。该音频源自卢某(“三只羊”公司高管)的直播片段。公司已启动内部审核机制,强化用户身份认证和音频生成的安全管控,以确保技术的合法合规应用。
天眼查信息显示,深圳市言域科技有限公司成立于2023年,位于广东省深圳市,注册资本100万人民币,由法定代表人谢伟铎持股92%,暂未对外披露投融资信息。2024年9月4日,言域科技发布首条微博,称“我们是Reecho睿声,一个超拟真语音合成与瞬时克隆平台”。目前公司官微粉丝量25人。
言域科技官网信息显示,Reecho目前支持中文以及英文,用户可以自由混合使用这两种语言来进行声音克隆与合成。预计将在下个版本新增支持日语,且可能新增支持韩语。该模型由自研文生语音大模型驱动,预先经过百万小时级的大量音频数据训练,拥有了零样本模仿能力,仅需3-30秒参考音频即可在多数情况下模仿并合成音频结果。针对需求量较少的情况已提供公用API端点,仅需购买任意点数包即可接入使用。
AI伪造事件频发
行业内,AI伪造音视频事件早已发生多起。
2024年年初,一家跨国公司香港分公司员工参加了一次视频会议,与会者都是经过AI 换脸与AI 换声的诈骗分子,最终公司被骗走2500万美元。今年年中,韩国出现多起利用AI换脸伪造女性色情露骨图像的犯罪案,犯罪者用深度伪造技术(Deepfake)合成色情照片和视频,并在通信软件Telegram的群聊中传播,参与者多达22万人。
韩国当地媒体报道,首尔大学毕业生朴某和姜某,从2021年7月至2024年4月的3年多里,盗用女性同学、熟人的照片,用深度伪造技术换脸合成色情制品,在Telegram上建立了近200个网络聊天室进行传播,警方称,朴某共参与制作、传播约1700份非法照片和视频,受害女性多达61人。
今年6月,“男子用AI伪造学生同事近7000张裸照”冲上微博热搜。据央视新闻消息,犯罪嫌疑人白某某是一家国内互联网公司的技术员,通过AI“一键去衣”技术,深度伪造淫秽图片近7000张,每张1.5元卖出,赚取近一万元。图片涉及女性人数多,包括学生、教师、同事。目前白某某已被提起公诉。
北京市海淀区人民检察院检察官助理郭树正表示,白某某用的这款人工智能软件对被害人图片“一键去衣”,几秒钟、几分钟就能批量生成相应的图片。针对这一案件,检察机关认为,被告人白某某以牟利为目的,制作、贩卖淫秽物品,情节严重,其行为触犯了《中华人民共和国刑法》的相关规定,应当以制作、贩卖淫秽物品牟利罪追究其刑事责任。
通过生成式AI 模型合成或伪造逼真的内容,包括文字、图像、音频、视频等形式,都可以称为 Deepfake。对于AI音频合成,陈鹏表示,之前的技术水平还需要捕捉几分钟、几十分钟的语音声纹信息进行伪造,但现在只需半分钟、几十秒就能捕捉个大概,几个骚扰电话甚至就能造成用户声音泄漏。但要想更精准地进行克隆、复制音调与说话风格等,则需要更多的语料。
Deepfake技术的迅速发展在陈鹏看来主要有三方面原因:一是文生图、文生视频等生成式 AI 技术有了突破;二是算力逐渐普及,消费级显卡能够运行生成式 AI 模型;三是Deepfake技术已经被优化成门槛更低的工具,如Github的DeepFaceLive 和 Deep-Live-Cam等开源项目,用户可以从网站下载代码,在本地配置运行环境。目前也有成熟的商业公司以 SDK(开发工具包)或 API(应用编程接口)的方式提供Deepfake技术服务,用户甚至不需要一台带显卡的设备部署程序,将音频等内容上传到网站便可下载生成内容。
应对AI伪造风险,陈鹏表示AI 鉴伪主要有两条技术路线:主动式防御与被动式检测。前者如在图片中嵌入一些视觉上不可感知的噪声,后者如主动下载使用具备鉴伪功能的 AI 产品,包括生成式AI内容检测平台DeepReal、人脸AI安全防火墙RealGuard 等。
多方整治AI时代信任危机
对于AI 伪造和鉴伪,陈鹏认为,Deepfake对抗性太强,防范需要长期投入,如通过法律法规监管、平台进行内容治理、产业界提供技术和工具等。
9月14日,国家互联网信息办公室发布《人工智能生成合成内容标识办法(征求意见稿)》(简称《意见稿》),在《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等法律法规上,进一步细化了AI合成内容的标识办法。
北京师范大学法学院副教授、中国互联网协会研究中心副主任吴沈括表示,“这是全球范围内第一部关于人工智能生成合成内容标识的国家标准,是关于人工智能内容治理机制建设的重要探索,对人工智能内容产业的有序发展和业务规则具有重要的指引意义,也有助于人工智能良性生态的培育。”
2024年7月23日,美国参议院通过了《2024年打击精准伪造图像和未经同意编辑法案》(Disrupt Explicit Forged Images and Non-Consensual Edits Act of 2024,DEFIANCE Act),允许私密数字伪造内容的受害人向恶意制作或传播的人寻求民事赔偿。
政策之外,企业方也在积极预防,今年2月,OpenAI 团队推出“AI 生成内容识别器”,旨在识别文本是由电脑自动生成还是人类撰写,其本质上是一个区别真实内容和 AI 生成内容的分类器。不过,OpenAI 在博客中指出,此识别器对 AI 撰写内容的检出成功率仅为 26%。
今年5 月,谷歌在 Google I/O 大会上公布了AI 生成图像识别工具,用户可以通过上传来源不明的图片、执行反向图片搜索,了解到这张图片被谷歌初次收录的时间、最早出现的网站。谷歌还宣布,它自己的生成式AI工具将在每张图片中包含元数据、嵌入水印,以表明这是 AI 生成的图像,而不是真实照片。相比AI 生成内容识别器,数字水印被认为可能是更有效的方法。
更早前,微软在Build 2023开发者大会上,宣布增加一项功能,让任何人都能识别Bing Image Creator和Microsoft Designer生成的图像或视频片段是否是由AI生成的。该技术使用密码学方法对AI生成的内容进行标记和签名,并附上有关其来源的元数据信息。
奇安信安全专家田平对第一财经记者表示,AI诈骗是传统的诈骗手法利用了新技术的一种混合诈骗方式,从诈骗剧本来说还是传统的冒充熟人、冒充领导等手段,但其中的面部仿真、声纹仿真使得被害人放松警惕,更容易被骗。
从预防角度来说,田平提醒民众需要确保如下三点:第一,不要点击任何不熟悉人员发来的任何未知网址,下载不明来路的APP,规避掉中木马的风险来保证个人信息机密以及手机等设备的安全受控;第二,个人信息会通过多重渠道造成泄露,所以在涉及资金转账等高风险行为时,需要主动多方式去确认对方身份,例如通过电话回拨,沟通中询问近期见面时间地点等内容;第三,社会各界也应当积极遵从2022年底实施的《反诈法》各条例,对聊天工具、转账双方的身份加以强管理和确认,对于高风险行为采取审慎允许的态度防止诈骗行为的发生。
记者刘晓洁对本文亦有贡献