AI一键生成“类黑神话”！腾讯推出游戏视频模型GameGen-O

广众网 • 2024年9月14日下午9:06 • 科技 • 26 views

什么？大模型也许很快就能生成《黑神话·悟空》这种3A大作了？！

《西游记》这就上桌，搭配BGM，有内味儿了（doge）。

这就是腾讯近日推出的GameGen-O，一个专门生成开放世界视频游戏的Transformer模型。

简单说，这个模型能够模拟各种游戏引擎功能，生成游戏角色、动态环境、复杂动作等等。

当然也支持交互控制，用户可以通过文本、操作信号和视频提示来控制游戏内容。

消息一公布就在（前推特）开启了刷屏模式，网友们开始列队尖叫：

游戏工作室Azra Games的联创兼CTO更是直言：

GameGen-O将成为游戏工作室的ChatGPT时刻。

游戏工作室迎来ChatGPT时刻

具体来说，这个项目由腾讯联合港科大、中国科大推出。

推测想要做的事儿，是用AI模型替代一些游戏开发环节。比如目前公布的游戏角色创建、游戏环境生成、动作生成、事件生成以及各种交互控制。

下面我们挨个预览一波~

现在，用GameGen-O就能直接生成各种角色了，西部牛仔、太空人、魔法师、警卫一键生成。

经费不足造成真实取景困难，也有plan B了！

给队友展示骚操作，各种人称视角的动作生成也能轻松拿捏。

游戏必备环节——给玩家偶尔上亿点难度，海啸、龙卷风、火灾事件这就安排（doge）。

与此同时，GameGen-O也支持开放域生成，即不限风格、环境、场景那种。

最后，用文本、操作信号和视频提示就能实现交互，向左、向右、走向黎明

好家伙，谁都知道游戏开发有多烧钱，这下，普通玩家也能用GameGen-O制作游戏了。

一位AI架构师网友更是断言：

用GPT-4o标注数据

为了开发这个模型，团队自述主要进行了两项工作：

构建专有数据集OGameData，采用GPT-4o标注数据

经历两个阶段的训练过程

具体来说，团队首先提出了一个数据集构建管道。

团队从互联网上收集了32,000个原始视频，这些视频来自数百款开放世界游戏，时长从几分钟到几小时不等，类型包括角色扮演、第一人称射击、赛车、动作益智游戏等。

然后由人类专家对这些视频进行识别和筛选，最终得到大约15,000个可用视频。

下一步，将筛选后的视频通过场景检测技术切割成片段，并对这些视频片段进行基于美学、光流和语义内容的严格排序和过滤。

接下来使用GPT-4o对超过4,000小时的高质量视频片段进行细致的注释，这些片段的分辨率从720p到4k不等。

为了实现交互控制性，团队从注释后的数据集中选择最高质量的片段，并进行解耦标签（decoupled labeling）。

这种标签设计用于描述片段内容状态的变化，确保训练模型的数据集更加精细和互动。

对于这种人类专家和GPT-4o一起工作的形式，有网友认为：

这是递归自我改进（recursive self-improvement）的一种形式。（人类专家确保了注释的准确性，并通过反馈机制帮助GPT-4o进行自我改进）

完成数据准备工作后，团队经过基础预训练+指令调整两个过程来训练GameGen-O。

在基础训练阶段，GameGen-O模型使用了一个2+1D VAE（变分自编码器，如Magvit-v2）来压缩视频片段。

为了使VAE适应游戏领域，团队对VAE解码器进行了特定领域的调整。

团队采用了不同帧速率和分辨率的混合训练策略，以增强跨帧率和跨分辨率的泛化能力。

另外，模型的整体架构遵循了Latte和OpenSora V1.2框架的原则。

通过使用掩码注意力机制，让GameGen-O具备了文本到视频生成和视频续集的双重能力。

团队介绍称：

这种训练方法，结合OGameData数据集，使得模型能够稳定且高质量地生成开放领域的视频游戏内容，并为后续的交互控制能力奠定了基础。

在这之后，预训练的模型被固定，然后使用可训练的InstructNet进行微调，这使得模型能够根据多模态结构指令生成后续帧。

InstructNet主要用于接受各种多模态输入，包括结构化文本、操作信号和视频提示。

在InstructNet分支的调整过程中，当前内容被用作条件，从而在当前片段内容和未来片段内容之间建立了映射关系，这在多模态控制信号下进行。

造成的结果是，在推理时，GameGen-O允许用户基于当前片段不断生成和控制下一个生成的片段。

目前，GameGen-O已创建GitHub官方仓库，只不过还没来得及上传代码。

感兴趣的童鞋可以先收藏一波了~

以上就是关于【AI一键生成“类黑神话”！腾讯推出游戏视频模型GameGen-O】的相关消息了，希望对大家有所帮助！

Like (0)

0 0

让韩国破防的中国机器人

Previous 2024年9月14日下午9:05

比亚迪公布“夏”字LOGO全民共创作品五款图标你更喜欢哪个？

Next 2024年9月14日下午9:11

科技

鸿蒙智行傲界改名尊界余承东：傲在中华传统文化里不太谦虚

9月28日消息，余承东与马东直播时透露了鸿蒙智行傲界改名尊界的原因。余承东提到，尊界原命名为傲界，但傲这个字在中华传统文化里不太谦虚，所以改名为尊界。此前在8月6日举办的鸿蒙智行享界S9及华为全场景新品发布会上，华为公布了鸿蒙智行四界的命名，分别是AITO问界、LUXEED智界、STELATO享界、MAEXTRO尊界。具体来说，鸿蒙智行四界分别是与赛力…

广众网
2024年9月28日
24000
科技

龙芯CPU走出特色之路：成熟工艺对标7纳米、三步走建设生态

基于20多年的科研历程，以及当前的国际国内形势，龙芯中科始终坚持自主研发，坚持信息化、工业化两大方向，坚持走向市场化、自我造血。尤其是在2020年，龙芯推出了完全自主的指令系统“龙架构”(LoongArch)，不存在任何对外依赖。目前，龙芯已经初步构建了独立于Wintel、AA的第三套自主信息体系，发展出了谱系最全、应用最广的系列产品。尤其是指令系统、…

广众网
2024年10月19日
23000
科技

微信查删单向好友需人数先达1万网友：谁会有1万个微信好友

10月23日消息，当前微信已经成为了国内用户最重要的社交软件，一些微信好友在没有互相联系的情况下，就会悄悄地将我们删除或者拉黑。相信不少人都遇到过这种情况，当发信息给对方或者看对方朋友圈时才发现，被对方给删除了，场面特别尴尬。因此，不少网友很期待微信能推出一项快速查看是谁删除了自己的功能。近日，有网友发现新版微信好友达到上限后，可以自动查找已删除自己的好…

广众网
2024年10月23日
13000
科技

王腾：Redmi K70至尊版定会产生一大批钉子户天玑9300+是神U

8月6日消息，王腾今天发文表示，天玑9300+是2024年的一款神U，全大核架构，性能强功耗低。他强调：可预料的k70至尊版定会产生一大批钉子户。钉子户在手机行业算是极强的褒义词，说明这款手机各方面表现出色，可以稳定使用多年不换机，此前小米6是公认的安卓最强钉子户之一。在稳定持久使用的背后，SoC的性能保障和发热、功耗控制是最重要的基础保障。这次K7…

广众网
2024年8月6日
56000
科技

坚持使用激光雷达余承东：纯视觉方案摄像头致盲就完蛋了

9月28日消息，今日上午，华为余承东和知名主持人马东举行了访谈，在谈到华为乾崑智驾ADS 3.0的时候，马东抛出了一个问题，也就是激光雷达是必要的吗？余承东表示，坚持用激光雷达，是因为激光雷达的安全性。只用摄像头方案没用激光雷达方案的，摄像头致盲就完蛋了，有些东西，摄像头是没办法的。摄像头有极限，包括毫米波雷达，车厂都应该用，因为在雨天大雾天，摄像头不好用…

广众网
2024年9月28日
31000

发表回复

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信