阿里巴巴挑战OpenAI，推出视频版ChatGPT？看完你就知道了世界简讯

2023-06-14 02:03:23 来源：哔哩哔哩

【资料图】

每日更新海内外科技资讯，关注我，不迷路！

最近，阿里巴巴的研究机构达摩院发布了一篇论文，介绍了他们开发的一种新型的音视频语言模型（Video-LLaMA），引起了业界的关注。

目前，最著名的语言模型就是OpenAI开发的ChatGPT³，它可以根据给定的提示，生成流畅、连贯、有逻辑、甚至有创意的文本。比如，你给它一个标题“为什么猫咪喜欢吃鱼”，它就可以自动写出一篇文章来解释原因。

那么，阿里巴巴的Video-LLaMA和ChatGPT有什么关系呢？其实，Video-LLaMA是一种音视频语言模型（AV-LLM），它不仅可以处理文本信息，还可以处理视频中的视觉和听觉信息。

这意味着，它可以理解和生成视频内容，比如描述视频中发生了什么、预测视频中接下来会发生什么、或者根据给定的主题生成一个视频。

达摩院的研究人员在论文中展示了Video-LLaMA的一些应用场景。比如，在一个男人在舞台上吹萨克斯风的视频中，Video-LLaMA可以用文字描述出视频中的背景音乐和视觉内容。而之前的视觉语言模型（V-LLM），比如MiniGPT-4和LLaVA，主要只能处理静态图片的理解。

那么，Video-LLaMA是不是就是视频版的ChatGPT呢？答案是否定的。因为Video-LLaMA目前还只是一个“早期原型”，还有很多局限性和挑战。比如，它还不能很好地处理长视频，比如电影和电视剧；它还不能很好地处理多模态信息之间的关联性和一致性；它还不能很好地处理复杂和多样化的视频场景和任务。

所以，阿里巴巴要造视频版ChatGPT还有很长的路要走。不过，这并不妨碍我们对音视频语言模型的期待和想象。毕竟，这是一个充满无限可能和创造力的领域。

也许有一天，我们就可以用Video-LLaMA来生成我们想看的视频，比如自己的电影、电视剧、动画、游戏、或者其他任何类型的视频。那时候，我们还需要去电影院或者网上看视频吗？还是说，我们会更喜欢自己创造和控制视频的内容和形式呢？

这就是我今天要分享的内容，希望你们喜欢。如果你对音视频语言模型有什么看法或者想法，欢迎在评论区留言。也欢迎你们关注我，每天为你带来最新最热的科技资讯。

标签：