Sora来了字节发力:张楠的重任和挑战
发布日期:2024-03-11 22:44:53 文章作者: 行业资讯
北京时间2月16日,OpenAI发布了文生视频大模型Sora。从官方介绍看,Sora可以依据文本提示创建详细的视频,扩展现有视频中的叙述以及从静态图像生成场景,最长能生成60秒视频。
这熟悉的一幕,让人梦回2023年。彼时,ChatGPT引发了大模型的浪潮,掀起了全世界内的AI军备竞赛。到了今年,OpenAI再次扔出一枚石子,在文生视频的池子里激起涟漪。
Sora让“一句话生成视频”变成可能,这是一场人工智能改变视频制作的革命,全球短视频巨头字节跳动也不可以忽视这个浪潮。
巧合的是,Sora问世一周前,字节跳动宣布了一项人事变动,原抖音集团CEO张楠宣布,自己已经辞去集团CEO一职,未来把精力聚焦在剪映的发展上。字节跳动CEO梁汝波表示,感谢张楠过去带领中国信息平台业务做出的贡献和突破,期待她在新岗位上再接再厉。
作为元老级员工,张楠已经加入字节跳动十年整,主导推出了抖音、火山等产品。她带领抖音完成了对竞争对手的反超,成为字节跳动实现二次飞跃的关键人物。如今,抖音的日活已超越6.5亿,成为全世界范围内短视频领域的佼佼者。
高层的变动常常伴随业务的调整,让最熟悉抖音生态的人来负责剪映,字节跳动的目标很明确,要在AI文生视频制作方面抓住新的爆发机遇。
据时代周报报道,接近剪映的人士透露,过去一年,张楠已经把绝大多数精力倾斜到剪映先关的业务上,并亲自带队寻求在AI辅助创作上有所突破,并即将推出一个AI生成和视频的产品。
ChatGPT和Sora给字节跳动带来了新的启发,也带来了更多压力。过去一年,字节跳动延续超级APP的逻辑,接连推出了多款基于AI技术的产品,分布对话、工具、互动剧情等多个类别,包括豆包、扣子等APP。
动作很多,但速度不快,成果不显,这让字节跳动感到焦虑。年初内部会议上,梁汝波把对技术部门的不满表达得很直白。他说,字节跳动居然直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在2018年至2021年创立的。
AI风口下,字节还没能大力出奇迹,张楠再次担任了冲锋者的角色。能否带领剪映再次创造奇迹,对张楠和字节跳动来说至关重要,这决定了字节跳动能否走出增长困境,寻找到新的生机。
一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包;她戴着太阳镜,涂着红色口红;她走路自信又随意……
潮湿积水的街道倒映着上空的影像、女性皮肤上的毛孔清晰可见,如此逼真写实的视频画面,出自AI之手。
没有任何预告,OpenAI再放大招。北京时间2月16日OpenAI在社交平台X发帖,首次对外公布了名为Sora的文生视频AI模型。
Sora带来的震撼,不亚于去年的ChatGPT,瞬时成为开年最火爆的话题之一。
事实上,文生视频并非新鲜事物。在Sora发布前,根据知名投资机构a16z统计,截至2024年底,市场上共有21个公开的AI视频模型,包括大众熟知的Runway、Pika、Genmo以及Stable Video Diffusion等等。
但Sora为何会如此惊艳,并以颠覆性再次搅动AI行业?理解力、还原力是Sora效果超预期的核心。
OpenAI官网上的多段视频也证明了Sora的能力。两艘海盗船在一杯咖啡中航行,在泛白的咖啡泡沫中互相激斗;载满乘客的列车驶过光影交替的城市,车窗上投射出生动的车内倒影;舞龙队伍在周边人群的围观和随行中前进,远近透视真实感十足。
在视频时长上看,用户只需要输入一段文本,Sora就能自动生成最长一分钟的高清视频。这超出了市面上的大多数产品。根据a16z统计,现有的AI视频模型制作的视频长度大都在10秒以内,像此前大热的Runway Gen 2、Pika,其制作的视频长度分别只有4秒和3秒。
更重要的是,Sora对真实世界的理解能力和还原能力都超出了市面现有的大模型。
正如OpenAI在官方博客上写道,Sora不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。具体而言,Sora不仅能实现一镜到底,还能完成多角度镜头、分镜头的切换,更能还原真实世界中的光影反射、人类行为等。
超预期的表现离不开技术支撑。据OpenAI介绍,因使用Transformer架构,Sora具有极强的扩展性,同时在基于过去对DALLE和GPT的研究基础构建上还利用了DALLE 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
Sora的出现能否掀起中国乃至全世界新一轮的AI军备竞赛尚不可知,但能生成60s视频的Sora,把压力实实在在给到了字节跳动。因为60s视频所处的赛道,正是字节跳动王牌业务抖音的大本营。
在抖音生态越来越丰富后,为了服务内容创作者,剪映也应运而生。背靠抖音的流量池,截至2021年,剪映的月活用户已经突破1亿,是国内最大的移动视频编辑产品。而TikTok在全球的风靡,也带动了剪映海外版CapCut的下载量激增。
剪映之所以能够如此风靡,原因在于降低了门槛,让普通人都能够更快更简单地产出视频内容。
而近两年,随着AIGC的火爆,视频制作门槛将被再次降低。这也是如今Sora对剪映产生威胁的核心原因:更多人将倾向于选择门槛更低,但效果更好的平台,剪映的用户将可能被AI视频生成产品抢走。
2023年11月,剪映测试名为“Dreamina”的AIGC工具,用户只需输入一段文字,Dreamina即可生成四幅由AI生成的创意图像。这些图像可以从抽象、写实等多个维度生成,满足不同用户的审美需求。
彼时,据Tech星球报道,消息的人偷偷表示,该工具未来会用于抖音的图文或短视频的内容创作,丰富抖音在AI创造方面的内容库。
不过从效果来看,目前剪映面临和Runway、Pika、Genmo等产品一样的困境:视频的运动不自然,保真度不高、视角单一等问题,这些问题本质上是技术问题,Sora靠技术解决了这些问题,威胁到“剪映们”生存的同时,也给“剪映们”提供了思路。
今年,原抖音集团CEO张楠卸任,转而投入剪映的发展,透露出抖音乃至字节对AI创作的重视。值得关注的是,在张楠发给剪映的内部信中,张楠提到,AI图像生成技术正在内容创作工具行业带来巨大的变化和可能性。
如今,Sora的横空出世,给了字节跳动压力,它不能再慢了,而如何带剪映突围,则成了张楠新阶段的重任。
加入公司十年,原抖音集团CEO张楠算得上是字节跳动的功臣。某种程度上看,字节跳动短视频业务能够快速“开疆扩土”,靠的就是张楠。
2015年开始,张楠先是带着团队推出了火山小视频,上线后迅速爆火,日活跃用户很快突破5000万;2016年,张楠从0到1推出了抖音,为当下国内最火的短视频APP奠定了基础,如今抖音的日活超过了6.5亿。
2020年3月12日,字节跳动在成立八周年之际,宣布张楠担任字节跳动(中国)CEO,作为中国业务总负责人,全面协调公司中国业务的产品、运营、市场和内容合作,包括今日头条、抖音、西瓜视频、搜索等业务和产品。
没过多久,伴随字节组织架构调整,抖音从字节跳动旗下的APP成长为拥有复杂生态的抖音集团,旗下拥有抖音、火山、剪映、轻颜相机等多个APP,张楠出任抖音集团CEO。
身份的变化,让张楠更像是幕后掌控抖音全局的指挥官,而非冲锋陷阵的将军,但她始终是最了解抖音生态的人。
伴随市场环境的变化,抖音短视频的增长不及以前是事实,但抖音要为字节寻找新增量的目标没变。AI的东风越吹越大,原本是抖音视频创作工具的剪映站在风口之上,这是个机会,字节跳动必须抓住。
离开自己一手带出来的抖音,张楠在告别文中表示,“在未来的十年再折腾一些我热爱的事情”。
张楠职位的变化,与其说是她离开抖音权力中心,不如说是被放在了新的关键位置上,也释放出字节要在AI领域突围的信号。
就在张楠辞任抖音CEO一周前,字节CEO梁汝波在字节举行的2024年度全员会上发表了“始终创业,逃逸平庸的重力”的内部讲话。
在这场分享会上,梁汝波多次提及“危机感”一词,梁汝波甚至还将“加强危机感”列入年度目标。他坦言,最大的危机感,是担心字节作为一个组织,正在变得平庸,无法取得新的突破。
当短视频业务趋近天花板,字节需要找到新的增长点。当OpenAI的两枚炸弹证明了AI行业蕴藏的想象力,字节跳动作为一家拥有丰富内容生态的公司,拥有天然的AI使用场景,必须跟上AI的脚步,用AI技术为自身寻找突破。
“字节跳动是最好的平台,既有梦想,又务实的浪漫,我很期待和剪映的小伙伴们一起造梦,与这个AI的时代一起成长,共同绘制出脑海中的奇幻世界。”张楠如此写道。
如果一家勇于探索商业模式的公司2023年上半年营收超越腾讯,2024年开年估值达到2250亿美元,位于全球独角兽榜首,那这家公司的年度关键词会是什么?
梁汝波提到,组织上,字节跳动变得平庸:低效、迟钝、标准低;人才管理上,去肥增瘦效果不明显,对优质人才吸引力降低;业务上,核心业务领先不明显,其他业务需要突破。
“对机会敏感度不如创业公司”,公司业务上迟钝加重了梁汝波的危机感。对大模型的技术浪潮跟进太慢,就是梁汝波感到危机的原因之一。
2023年,由OpenAI开启了“ChatGPT热”,也掀起了全世界内的GPT竞赛,国内外多个知名互联网巨头都推出了自研大模型产品。
回看字节跳动的动作:2023年1月组建了首个大模型团队,将远在新加坡负责TikTok技术负责人朱文佳调回国内担任团队的业务负责人;2023年5月,字节跳动创始人张一鸣忙着研究OpenAI的一系列论文,并且常常读至深夜。
只是,相比字节跳动曾经的战斗力,在新的AI时代,字节跳动似乎没能一鸣惊人。
当其他公司都在加入大模型竞赛,一个接着一个产品陆续推出后,字节跳动在2023年8月才推出自研大模型“云雀大模型”。在此之后,字节跳动的AI动作才变得快速而频繁起来。
先是AI对话产品“豆包”开启测试,它的前身是字节内部代号为“Grace”的AI项目,可以生成歌词、小说、文案等文本内容,还能够给大家提供数学计算、翻译、英文写作等功能;后有扣子、AI角色互动APP“话炉”、AI产品“PicPic”等产品进入内测和研发阶段。
目前,字节在国内外已上线十余款AI产品,除了上述提到的产品,还有“AI搜”、 AI情绪伴聊机器人的“抖音小晴”、 针对电商内容创作的产品“即创”、AI工具合集小悟空(ChitChop)、 AI 剧情互动平台BagelBell等。
这些产品的背后,是一个全新的AI部门Flow,也是字节在AI时代的排头兵。据36氪报道,Flow部门技术负责人为字节跳动技术副总裁洪定坤。一位知情人士告诉36氪,这一新部门的业务带头人,为字节大模型团队的负责人朱文佳;据Tech星球报道,字节跳动产品与战略副总裁朱骏已负责Flow部门的产品线。
调用多名主力干将,字节发力AI的意图已经十分明显。只是,虽然在AI的投入不少,但字节系产品要突围并不是特别容易。比如,“豆包”的推出不仅比ChatGPT晚了八个月,从效果上看,多家媒体评测结果为,“豆包”的智能化水平在大模型C端助理类产品中无显著优势。
一个明显的变化是,到了AI时代,字节跳动还处在追随者的角色,且尚未有弯道超车的迹象。
而放眼TikTok在全球的发展,要面对的挑战和竞争也不少。在这种情况下,字节跳动在AI时代还没有自己的独特优势,甚至有可能会被新技术颠覆,这或许正是梁汝波的危机感所在。
“字节跳动目前的业务有非常大的惯性,哪怕团队不额外努力,公司仍旧能依赖惯性滑行很长一段时间,但这是很危险的。” 梁汝波提到。
在过去的十年,字节跳动抓住了短视频时代的红利,而下一个十年,如何在AI时代,从追随者变成创造者,保持创业状态继续突围,考验着字节跳动。正如梁汝波所说,只有保持危机感和始终创业的心态,字节跳动才能“逃逸平庸的重力”。