[人工智能-sora] Sora的到来,到底意味着什么? 访谈摘要

慈云数据 8个月前 (03-12) 技术支持 110 0

本文由Markdown语法编辑器编辑完成。

1. 前言

2024年2月16日凌晨(美国时间2月15日),OpenAI发布了“文生视频”(text-to-video)的工具,Sora。整个世界再次被震撼了。人类用无数种语言,在全球的社交媒体上惊呼:现实,不存在了。

https://openai.com/research/video-generation-models-as-world-simulators

在这里插入图片描述

![](https://img-blog.csdnimg.cn/direct/d8780566a4e244d78ac6db9d02e74a85.jpeg#pic_center

在这里插入图片描述

在这里插入图片描述

看到sora发布的这些精美的视频,谁能不为之惊讶呢!

Sora就像是一个已经完全理解了这个世界的基本的运行规律的专业人士

在第一幅视频截图中,

Sora知道了在潮湿的街道上,街道上面的水会将附近的街景产生倒影;女士的戴的眼镜,也可以反射她看到的景象;而且随着她在街道上不断地往前走动,她眼镜里面的影像也在随之发生变化;

在第二幅视频截图中,

Sora知道了一个老人在啃了一口汉堡后,那个汉堡的相应位置,会留出一个咬痕;

在第三幅视频截图中,

Sora就像拿了一个摄像机,在跟拍一下,从远到近,而且一路跟拍着这对情侣,漫步于两边都是樱花的街头。

在一年前,发布chatgpt时,人们还认为人工智能能完成和人类的对话已经很了不起了;接着Run away, Pika, 已经可以根据文本,生成4 ~ 十几秒的视频,已经又是跨越式的进展了。

结果,OpenAI发布的Sora, 直接就可以生成1min长度的视频,而且效果和质量都是如此的精良。怪不得让很多行业大咖都惊讶不已,迅速出圈。

作为程序员的我们,当然不能仅仅跟着惊讶,还是需要了解一些内部的工作原理。

恰逢,润总在他的访谈中,邀请到了百姓AI的创建人建硕,一起来了一次3个小时的探讨,主题就是:“Sora的到来,到底意味着什么?” 访谈中,润总老师,代表他自己和很多观众,提出了很多很多的问题,而且都一一的进行了细致的探讨。我在敬佩两位老师的渊博知识外,也希望大家能够了解其中的一些细节。因此,对这次访谈的内容,进行了一些摘录。

以下便是访谈的一些摘录。

2. 访谈摘要

下面分别用R(润)和S(硕)代表两位老师的观点。

R: 如何看待Sora?

它厉害,大家都知道它厉害,它厉害在什么地方,它为什么这里厉害,

  • 对我们意味着什么?
  • 中国离Sora还有多大的距离?
  • 能不能走到那里,需要多久的时间?
  • 中国哪些机构做得不错,哪些还有潜力?
  • 作为创业者,普通的管理者,我们的机会在哪里?
  • 作为个人,机会在哪里?
  • 它会不会影响到未来孩子报什么专业?将来孩子学什么内容?

    技术文档,给出了一些实现的细节。但是,还有一些,只能是猜测的。

    S: 看别人使用,和自己使用,差别很大。

    AI制作视频,其实之前已经有很多铺垫,但是没有出圈。

    其实非常多的技术,需要出圈。可能都是很偶然的。比如博客的出圈,是木子美;iPad出圈,是因为切水果,愤怒的小鸟的游戏等;

    那么Sora到底厉害在哪里呢?

    这就要说明一下它的实现了。

    如果是用摄像机拍摄。比如,拍摄我们两个人坐在这里,喝水喝聊天。其实摄像机,只需要真实的把画面中的内容,记录下来即可。它只是做了一个记录的工作。至于拍摄的内容,它都是符合世界规律的,是受物理的各种规律支配的。

    但是,如果是用软件来虚构视频,它就需要理解物理规律。

    你告诉我,如果这些视频是Pixar(乔布斯创办的影视公司)做出来的,我一定都不惊讶。

    因为这些视频,3d建模都能做出来,一点都不惊讶。

    世界模型:用建模的方式,在虚拟空间中,把世界建好。

    比如之前很多的动画电影,《玩具总动员》,它里面的情节,我们看起来都是符合真实世界的物理规律的。是因为这些都是人设计好的,这些规律是存在了人的脑海中,然后当成了一条规律,写进了3d建模软件中。

    正是因为这个原因,过去用3d建模的软件来做一个视频,需要的算法很大,需要技术人员投入很多,将各种各样的规律写进软件,才可以建构出相对真实的世界。因此视频的成本也很高。

    而现在Sora发布的视频,不需要人类提前把规律写进去,是AI自己学会的。

    OpenAI同步发布了一个技术文档,来介绍视频生成的技术,文档的名称是:《Video generation models as world simulators》,翻译过来大概是,视频生成模型,作为世界模拟器。

    这里要注意两者的区别。

    如果是Adobe的全家桶软件,它们是:世界模型作为世界模拟器;

    OpenAI的sora, 是: 视频生成模型作为世界模拟器;

    =================================================================

    关于视频中,一个老人咬了一口汉堡,留痕。

    R: 人工智能,其实一直存在两个学派:符号派 VS 联结派。

    符号派认为,智能是通过了解了很多的规律和符号,然后来认识这个世界的;比如学习语言和说话,我们了解了主谓宾,副词,状语等各种符号;

    联结派认为,智能是由于很多神经元的联结进而产生的。

    就好比我们人类学习语言,其实就是从小到大,听得多了,自然就会说了。

    所以事后证明,符号派是错误的;联结派,完全占据了人工智能的主流。

    人类的神经元,860亿条连接。

    神经网络:Neural network.

    只有牛顿总结过,三大定律

    一种是可描述的,一种是不可描述的。

    人类早就用不可描述的模式,认识世界。

    拿杯子,我知道拿有水的,和没有水的杯子,重量不同。

    大模型,大在什么地方?

    • 不是数据量大。
    • 学习了2个TB的数据量。如果是纯文本,很大。但比起google学习的数据量,其实只有百万分之一。
    • 所以,openAI的模型,是体现在了模型的参数量非常的大。约有1750亿个参数。

      OpenAI的信仰Scaling, 就是大,规模一定要大,大力出奇迹。

      它的参数数量,从600万,到60亿,600亿,再到1750亿个参数。

      =====================================================================

      解读一下视频生成的原理?

      Midjourney.

      非常非常长的技术栈。

      假设大家已经知道,从一段文字生成一张图片。

      戴着一个帽子的猫。

      37:00

      描述 -> 图片。

      生成视频的挑战。

      视频,是连续的图片。

      帧和帧是分开生成的,但是噪音很大。没办法保持稳定。

      Sora的特征:3d卷积网络。

      它不是一帧一帧切,还是16张切。

      Square -> cube

      X,y -> x,y,t

      保证了在时间上的连续。不会有跳动。

      刘润总结:

      Space time patch. 时空的概念。时间上的连续性。

      Unet模型:特征提取到最小,再一层一层还原。

      它要求输入的图像,是大小一致的。

      训练的时候,把图像都设置成512*512.

      OpenAI:

      Unet -> transformer.

      输入的序列,长度是变长的。

      不挑食,没有对视频进行压缩,裁剪。

      对视频的很多确定性的要求,都去掉了。

      Diffusion model -> Transformer model

      Diffusion model:

      文字怎么生成图片?

      电子信号由于布朗运动,高斯噪音。不含任何信息的噪音。

      噪音,随机数

      一张图片,加一些噪音,加一些噪音,变成高斯白噪音。

      预测,加了哪个噪音,生成了这样的图片。

      赶紧调整它的参数。

      从噪音,再如何回到图片。

      52:50:

      刘润总结:

      Diffusion model: 扩散

      一滴墨水,滴到玻璃杯。-> 扩散 -> 均匀的浅蓝色。

      扩散

      加噪音:是数据集,然后去训练。怎么减噪音,这个叫训练。

      去噪音

      把图变成白噪音,再用白噪音还原出图。

      Sora: diffusion + transformer(google的论文写的)

      30亿个参数,暴力美学。

      高考的分数。很多题,是你的语文,数学,英语成绩。

      单向的过程。

      680分,你能帮我生成它的答卷的分数。

      -刘老师,语文,数学超级好,化学

      语文147, 数学:149, 化学:135. ……

      那部分强,那部分弱,就可以

      不了解原理,看成是哲学。

      61:47 总结:

      AI: 算法,算力,数据。

      Diffusion + Transformer. 能够生成不受条件限制的视频。

      大量的算法,30亿的参数。

      很多显卡,电力,数据集。

      给世界带来什么影响?影响什么行业。

      忘了自己为什么有这份工作?

      现在有的工作,是因为技术的发展,计算机的发展。

      凡是我出身前的技术,都是世界的一部分;

      凡是25岁以前的技术,都是改变人类的;25岁以后的技术,都是邪恶的。

      完全来自自己所处的立场。

      视频制作行业,大大的利好。

      Sora的出现,当做是Adobe软件的一次大大的升级。

      高抽象度,低抽象度

      构思,段落,句子,写出来,钢笔写出来。

      工程师一条线,建筑工人一身汗。

      高抽象度,低抽象度。

      所有人都是懒的。

      凡是机器能干的工作,我们就尽量不干。不要和计算机吃醋。

      影视行业:短视频,长视频行业。

      哪些是低,哪些是高抽象度的。

      剧务

      浙江的绍兴,中国的横店,世界的义乌

      今天插秧的人,明天不一定坐到总控室。

      时代的进步:淘汰一部分,然后让另一部分成长起来。

      替换。

      个体的关怀:

      下岗女工:退休

      你帮我解释一下,为什么你之前每天辛勤的劳动,却只能换来一辆自行车;但现在却可以换来30辆自行车。

      是因为你的努力,还是因为把你挤下岗的自动纺织机。

      82:10

      科技的进步:一切可以提高生产效率的,都叫科技。

      整个社会的总财富增加,然后社会,国家,制度再通过一种分配机制,

      美国:人工智能税。

      财富增加,都会有自动分配的机制,不见得均匀分配。

      我不想等社会的分配,我想抓住机会。

      学习:上一代人,和我们这一代人,学的不一样。

      微软学得很多,都没用了。

      我们必须学会用promt, 跟大语言去交流。

      影视行业的从业人员:

      你已经是佼佼者了。本身就是一个爱学习的人。把它理解成,一个软件的升级版本。

      忆苦思甜。

      同样一份工作,越来越顺手。

      学习的前提:不要闹脾气。

      武僧遇到洋枪队。

      武僧,跟洋枪较劲。

      保持开放度和灵活性。

      你的工作是,生成视频。而不是用工具。

      90:00

      未来人人都可以当导演。说明这个事情越来越难了。

      人人都能做的话,我为什么要请你。

      什么不会变?商业的本质,稀缺性,供给。

      每次的技术变革,都是一次反思的机会。我们的工作还稀缺吗?

      有的职业:是因为人人都能做,所以消失了。电梯操作员,售票员等;

      有的职业:所有人的水平都提升,这个行业会变大。

      程序员:汇编 -> 高级语言

      20万 -> 1000万 -> 5亿

      基数变大,越来越不稀缺了。

      需求越大了。

      比起20年,跟计算机无关的工作,都跟计算机有关了。

      电视的带宽:带宽增加,网站变得更快。

      4k, 8k, ……

      效率的提升,不是简单的提升。是指数级的提升。

      程序员,带宽,激发了本来增长的需求。在更大的赛道上。

      选择职业:孩子应该学什么?

      凡是受到chatgpt冲击的行业,必将走向繁荣,一定要冲进去。

      凡是没有受到,躲得远远的。

      程序员:前端 framework.

      Vue, react.

      活变得越来越多。

      婚礼:后面生成一个视频。

      井喷一样的需求增长。

      视频生成。大量的需求,会井喷式发展。

      四大的审计师,理发师。

      视频制作员,不一定服务电影,可以服务抖音,tiktok.

      去年讨论的时候,还是文本生成,是不是记者不需要了。

      个人的建议:

      对编程感兴趣,一定要学。

      人生收益:三四年级,学了计算机。

      娃娃,被抓去学电脑。

      计算机,第一堂课,26个字母。

      小学,中学,大学学得,都没用。

      带你进了计算机这个赛道。

      让自己的孩子,保持在主航道。

      人工智能主航道。

      医学:计算机辅助蛋白质。

      并没有改变,医生看病的工作。只是工具在变。

      8年之后还会出现什么,无法预测。

      编程,数学,主航道,跟人工智能对话的技术。

      人工智能,开到汽车,开到生命科学,保持在主航道。

      =========================================

      中国300个大模型。

      距离Sora到底有多远?

      1> 悲观

      Gap,

      Gpt3 , 3.5, 4.

      2> 乐观

      百姓AI: 做应用层的。

      大模型的能力,和国内的需求联系在一起。

      116:20 只要我们的模型在一直往前走,

      只要大语言模型,跨过了需求的这个线,对国家

      超过chatgpt是争鸣,超过需求,是争利。

      2023年底,能达到chatgpt3.5.

      不是唯一重要的事。

      只要能超过某个点,对于国家就是好的,利于财富的增长。

      286,386,486,

      科技的发展,一定会放缓。中国的追赶,是有时间窗口的。

      OpenAI:

      验证了这条道路是可以走通的。

      丝绸,瓷器。蒸汽机,电力。

      我们到底能多快的?系统性的优势。

      芯片的问题,Nvidia, 高端芯片对于中国是禁用的。

      从应用的角度,中国

      我们的芯片有差距,技术有差距,算力有差距。

      材料在美国率先研究出来,武器率先研究出来。会加大落差。

      生物技术,疾病,确实很令人担心。

      126:00

      它到底发生得多快?

      Sora, 是否真得理解了这个世界?理解了世界模型。

      Sora, 看起来理解了世界。

      你认为我理解了这个世界?

      从黑盒看来,它已经有了意识。

      让我们相信,它已经有了意识。

      AGI: 等同于聪明。

      Moving target. 我们永远达不到AGI.

      香农,图灵测试。永远都达不到

      我们现在的生活,是几十年前的天堂。

      但我们会认为不是天堂。

      中国什么时候会做出sora?

      近期一两年出现sora,

      Chatgpt 3.0的影响。

      Sora不做,是因为不知道这条路是否能走下去。

      路线被证明是对的,不同公司通过不同路径的追赶。

      《千脑智能》,后半部分预测错了。

      世界模型:记忆和预测。

      预测了一个台阶,结果踩空。

      记忆模型 -> 预测 -> 记忆

      Elon musk: GG人类。

      135:00

      中国在做基础模型的研究,太耗资源。算力。

      应用型的研究。

      全名去淘金。

      互联网:netscape出来,网站,商业模式,付费,物流

      花了10年,才真正的应用起来。

      大语言模型:拿着锤子找钉子。商业论坛。

      商业变革:都是

      火:不是为了吃肉,而找火。

      不是特别短的过程。

      应用,会像散点一样的应用。

      2000年,觉得互联网很厉害。.com泡沫

      离信息高速公路有多远,过海100米。

      新浪:吃的传统业务的红利。

      94年底,互联网进入中国。

      凡是会被我们想到的,10年内可以实现。

      从想到,和能做到,10~20年作业。

      98年,做B2C电子商务

      想象的过早,政策可能会过早。

      用户可能还没有ready, 还没有准备好。七龙珠,AI只是其中的一颗龙珠。

      很多人,都在找商业模式。

      妙鸭相机。

      尝鲜性的应用。

      当下能看到的机遇:

      工具(手电筒),下载软件(fomail),

      Iphone里面的原生应用:

      Google, 美团,打车

      AI里面的原生应用:naïve app.

      Agent, 智能体(秘书,满世界帮忙)

      企业里面:

      初级工作,容错性高的职位,越早的,可能会被取代;

      律师,医疗,自动驾驶,一直处于辅助的工作。

      自动驾驶,很难取代。

      Sora, chagpt, 人也会犯错。

      春晚,约瑟夫环。

      Chatgpt,写了一个约瑟夫环。

      Chatgpt, 代码已经写出来了,但是结果会出错。

      做精密度非常高的工作,无法完全信任它。

      你不知道,chatgpt的那句话会犯错,哪里埋了一个雷。

      我可能会犯错。

      152:00

      人类不知道,chatgpt,sora,为什么有智能。

      不知道的事情,无法控制。

      涌现:到底为什么会有?

      Sam: 我们也不知道它为什么会有智能。

      人的智能,神经元的聚集涌现出来的。

      围棋,智能,情感,意识, ……

      更大规模的神经元,涌现出来的。

      Chatgpt, 没有情感,没有意识。

      和人类的表现越来越像。

      恍恍惚惚的明意识,潜意识。

      树突,训练好的,潜意识。

      明意识,

      这个世界,也不是真实存在的。

      大脑,泡在液体里面的一坨肉。

      智能大概有三件事情:感知 – 智能 – 行动。

      Chatgpt: 感知,判断,行动。

      视频感知世界 – chagpt – sora.

      全世界的公共摄像头,都接入sora, 给装上手脚。

      具生:具有行动力了。

      看世界,就可以理解了。

      小孩子,不会动的时候,很危险。等他能动的时候,就危险了。

      《终结者》,天网:

      车在英国出现的时候,大家很害怕。想的还是,世界上都是广场上走的妇女儿童。刚看到车的时候,想不到有公路。

      技术,保证它的安全,保证它的安全。

      电越来越重要,特别多的措施,保证它不会出错。

      AI, 交给坏人,很可怕。

      好人,要保证坏人不能做破坏。

      不是自然发生,需要很多努力才能做到。

      人工智能,和之前的很多技术都不一样。

      汽车,是被动的,人不动,它就不会动。

      人工智能,如果有了独立意识,

      ——三大定律,不能伤害人类。

      人工智能,和人的价值观,完全对齐。

      和平,是在整个冲突中达到的。

      数字货币,核弹。

      核弹,掌握在坏人手中,很危险。它掌握在国家,没有掌握在坏人。

      核弹,获得原材料很难。技术已经能达到。

      对中国可以改变的机会?

      对AI ,只能卖课吗?

      有什么建议?

      科技的发展,还是在加速。

      保持开放,不要紧张。保持学习。

      海面上的船,海面上升

      人,保持懒惰。

      有洗衣机的时候,绝对不手洗。

      Sora能生成的,就用sora.

      恐慌,对抗的情绪,都不必要。

      技术的周期:

      1700年,

      第一次工业革命:GDP的增速,人均GDP,疯狂增长。

      第二次工业革命:

      全球经济,降速。

      互联网和技术革命,已经普惠了。

      年轻人在抱怨,似乎没有什么机会了。

      你们那个年代,一努力,就会有机会。

      这波机会来了,

      未来的app.

      一代人有一代人的机会。

      非常好的机会,

      很羡慕这一代的大学生。

      进入一个行业的时候,正好是一个行业的兴起。

      技术的发展,不是匀速的。

      23,24年,就是这个世界。

      带来前所未有的方式。确定的是一个机遇。

微信扫一扫加客服

微信扫一扫加客服

点击启动AI问答
Draggable Icon