Latest News
Everything thats going on at Enfold is collected here
Hey there! We are Enfold and we make really beautiful and amazing stuff.
This can be used to describe what you do, how you do it, & who you do it for.
OpenAI首个AI视频模型炸裂登场,彻底端掉行业饭碗!60秒一镜到底惊人,世界模型真来了?
未分类【新智元导读】刚刚,OpenAI发布首个AI视频模型Sora,60秒的一镜到底,神级效果生成。网友纷纷惊呼AI视频要变天。
卷疯了卷疯了,短短十几小时内,OpenAI和谷歌接连发布核弹级成果。
国内还没睡的人们,经历了过山车般的疯狂一晚。
就在刚刚,OpenAI突然发布首款文生视频模型——Sora。简单来说就是,AI视频要变天了!
它不仅能够根据文字指令创造出既逼真又充满想象力的场景,而且生成长达1分钟的超长视频,还是一镜到底那种。
Runway Gen 2、Pika等AI视频工具,都还在突破几秒内的连贯性,而OpenAI,已经达到了史诗级的纪录。
60秒的一镜到底,视频中的女主角、背景人物,都达到了惊人的一致性,各种镜头随意切换,人物都是保持了神一般的稳定性。
OpenAI究竟是怎么做到的?根据官网介绍,「通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。」
显然,这个王炸级技术有着革命般的意义,连Sam Altman都沉迷到不能自拔!
他不仅疯狂发推安利,而且还亲自下场为网友生成视频:你们随意来prompt,我一一输出。
他
多项技术破纪录
借助于对语言的深刻理解,Sora能够准确地理解用户指令中所表达的需求,把握这些元素在现实世界中的表现形式。
也因此,Sora创造出的角色,能够表达丰富的情感!
它所制作出的复杂场景,不仅可以包括多个角色,还有特定的动作类型,以及对对象和背景的精确细节描绘。
看,下图中人物的瞳孔、睫毛、皮肤纹理,都逼真到看不出一丝破绽,完全没有AI味儿。
从此,视频和现实究竟还有什么差别?!
此外,Sora还能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。
要知道,以前的AI视频,都单镜头生成的。
而这次OpenAI能在多角度的镜头切换中,就能实现对象的一致性,这不得不说是个奇迹!
这种级别的多镜头一致性,是Gen 2和Pika都完全无法企及的……
举个例子:「雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。」
Sora根据这个提示所呈现的,便是东京在冬日里梦幻的一幕。
无人机的镜头跟随一对悠闲散步的情侣穿梭在街道上,左侧是车辆在河岸路上行驶的声音,右侧是顾客在一排小店之间穿梭的景象。
可以说,Sora的效果已经领先到了恐怖的级别,完全跳出了用冷兵器短兵相接的时代,其他AI视频被彻底干趴。
世界模型成真了??
最最最可怕的一点来了,Sora身上,竟已经有了世界模型的雏形?
通过观察大量数据,它竟然学会了许多关于世界的物理规律。
下面这个片段太令人印象深刻了:prompt中描绘了「一个短毛绒怪物跪在一支红蜡烛旁的动画场景」,同时描述了怪物的动作和视频的氛围。
随后,Sora就创造了一个类似皮克斯作品的生物,它似乎融合了Furby、Gremlin和《怪兽公司》中Sully的DNA。
让人震惊的是,Sora对于毛发纹理物理特性的理解,准确得令人惊掉下巴!
想当初,在《怪兽公司》上映时,皮克斯为了创造出怪物在移动时超级复杂的毛发纹理,可是费了好大一番功夫,技术团队直接连肝几个月。
而这一点,Sora轻而易举地就实现了,而且从没有人教过它!
「它学会了关于 3D 几何形状和一致性的知识,」项目的研究科学家Tim Brooks表示。
「这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。」
得益于DALL·E 3所使用的扩散模型,以及GPT-4的Transformer引擎,Sora不仅能够生成满足特定要求的视频,而且能够展示出对电影拍摄语法的自发理解。
这种能力体现在它对讲故事的独特才能上。
例如,在一个以「色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界」为主题的视频中,项目研究员Bill Peebles指出,Sora通过其摄影角度和拍摄时机,成功地推进了故事的发展。
「视频中实际上发生了多次镜头转换——这些镜头并非后期拼接而成,而是模型一气呵成地生成的,」他解释道。「我们并没有特别指令它这么做,它却能自动完成。」
不过,当前的模型并不完美。它在模拟复杂场景的物理效果上可能会遇到难题,有时也难以准确理解特定情境下的因果关系。比如,某人吃掉饼干的一部分后,饼干可能看起来仍然完整无损。
此外,模型在处理空间细节,如区分左右时可能会出错,也可能在描述随时间变化的事件,如特定的摄影机动作轨迹时,表现不够精确。
好在,它还并不完美。
否则,虚拟和现实的界限,还能区分得清吗?
这不是现实?但是无可否认的是,可怕的事实已经就在面前:一个已经能够理解和模拟现实世界的模型,也就意味着AGI已经不远了。
「唯一真正的视频生成工作」
业内大佬张启煊评价道,「Sora是我目前看到唯一跳脱出空镜头生成、真正的视频生成工作。」在他看来,目前看来Sora跟Pika、Runway是有代差的,视频生成领域终于被OpenAI支配。或许某天3D视频领域,有朝一日也能体会到这种恐惧。
网友们都被震惊到失语:「下一个十年会是疯狂的十年。」
「都结束了,我的饭碗要丢了。」
「整个素材行业都会随着这篇成果的发布而消亡……」
OpenAI就是没法停下干死初创公司的脚步,是吗?
「好莱坞即将发生核爆」。
AI电影制作人和他们目前的项目。
技术介绍
Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。
Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。
通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。
与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。
OpenAI把视频和图像分解为较小的数据单元——「patches」,每个「patches」相当于GPT中的一个「token」。
这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer,覆盖了不同的持续时间、分辨率和纵横比。
Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。
除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。
Sora为理解和模拟现实世界的模型奠定了基础,对此OpenAI认为这是实现通用人工智能(AGI)的重要步骤。
作品欣赏
一列火车穿越东京郊区时,窗户上反射出的迷人景象。
在雪地草原上,几只巨大的羊毛猛犸象缓缓前行,它们长长的毛皮在微风中轻轻飘扬。远处是雪覆盖的树木和雄伟的雪山,午后的阳光穿透薄云,给这个场景增添了一抹温暖的光彩。低角度的拍摄令这些庞大的毛茸茸动物显得尤为壮观,景深效果引人入胜。
无人机从空中俯瞰大苏尔加雷角海滩附近的崎岖悬崖,海浪冲击着岩石,形成白色的浪尖,落日的金色光辉照亮了岩石海岸。远处有一个小岛上立着灯塔,悬崖边缘覆盖着绿色植被。从道路到海滩的陡峭下降和悬崖边缘凸出的景象,展现了海岸的原始美丽和太平洋海岸公路的崎岖风景。
蓝色时刻下的圣托里尼岛航拍视图,展现了白色基克拉迪建筑和蓝色圆顶的绝美建筑。火山口的景色令人叹为观止,灯光营造出一种美丽而宁静的氛围。
一位20多岁的年轻人坐在天空中的一朵云上,沉浸在书本中。
一群活泼的金毛寻回犬小狗在银白色的雪地上嬉戏,它们好奇的小脑袋时而从雪地中探出,被雪花点缀,萌态十足。
在意大利布拉诺一排排鲜艳的彩色建筑中,一只可爱的斑点狗正通过窗户好奇地望向外面。与此同时,街道上人来人往,有的步行,有的骑行。
一幅充满工人、设备和重型机械的建筑工地的移轴摄影。
在一个培养皿中,生长着一片竹林,其中小熊猫们在欢快地奔跑。
一只卡通袋鼠正在迪斯科舞池中跳舞。
在一杯咖啡中,两艘海盗船展开了激烈的战斗,超写实的近景视频。
大佬猜测:游戏引擎加持?
Pytorch联合创始人Soumith Chintala猜测道,「根据Sam Altman发布的所有用户请求视频,Sora似乎是由游戏引擎提供支持,并为游戏引擎生成作品和参数」。
英伟达高级科学家Jim Fan对全新Sora模型,发表了一些自己的观点:
Sora是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的,还是虚构的。该模拟器通过去噪和梯度学习方式,学习了复杂的渲染、「直观的」物理、长期推理和语义理解。
如果Sora使用虚幻引擎5接受过大量合成数据的训练,我不会感到惊讶的。必须如此!
同样,爱丁堡大学的博士生Yao Fu表示,「生成式模型学习生成数据的算法,而不是记住数据本身。就像语言模型编码生成语言的算法(在你的大脑中)一样,视频模型编码生成视频流的物理引擎。语言模型可以视为近似人脑,而视频模型近似物理世界」。
重塑视频行业
虽然,文本转视频技术要威胁到传统电影制作,可能还需要很长时间——
你无法通过简单地将120个Sora生成的一分钟视频拼接起来制作出连贯的电影,因为这些模型无法确保内容的连续性。
但是,这并不妨碍Sora和类似的程序彻底改变TikTok等社交平台。
「制作一部专业电影需要大量的昂贵设备。」Peebles 说,「这个模型将让普通人在社交媒体上制作出高质量的视频内容成为可能。」
参考资料:
Tweets by sama
https://openai.com/sora
如何用AI重做B端产品(附3个案例与3个方法论)?
未分类“ 如何用AI重做B端产品?这是笔者近期的一点思考与实践,期望对你有启发”
2023年ChatGPT的横空出世,让所有人为之一振,有人兴奋(新/大机会到来),有人恐惧(被替代/被抛弃)。
2023年大模型赛道成为了最火热的赛道,一年之内推出N个大模型,它成为了继移动互联网和云服务之后,又一个万众创业的赛道。
作为一名产品人,且不说趋之若鹜,也得小试牛刀。
大模型离你我太远,AI平台玩不懂,那就聚焦自身工作进行思考(正所谓:贴地飞行,聚焦附近),适才有了这篇文章。
本文主要回答一个问题:如何运用AI重做B端产品?
回答此问题之前,我先抛出几个相关观点:
第一,大模型是属于大厂的机会,中小企业的最佳姿态,应聚焦所在行业的AI应用。
除了技术、资源、资金等原因外,还有一个关键原因是通用AI目前的局限性。即它无人类常识,无法真正理解;无人类本能的抽象与类比能力。
如果聚焦某个行业或场景,则可弥补这些能力,这在历史上已被反复验证成功过。
第二,AI是只是工具,是解决方案,而不是需求本身。所以AI的运用一定是基于需求出发,而不能为了AI而AI。
第三,所有现有产品,都值得用AI重做一遍。相对AI+(即用AI做一个新产品),可能+AI(即基于现有产品,重新用AI能力赋能)是更有效运用AI的路径。
01
—
需求是1,方案是0
你现在所面临的问题是什么?它是你运用AI的起点。
笔者是负责一款HR SaaS产品,面临最大的四个问题是:
这四个问题是SaaS产品比较常见的问题,哪些是可以用AI赋能解决的?
基于目前对AI的认知,对自身所负责产品的认知,结合相关领路人(如周鸿祎、傅盛、快刀青衣、白鸦等)的分享与启发,笔者推断:除了问题三之外,其他三个问题,均可通过AI得到有效解决。
问题三可通过商业模式设计、战略选择以及产品设计进行解决,此文按下不表,后续单独分享。本文主要关注AI可赋能解决的三个问题
02
—
所有产品都值得用AI重做一遍
为什么这么说?关键在于它让产品的交互方式,发生了革命性的变化。
PC互联网时代的产品,都是基于网页+鼠标点击的交互方式设计。比如用户要购物,需要找到对应网站的对应下单功能,并用鼠标完成确认;
移动互联网时代的产品,都是基于手机+APP+手指触摸的交互方式设计。比如用户购物则需下载对应App,并用手指触摸确认购物指令;
AI时代的产品,则是基于多模态的自然语言的交互方式设计。它就像2D到3D一样,不再只是依赖单纯鼠标或手指的输入,而是可以采取不同的形态(如语音、视频、图片、文字、动作,甚至是眼球变化、模拟神经元信息等),完成人与系统的交互。
所以我们可以考虑用这种新的交互方式,重做一遍之前用鼠标或手指触摸交互所做的所有产品。
案例1:用AI重做智能客服系统
智能客服功能是SaaS产品的标配,主要是提供自助式服务,帮助客户解决对产品规则与逻辑的疑问,以及遇到问题自助解决一部分(即解决问题一跟问题二)。
实际过程中,却遇到两个阻碍:
GPT4发布后,其对问题与内容的学习能力与“理解”能力,发生了质的变化,所以就可以用AI重新做一遍【智能客服】功能。
关键是两个方面的工作:充足的“养料”、重新定义智能客服产品。
第一,人工梳理足够的“养料”,最好拆分为足够颗粒度的问答模式,提供给AI进行学习。它就相当于是聚焦自身系统,让AI具备足够的“常识”与“理解能力”。
笔者累积的“养料”主要来源于四个方面:
特别说明:这是一个长期持续的过程,只有“养料”足够,以及AI能力的迭代,才能让智能客服达到接近于人的能力。
笔者第一阶段的目标,是期望通过3-6个月的累积,至少解决现有【客户操作类问题】与【客户查询类问题】的50%(即可减少整体产研客诉问题的35%)。
另一方面是通过重新定义智能客服产品,分阶段达成目标。
第一阶段:智能AI能力,转向优先服务内部角色,释放产研能力。直到“养料”与AI能力达到一定阶段后,再进入第二阶段。
具体操作是:
第二阶段:开始将重心转移至直接面向客户,同时提升智能客服的价值与调整产品设计辅助。
具体操作是:
最后一个阶段:完全转型为面向所有人的智能客服产品,包含客户、客服、实施、销售、客户成功。
最终目标是:智能AI客服可以解答客户的50%以上的问题,降低客服30%工作量,同时降低产研客诉问题的60%以上。
03
—
案例2:用AI重做现有产品之有赞
有赞创始人白鸦在2024年产品发布会上,发布了最新的【智能运营系统】,其中分享背景时说:
他们共有7个系统,20000多个功能,菜单数已达上百个,如果按25人日/功能,3000元/人日,那过去11年他们对系统研发的投入将超过30亿。
可是,如此多的功能,如此多的菜单入口,实际用户使用的有多少?又有多少好用功能被埋没?
所以,他们2023年下半年开始全部All in AI,只要超过2个工作日的功能,一定要经过他的授权,否则不允许再开发,由他亲自下场带领团队用AI改造现有产品。
举个例子。
该例子来源于其产品发布会,感兴趣的同学,可前往【有赞说】视频号看直播(比我写的精彩多了,哈哈哈)
它的产品形态是智能助手式为主,并将现有产品功能进行碎片化拆分,与智能助手结合,形成一体化AI产品的解决方案。
这是本文的重点,笔者当时看到这种产品形态时,深受启发,感觉它可能就是目前用AI重做产品的最佳产品形态的切入点,而终局可能就是在此基础之上,新增更多模态的输入与输出。
原因有三:
它是一个从【数据】(销售额)到【建议与行动】(如发优惠券),再到【执行任务】(修改优惠券并自动发放),最后到【反馈数据】(如优惠券使用情况)的场景闭环。
从有赞产品首页,点击【智能小助手】即可进入(如下图):
你可输入“近几天销售额怎么样?”,AI自动生成一个销售额的趋势报表,还可直接点击查看【经营分析建议】
基于经营分析建议,你可直接采取行动:发放优惠券、提高首单转化率。(采取自然语言输入或点击均可实现目的)
当你选择【发放优惠券】时,则AI会生成一个优惠券的【待确认】任务,你可进行修改或发放。
当你确认时,可以通过自然语言输入即可(如可以,继续执行)
最后会有一个独立且清晰的界面,让你最终完成确认发放优惠券。同时,发放结束后,还可直接通过自然语言的方式,在AI界面实现优惠券使用情况,完成这个场景的闭环。
04
—
案例3:用AI重做现有产品之考勤
考勤是笔者负责的一款HR SaaS产品的其中一个子系统,该产品已迭代8年+,功能点200+(预估投入已超上亿元),功能之多,产品逻辑之复杂,不遑多让。
如何用AI重做一遍考勤系统呢?
智能客服相对是独立系统,不存在过多业务逻辑,所以重做时,产品形态、产品定位、产品路径均相对清晰,所以直接重做即可。
如果重做现有产品(它是一体化的完整产品,它是集合了所有业务的产品)时,则需思考以下问题:
首先,它不是一个新系统。只是一种新交互方式,一个新的超级入口。否则我们就不叫用AI重做现有产品。
第二,产品形态。它的终局是一种基于多模态和自然语义交互的智能体(即专用的AI Agent)。但初始产品形态可以是【以单一模态(即文本)和自然语言为主,结合碎片化/场景化业务能力的智能体】,外在表现为一个【聊天】+【执行任务】的小助手。
所谓多模态:就像一维的直线、二维的平面、三维的立体一样,也是在多个维度进行升维。比如文本、语音、图片、视频、文件,甚至是肢体动作、微表情、触觉、味觉、嗅觉等多维能力的叠加;
所谓自然语义交互:就像与人沟通一样,可通过语言描述、语义分析、上下文情境、肢体动作、表情等的表达,让对方100%理解你的意图;
所谓智能体(AI Agent):它是基于普通AI与通用生成AI之间的一种AI,它主要是可以识别与分析任务、拆解任务、执行任务等,表现为一个“小助手”的角色。
比如订机票/酒店的智能体,你可以像跟你的助理一样,跟它进行沟通,它可以识别你的自然语言信息,并与你反复沟通、确认,最终帮你实现订机票的任务。
或比如案例2所演示的过程,也是一个单一模态的智能体。
第三,产品定位。它不是新系统,那它的产品定位前期可以是现有系统的“助手”,目标是成为“接班人”。
所以,对于用户而言,它与智能客服系统、其他子系统(如招聘、绩效、培训、薪资、社保等)是一个产品,也是同一个入口。
它与现有不同子系统的关系是共存与辅助关系,但不排除长远的将来,最终直接替代的可能性。
第四,产品路径。产品形态、产品定位确认的情况下,探索最佳产品路径时,则可【以终为始,全局思考;以始至终,最小闭环】和【小切口,大纵深】的方法论,全面梳理产品场景,确认关键场景后,选择最小闭环的切口进行切入,最终实现全局的大纵深。
具体流程是:
第一,从关键用户的视角,梳理完整用户旅程图。
此环节有两个关键点:
第二,全面梳理与拆解场景,并确认关键场景与关键功能优先级。
基本逻辑是:横轴是【场景】,纵轴是【功能维度】。此处为方便,直接采用Excel表方式,但逻辑是一致的。
根据对关键角色的场景判断,可形成以下优先级:
P0:排班、调班、加班
P1:假期(限年假)、报表
P2:工作台、考勤确认、补贴、扣款、外出/出差
P3:假期(非年假)、打卡
一期可聚焦P0场景,按场景频次(越高频越优先)、通用性(越通用越好)、AI复杂度(越低成本实现越优先)、用户价值(越大越优先)四个维度,至少再分拆2-3层子场景/功能的优先级。
比如排班场景。
第一级可按流程进行子场景进行拆分,第二级再按子场景中的不同功能进行拆分(如下图)。
比如加班场景。将其进行二级拆分后的优先级(如下图)
第三,明确【最小闭环】的【小切口】,形成版本落地规划。
最后,根据客户反馈与上述场景,不断纵深,不断演化即可。
05
—
总结
第一,所有产品都值得用AI重做一遍(B端产品也不例外),但一定遵循【需求是1,方案是0】的方法论。
需求成立,方案才有价值。需求的核心是,定义清楚所需解决的问题;方案的核心是,定义清楚产品形态、产品定位与产品路径。
第二,可采取【以终为始,全面梳理;以始为终,最小闭环】和【小切口,大纵深】的方法论,进行AI产品的产品形态、产品定位与产品路径的定义;
第三,产品形态。B端产品应用AI的终极产品形态,一种基于多模态和自然语义交互的智能体(即专用的AI Agent)。但当前的最佳切入点是【以单一模态(即文本)和自然语言为主,结合碎片化/场景化业务能力的智能体】。外在表现为一个【聊天】+【执行任务】的小助手。
第四,产品定位。它不是新系统,却是一种新型入口,也是一个超级入口。采用新型交互方式,重新设计现有所有产品的入口。它与现有产品的关系,前期是“助手”,后期是“接班人”。
最后,AI应用的关键在于“养料”与时间周期,它是一个长期工程,别期望一蹴而就。前期它可能并不如你所预料的那么神奇,也不能解决你所面临的所有问题,但只要花足够的时间和耐心去储备足够的“养料”,也需花时间去与它一起进化,最终可能会形成一个新物种。
06
—
推荐学习
笔者是一个实践者,而不是创造者。所以本文所涉及的大多数想法以及方法论(意思还是有点原创的哈,哈哈哈),均不属于原创。
基于互联网的开放、共享理念,笔者也将相关原始出处分享给你。
1、关于“用AI重做B端产品的产品形态”的启发与案例,来自于有赞11周年的产品发布会,可在其视频号【有赞说】自行去看(重点是第5和第6集);
2、关于“AI助理”(即AI Agent)的应用案例,还可推荐前往【钉钉】学习其2024年的7.5版本发布会【我的超级助理】;
3、关于【小切口,大纵深】的产品方法论,来自于360创始人周鸿祎先生,他与罗胖、傅盛的对话中,都提到此方法论;
– 内容源1:可去【得到App】-【首页】-【直播】-【直播回放】中,查看【向红衣大炮“开炮”!所有人问周鸿祎】
– 内容源2:可去【混沌学园】搜索【傅盛】的【开年AI大课-企业私有化大模型来了】的【圆桌论坛】部分;
4、关于文中提到的AI相关的例子与概念等,则推荐阅读【AI 3.0】、【深度学习革命】,以及【第一财经(2024年第1期)】。
5、如果你愿意付费的话,那可前往【得到】订阅【AI学习圈】,跟着快刀青衣学AI,他通过广播、实践课程、公开课等方式,提供AI相关的学习服务(权当我给快刀打广告了,哈哈哈,虽然他压根都不认识我,也不给推广费)。
最后,鉴于以上内容都属于公开、带有商业性质,所以如果有相关不合时宜的宣传和不合规之处,请及时提出,笔者及时更改。
另,上述内容并不适合(或没办法)直接把对应链接附上,所以有找不到的情况,可留言沟通~
OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真
News淼链科技导读:还记得电影“HER”中的画面吗?梦想照进现实,免费还有API接口,应用端大家卷起来吧!工具会越来越丰富!
【新智元导读】OpenAI说要改变历史,他们做到了!今夜的发布会上,「Her」彻底成真。GPT-4o加持的ChatGPT,和人类的对话丝滑得像个真人,惊掉在场所有观众的下巴。眼看着科幻中的设想一件件成真,活在这个奇点临近的时代,我们何其幸运。
传说,这一夜,OpenAI要改变历史。
看完发布会的观众们,久久未从巨大的震惊中走出——科幻电影中的「Her」,在此刻成真了!
在全场欢呼中,CTO Mira Murati走到台上,为全世界揭晓了OpenAI神秘新产品的面纱——
GPT-4o,在千呼万唤中登场了。
现场演示中,它的表现仿佛一个人正坐在旁边,和人类的对话节奏自然、融洽,完全听不出是个AI。
从今夜之后,人机交互彻底进入新的时代!
这也正呼应着它名字中的玄机:「o」代表着「omni」,意味着OpenAI朝着更自然的人机交互迈出了重要一步。
在短短232毫秒内,GPT-4o就能对音频输入做出反应,平均为320毫秒。这个反应时间,已经达到了人类的级别!
并且,它可以将文本、音频、图像任何组合作为输入和输出。
而在英语文本和代码基准测试中,GPT-4o的性能与GPT-4 Turbo不相上下,并在非英语文本得到显著改进。
更值得一提的是,这款全新的AI模型,免费向所有人提供GPT-4级别的AI。
(是的,上周在LMSYS模型竞技场上引起整个AI圈疯狂试用的那个gpt2,就是它!)现在,进入ChatGPT页面,Plus用户可以抢先体验「最新、最先进的模型」GPT-4o。
Sam Altman亲自在x上发起了产品介绍。
Altman介绍道「GPT-4o是OpenAI有史以来最好的模型,它很聪明,速度很快,是天然的多模态。」
而且,所有ChatGPT用户都可以使用,完全免费!
Altman特意强调,此前虽然只有按月付费的用户才能使用GPT-4级别的模型,但这可不是OpenAI的本意哦。
「我们的初心,就是把最出色的AI工具,交到每个人的手中。」
(还想着,这场重要的发布会,奥特曼怎么没有现身,原来在观众席中)
而即将召开年度I/O大会的谷歌,不甘示弱,也开启了语音助手的demo实时演示。
谷歌DeepMin的CEO Demis Hassabis激动地表示,自己将首次在I/O大会上演讲,并分享他们所做的工作。
两大巨头正面刚起来了!明天还有好戏要看,已经闻到硝烟味了。
一夜颠覆语音助手:全新旗舰GPT-4o登场
当然,这次发布会的压轴主角,就是OpenAI推出的旗舰模型GPT-4o了。
这个带着光环登场的模型,其最大意义就在于,把GPT-4级别的智能,带给了OpenAI的每一位用户!
从此以后,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了。
唯一不同的是,ChatGPT Plus的消息限制是免费用户的5倍。
并且,GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力。
注意,GPT-4o接下来要放大招了。
实时语音对话:ChatGPT完美变身Moss
研发负责人Mark Chen首先展示的,是全新ChatGPT的关键功能之一——实时语音对话。
他向它问道:「我正在台上,给大家做现场演示呢,我有点紧张,该怎么办呀?」
ChatGPT非常体贴地表示:「你在台上做演示吗,那你真的太棒了!深呼吸一下吧,记得你是个专家!」
Mark疯狂地大喘气几次,问ChatGPT能给自己什么建议吗。(此处全场笑声)
它惊讶地说道:「放松啊Mark,慢点呼吸,你可不是个吸尘器!」(它的幽默感,也再次引起全场哄笑)
注意,在这个过程中,ChatGPT和Mark的互动几乎无延迟,随时接梗,共情能力满分。
而且,模型能够理解人类在对话中适时「打断」的习惯,会及时停下来听你说话,并给出相应的回复,而且也不会「断片」。
比如,Mark表示自己要再试一遍深呼吸,此时ChatGPT也恰到好处地插进来接话说「慢慢呼气」。
整个过程,自然连贯得仿佛它是个坐在你对面的人类,完全没有AI的机械感和僵硬感!
相比反应迟钝、没法打断还缺少情商的Siri等语音助手,这局ChatGPT完胜。这,才是人类最理想AI语音助手的样子啊,Moss果然成真了!
不仅如此,ChatGPT的「高情商」也让观众们惊呼太顶了!对话中,它可以听懂用户说话时不同的语调、语气,还能根据自己的台词生成不同语气的语音,完全没有「机械感」。
扮演不同角色,给任性的人类讲睡前故事
接下来,ChatGPT被要求讲一个睡前故事,主题是「恋爱中的机器人」。
ChatGPT没讲几秒,就被人类粗暴地打断了:「多点情绪,故事里来点戏剧性行不?」
ChatGPT表示ok,用更起伏的声调、更夸张的语气开始讲起了故事。
结果没几秒,它又被再次打断:「不行不行,再多点情感,给我最大程度的表达可以吗?」
接下来,我们听到一个仿佛在舞台上表演莎剧的ChatGPT,语气夸张到仿佛是个戏剧演员。
随后,它又多次被打断,并且耐心地按照人类的要求,依次变成了机器人声和唱歌模式。
ChatGPT听到要求自己唱歌时,甚至叹了口气,然后开始亮起了优美的歌喉。
这也就是ChatGPT脾气好,要是真人,估计要被暴打了。不过它无奈叹气的那个瞬间,一瞬间的确san值狂掉——真的好像人啊!
视频实时互动解方程
秀完情商,ChatGPT要开始秀智商了。
下一个任务,另一位研发负责人Barret手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演「在线导师」的角色帮助自己解题,而且只能给提示,不能直接说答案。
接到任务的ChatGPT,甚至开心大叫:「Oops,我好兴奋啊!」
小哥在纸上写下这样一个方程:3x+1=4。然后问ChatGPT自己写的是什么方程,ChatGPT语调自然地回答出来了。
随后,在小哥的要求下,它一步一步说出了解题步骤。
最厉害的是,随着小哥在摄像头中解题,ChatGPT实时地就给出了鼓励和引导。
而且可怕的是,时间上没有丝毫延迟,这边人还在算呢,那边就实时给出了评价和反馈。(说背后没藏个人还真不信呢)
想起之前谷歌剪辑版的Gemini演示,这对比之下真是打脸啪啪的啊。
当被问到「学习线性方程在生活中有什么用」这样的问题时,ChatGPT还会举出实际的例子对你「循循善诱」:
不仅言之有物,而且态度及其和蔼,说话说到一半被打断时都不会生气。
方程的任务告一段落,两人还现场来了一波表白——在纸上写下「我❤️ChatGPT」。
ChatGPT看到后,惊喜又害羞地说:「哦,你竟然说爱我,你太可爱了!」
桌面版ChatGPT秒解代码难题
解方程任务也许还不能充分展现ChatGPT的能力,于是OpenAI又上了一波难度——看代码,并进行简短描述。模型几乎是立即理解了代码,并给出了丝滑且完整的描述。比如准确对应了函数名及其功能,并识别出了其中取平均值、最高值等操作的意图。
当被问到「如果没有foo这个函数,绘制的图表会是什么样子」,ChatGPT也立即做出了正确回复,可见已经完美理解了代码中的内在逻辑。
接下来,ChatGPT还被要求概述代码生成的图表,并回答用户问题。
不出意外,图表中各方面的关键信息也都被ChatGPT精准捕捉到了,包括x、y轴的信息与范围、数据标注的含义等。
随后Mark提出的问题是「你看到哪个月的气温最高?对应的最高气温大概是多少?」
这种能作为学校数学考试题目的图表理解任务,ChatGPT解决起来也几乎没有障碍,还能像接受面试一样实时回答你的问题。
直播观众提问:给你看看我的自拍
模型演示之后,还有彩蛋。
发布会在线上同步直播,于是主持人收集了一些推特网友的提问,并且当场展示。
这可以说是比演示更加刺激的环节,在没有准备和彩排的情况下,这可是真刀真枪地检验模型实力了。
第一位网友的提问是「GPT-4o是否具有实时翻译功能?」随后,在Mark的任务定义下,ChatGPT完成了将英语「同声传译」为意大利语的任务。
第二位网友的提问是「模型可以只通过我的表情识别情绪吗?」研发负责人Barett也没在怕,拿起手机就照了一张自拍,甩给了ChatGPT,问道「我现在是什么情绪呢?」
ChatGPT不知是幽默了一把还是翻车了,说「我好像在看一个木质表面的东西」。见势不好,Barett匆忙打断。他在提示工程方面也是经验颇深,一句话就将对话拉回正轨:「那是我之前发给你的的东西,不用担心,我不是一张桌子」。
ChatGPT表示,啊,这就对了嘛。再次引起全场哄笑。这次它给出了非常「人性化」的正确答案——「看起来你非常开心快乐,带着大大的笑容,可能甚至有一点兴奋。无论正在发生什么事,似乎你心情很好,愿意分享一下有什么高兴事吗?」Barett顺势表示:「我开心的原因是我们正在做演示,你的表现很棒。」受到夸奖的ChatGPT居然很风趣地来了一句「哦,别说了,你都让我脸红了」,再次逗笑了全场。
Greg Brockman亲自演示
除了发布会上的现场演示之外,OpenAI总裁Greg Brockman也亲自下场,在网上发布了一段自己使用ChatGPT各种功能的视频。
GPT-4o强在哪儿?
GPT-4o强在哪儿?
在过去几年里,OpenAI一直在专注于提升模型的智能水平。
虽然后者已经达到了一个相当的水平,但是,今天这是第一次,模型在易用性方面,迈出了一大步!
为什么会把模型的易用性提到如此战略层面的高度?这是因为,即使一个AI再强大,如果它不能和人有效互动,也就失去了意义。
在这个过程中,OpenAI所着眼的,是人类和机器交互的未来。
而今天GPT-4o的发布,可能会成为一个分水岭,让人机协作的范式彻底迈入一个新阶段!
为此,OpenAI希望把GPT-4o和人类的互动,打造得格外舒服自然。
不过,虽然这个理想很宏大,但是在实际操作过程中,却遭遇了不小的困难。
毫秒级响应,与人类对话一致
首先,在人类之间互动时,有很多东西是我们认为理所当然的,但要让AI理解这些,就变得很困难。
比如,我们的谈话经常被打断,谈话过程中会有背景噪声,会有多个人同时说话的情况,说话人的语气语调也经常发生微妙的变化。
OpenAI克服了很大困难,花费了数月的时间,终于打造出了完美适应这些状况的GPT-4o!
在GPT-4o发布之前,通过语音模式(Voice Mode)与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。
当时,为了实现这一点,「语音模式」设有三个独立模型的管线:- 一个简单模型将音频转录成文本- GPT-3.5或GPT-4接收文本并输出文本
– 第三个简单模型将文本转换回音频
这一过程走下来,意味着主要的智能来源GPT-4就丢失了很多信息:
而这也导致了延迟,大大破坏了我们和ChatGPT协作的沉浸感。
但现在,GPT-4o让一切都发生得很自然。
它能以平均320毫秒,做出响应。
它可以跨越语音、文本、视觉多种形式,直接进行推理!
GPT-4o是OpenAI首个端到端训练的跨越文本、视觉和音频的新模型,意味着所有输入和输出都由相同的神经网络处理。
这就会彻底颠覆ChatGPT 1亿用户的工作和生活。
不仅如此,由于GPT-4o是「原生的多模态」,自然地集成了语言、视觉和音频等多种能力。
用户可以上传各种图片、视频,以及包含图片和文字的文档,讨论其中的内容。
GPT-4o也内置了搜索功能,可以实时搜索网页信息来回复用户。
相比ChatGPT,GPT-4o的记忆能力更是提升了不少,不仅在对话中可以记住你提过的问题,还能记住你们之间的所有对话,提供「连续感」。
更高级的是,新版模型还具备了数据分析能力,可以理解并分析用户上传的数据和图表。
而且,为了真正实现「让AGI惠及全人类」的愿景,GPT-4o有50种语言的版本,并改进了推理的质量和速度,这也就意味着,全球97%的人口都可以使用GPT-4o了!
GPT-4o刷新SOTA,击败「开源GPT-4」还免费用
GPT-4o的具体性能表现如何?
接下来的图表中,可以看到,OpenAI对此前所有堪称超越GPT-4版本的模型,做出了统一回应:
在传统基准测试中,GPT-4o在文本、推理和编码智能方面,达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新高。
如下是,在文本评估中,GPT-4o几乎碾压一众模型,包括Claude 3 Opus,Gemini Pro 1.5,甚至是「开源版GPT-4」Llama 3 400B。
GPT-4o在零样本的COT MMLU(常识问题)上创造了88.7%的新高分。
与传统的5个样本,没有使用COT的MMLU评测中,GPT-4o更是创下了87.2%的新高分!
不过在DROP中,GPT-4o的表现稍落后于GPT-4 Turbo。
在音频ASR表现上,比起Whisper-v3 ,GPT-4o显著提高了所有语言的语音识别性能,尤其是对资源较少的语言。
再来看音频翻译能力,GPT-4o刷新SOTA,并在MLS基准上超过了Whisper-v3。
另外,OpenAI团队还对最新模型GPT-4o在M3Exam基准上进行了测试。
这是一种多语言和视觉评估基准,由来自其他国家标准化测试的多项选择题组成,有时还包括数字和图表。
结果如下表所示,在所有语言的测试中,GPT-4o都比GPT-4强。
(在此,省略了Swahili和Javanese两种语言的视觉结果,因为这些语言只有5个或更少的视觉问题。)
最后,在视觉理解基准EVALS评估上,GPT-4o也取得了领先的性能。
同样,击败了GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro,以及Claude 3 Opus。
ChatGPT免费用户,可以访问的功能
OpenAI官博还介绍了,ChatGPT免费用户可以访问新模型加持下的功能,包括:- 体验GPT-4级别的智能- 从联网后的模型得到响应- 分析数据并创建图表- 畅聊你拍的照片- 上传文件以帮助总结、撰写或分析- 发现和使用GPTs和GPT Store
– 用记忆构建更有用的体验
比如,你拍一张照片发给ChatGPT,然后问「这个食物的营养价值是什么」?
ChatGPT瞬间做出响应,解释了牛角包的营养价值。
免费用户还可以体验到联网搜索的快乐。(当然是最新最强模型)
「帮我推荐达拉斯5个适合夜晚约会的餐厅」。
ChatGPT通过搜索3个网站,立即总结出了你想要的结果。
另外,免费福利还包括,在GPT商店中使用模型。
API速度飙升2倍,再打骨折
此外,让开发者兴奋的是,GPT-4o不仅应用在ChatGPT服务中,模型的API也被同步放出,可以部署各种下游应用程序上。
同时,API的性能也有所改进,据说相比GPT-4 Turbo,推理速度提升2倍,消息限制提高五倍,而且价格还会降低50%。
OpenAI开发者在线呼吁,赶快来体验。
ChatGPT桌面版也来了
正如Murati一出场开宗明义的:对OpenAI来说,打造一款真正让所有人可用的产品,非常之重要。
为了让每个人无论身在何处,都能随时用上ChatGPT,OpenAI发布了ChatGPT的桌面版本。
它拥有桌面应用程序,和全新的用户界面,可以很轻易地和我们的工作流融为一体。
桌面版ChatGPT APP
只需一个简单的快捷键——Option+空格键,就可以立即召唤桌面版ChatGPT。
甚至,你也可以直接在应用程序中截图,并进行提问。
然后,让其帮你总结所截取的网页内容——「将其总结成5个主题,并列出行动计划」。
接下来,ChatGPT一通炫技,嗖嗖嗖地解决了提出的问题。
你甚至,可以从你的电脑上直接与ChatGPT进行语音对话,点击桌面应用程序右下角的耳机图标,便可开始。
同时,OpenAI还全面改版了UI界面,让它和用户的互动也变得更自然,更简单了。
神秘gpt2就是GPT-4o!
「这么厉害的GPT-4o,早已是你们的老熟人了」,ChatGPT官方账号在线卖起关子。
这,究竟是怎么回事?
几天前,大模型LMSYS竞技场上,一个名为gpt2神秘模型突然现身,其性能甚至超越了GPT-4。
注:最初以gpt2命名,现在升级为两个版本「im-also-a-good-gpt2-chatbot」和「im-a-good-gpt2-chatbot」
全网纷纷猜测,这个模型,可能就是GPT-4.5/GPT-5。
就连Altman本人多次发贴,暗示gpt2的强大能力——
如今,gpt2的身份,真的解密了。
OpenAI研究科学家William Fedus刚刚发文, 一直在测试的版本「im-also-a-good-gpt2-chatbot」就是GPT-4o。
以下是它一直以来的表现。
im-also-a-good-gpt2-chatbot总ELO得分,超过了最新的gpt4-turbo-2024-04-09。
但ELO最终得分,会受到「提示」难度的限制(即无法在类似「你好吗」这种简单提示上取得任意高的胜率)。
OpenAI团队发现,在更难的提示集合上——尤其是编程方面——存在更大的差距:
而GPT-4o在我们此前的最佳模型上,ELO甚至可以提高100分。
最关键的是,GPT-4o不仅是全世界最好的模型,甚至可以在ChatGPT中免费用。
另一边,LMSYS发布了最新的gpt2-chatbots结果,已经跃升至大模型竞技场榜首!
奥特曼对此大赞,「令人惊叹的工作」!
OpenAI联创Greg Brockman表示,「初步的指标看起来很有前景」。
接下来,就看明天谷歌I/O大会上的表现了。
参考资料:https://twitter.com/gdb/status/1790071008499544518
https://openai.com/index/hello-gpt-4o/
https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/
上海淼链科技联合苏州复能科技,入选WAIC2024大模型典型示范应用案例集
未分类2024年7月4日至6日,2024世界人工智能大会(WAIC)暨人工智能全球治理高级别会议在上海召开,大会围绕“以共商促共享 以善治促善智”主题,打造“会议论坛、展览展示、评奖赛事、智能体验”四大板块,邀请了世界顶级科学家、企业家、投资人来沪,共商人工智能领域前沿技术、产业动向、向善治理。
7月5日,在“迈向 AGI:大模型焕新与产业赋能”论坛上,中国信通院华东分院、上海人工智能实验室及相关代表企业联合发布了《2024大模型典型示范应用案例集》,旨在展现具有先进性、引领性、示范性的典型案例,推动大模型产业生态持续繁荣发展。该案例集囊括目前国内最新最全的大模型应用实践案例,覆盖新能源、医疗、金融、法律、教育等全行业,集结大模型行业最有代表性产业应用案例优秀企业。苏州复能科技和上海淼链科技联合申报的《面向零碳能源的工商业储能系统》成功入选,网易、百度、钉钉、蚂蚁等98家企业入选。
上海淼链科技有限公司是一家致力于推进AI技术在各行业应用的高新技术企业,专注于为客户提供全面的数字化、智能化解决方案。公司汇聚了来自微软、Oracle、新加坡国立大学、复旦大学等顶尖企业和高校的专业人才。淼链科技结合不同行业的特定需求,集成了机器学习、自然语言处理、计算机视觉等AI技术,提供定制化的AI解决方案,涵盖教育、法律、能源、工业制造等多个领域,推动企业业务流程的智能化改造和企业效率的全面提升。
淼链科技受邀参加海华永泰律所人工智能沙龙
News2024年6月28日,海华永泰人工智能法治前沿沙龙在海华永泰律师事务所举行,本次沙龙由中国电视剧制作产业协会法务工作委员会、上海市海华永泰律师事务所联合主办,来自高校的专家学者、人工智能产业界的行业精英等数十人齐聚一堂,淼链科技CEO张英女士受邀参加并发表《AI企业应用探讨》的主题演讲。
淼链科技创始人兼CEO张英围绕人工智能在各行各业的应用展开精彩分享。她首先展示了Sora最新生成的首个广告宣传片《玩具反斗城的起源》,指出这种技术提升物理维度空间感,并可以将商业素材融入到视频中,未来对于企业级商业级应用可大幅降低企业广告制作成本。随后,她详细介绍了AI在图像生成、音乐创作等领域的应用,并分享了短剧内容生成等前沿案例。在企业应用方面,她介绍了AI如何赋能工程、财务、IT、运营、人力资源等各个部门,提高工作效率。她还分享了摩根士丹利、互惠保险等多行业应用案例,展示了AI在金融、保险、医疗、制造业等领域的广泛应用前景。她同时强调,AI不仅能提高工作效率,还能辅助企业管理者进行风险预警、合同审批等决策。
上海淼链科技有限公司是一家致力于推进AI技术在各行业应用的高新技术企业,专注于为客户提供全面的数字化、智能化解决方案。公司汇聚了来自微软、Oracle、新加坡国立大学、复旦大学等顶尖企业和高校的专业人才。淼链科技结合不同行业的特定需求,集成了机器学习、自然语言处理、计算机视觉等AI技术,提供定制化的AI解决方案,涵盖教育、法律、能源、工业制造等多个领域,推动企业业务流程的智能化改造和企业效率的全面提升。
制造业数智化,长三角潜力巨大 | 复旦管理大视野走进苏州论坛精粹
News淼链科技导读:“数智互联 焕新未来”复旦管理大视野走进苏州,淼链科技总经理、复旦管院EMBA张英受邀参加,与复旦管院陆雄文院长、国家发改委原副主任彭森教授、上海人工智能学会理事长张浩教授、江苏南大光电材料董事长冯剑松共同对话人工智能未来发展。
✔ 我国战略性新兴产业增加值占GDP的比重已超过15%,将对中国经济社会全面和长远发展发挥重要引领作用。
✔ 制造业数字化和智能化趋势不可逆转,尤其是在长三角这样的经济发达区域潜力巨大。
✔ 在科技创新的道路上,管理学院要发挥作用,既要培养适应科创时代的管理人才,也要进行学术研究赋能科创企业。
“数智互联 焕新未来”复旦管理大视野4月28日走进苏州。中国经济体制改革研究会会长、原国家发改委副主任彭森教授,上海市人工智能学会理事长张浩教授做主题分享。陆雄文院长围绕人工智能产业发展、科创管理教育理念等话题,与江苏南大光电材料股份有限公司董事长冯剑松、淼链科技有限公司总经理张英等多位嘉宾展开深入对话。
未来产业是中国式现代化关键动能
▲中国经济体制改革研究会会长、国家发改委原副主任彭森教授
新的生产力是实现高质量发展,加速推进中国式现代化的必然要求。新质生产力核心特征是创新。生产力的发展不仅意味着技术的突破和产业的深度转型升级,也体现在生产要素的创新性配置上。
为保持中国经济的持续稳定健康发展,实现高质量发展,首先需充分发挥创新的主导作用,通过科技创新推动产业创新,以颠覆性技术和前沿技术引领新产业、新模式、新动能的诞生。其次,要推动经济结构和增长模式的转型升级,尽快走出一条以创新驱动发展,逐步替代传统要素驱动、投资驱动的增长模式转换之路。
近年在人工智能、航天科技、量子通信、生物技术等领域,都出现了大量影响世界和人类前途命运的颠覆性技术。其中,人工智能和5G等信息技术已进入产业化使用阶段,基因科学、生物医药等领域取得突破性进展。新能源、航天科技的技术突破频繁出现,量子通信、工业互联网等前沿领域的创新日益实用化,呈现集体性突破趋势。
去年,中国货物进出口增长仅0.2%,但锂电池、光伏、新能源汽车逆势增长,出口增长了29.9%。全国投资仅增长3.0%,航空航天及其制造业、计算机基础、办公设备制造业的投资分别增长了18.4%、14.5%和11.1%。新质生产力及其赋能的战略性新兴产业、未来产业正在成为推动中国式现代化的关键动能。
当前,我国战略性新兴产业增加值占GDP的比重已超过15%,对中国经济社会全面和长远发展发挥重要引领作用。新质生产力将推动现代产业体系建设,特别是产业链供应链的优化升级,为前沿氢能、新型储能、生成式人工智能、商业航天、低空经济及量子技术、生命科学等产业的创新发展提供增长引擎。
制造业数智化前景广阔
▲上海市人工智能学会理事长张浩教授
人工智能发展至今,已经经历了两次浪潮,目前,我们正处在第三次浪潮的高峰。这一阶段的里程碑事件包括IBM的“深蓝”在国际象棋上战胜世界冠军、Google的图像识别技术、“AlphaGO”战胜围棋冠军,以及近年来的ChatGPT和Sora等AI内容生成技术的兴起。
在人工智能的研发原创维度上,我们对比美国还有一定差距。但是,中国的人工智能落地场景比美国多得多,而且在有些行业中已经产生效益。
例如医疗图像辅助、教育个性化、农业智能化、智能家居、无人驾驶和智能安防等多个领域。尤其在制造业领域,人工智能技术的应用有广阔的发展前景。
制造业数字化和智能化的趋势不可逆转,尤其是在长三角这样的经济发达区域,潜力巨大。
关于人工智能在制造业中的应用,尽管目前存在挑战,但凭借数字孪生技术等先进技术,人工智能将在产品设计、生产、物流和制造系统等核心环节发挥越来越重要的作用。
未来,人工智能将更加深入地融入制造业,助力提升整个行业的竞争力。
适应科创时代的管理人才和管理研究提高科创企业成功率
▲江苏南大光电材料股份有限公司董事长冯剑松
企业转型的根基取决于我们怎么去适应行业的变化,在长期的发展中找到立足点。一家科创企业究竟能做多大、走多远,取决于它能解决什么问题。
伟大理想和现实实力产生的矛盾就是管理陷阱。企业走出管理陷阱的过程中,在管理、制度和产品三个维度上要同时进行创新。
第一个阶段是产品创新,第二个阶段是管理变革,第三个阶段是公司战略变革。管理对企业的创新发展作用非常大,当然,在不同的发展阶段,不同的行业中,管理实践所表现的复杂性和解决的问题可能不一样。
▲淼链科技有限公司总经理张英
人工智能意味着一个新的时代的到来,企业从内部的组织架构、人员技能的改变、都需要围绕着AI来进行赋能,所有的企业都面临着重塑,因此这个赛道的创业企业市场机会有一个周期性的持续,市场机会潜力较大。
作为企业的管理者,纵向要关注整个供应链上下流,自身企业所处在的环节,是否有可能受到AI的影响从而影响企业的核心业务。横向则要关注同行业的企业,是否已经开始在做AI相关的赋能,以及人员的培训及储备,从而在效率以及竞争力上,在未来对自身企业产生冲击。对于前沿的产品,以及科技相关的内容,管理者需要花一定时间去了解,去思考未来5-10年的公司层面的战略,AI未来一定会融入到我们生活、以及工作的各个方面。
虽然目前在大模型以及在算力上,我们面临着一些挑战,对于由于中国在数字化转型过程中,各行业积累了大量的数据,而AI赋能企业最核心则是需要有效的数据进行模型的训练,因此在行业模型的应用层面上,我们有着非常好的基础。人工智能虽然每天都在发生着变化,以及迭代与更新,但是这一定是一个长周期的影响及改变。因此我们在自身行业进行沉淀一定会有所突破。
▲复旦大学管理学院陆雄文院长
当前,我们正面临百年未遇的复杂局面,社会经济发展的逻辑在政治、经济、宗教、历史和文化各个领域均发生了深刻变化。在这样的背景下,解决问题不再能依赖于单一的知识、学科或方法,更不能用过去的逻辑去应对未来的挑战。
科技创新是时代的必然趋势,中国过去在产业结构调整和技术转型方面并未完全成功,很大程度上是因为关键技术难以获得。而今,科技创新成为了我们必须承担的任务,它关乎到国家的战略选择和生死存亡。
在科技创新的道路上,管理学院要发挥作用,首先要培养符合科创时代需求的管理人才。我们要培养管理者具有更加开放的思维和心态。在大变革时代,持续的学习和自我充电对于提升未来思辨能力和解决问题能力至关重要。
其次,管理学院也要通过学术研究赋能企业的科技创新。科技创新不仅是一个技术问题,它最终要转化为生产力、产品、产业乃至整个经济的繁荣和增长。这一过程中,管理学的作用不可或缺,因为良好的管理能够加速科技创新和产业革命的步伐。
▲ 复旦大学EMBA苏州同学会会长、江苏常熟市农村商业银行原董事长宋建明校友致辞
▲ 复旦大学EMBA未来工业协会执行会长、菲尼克斯中国投资有限公司副总裁杨斌校友致辞
▲ 复旦大学管理学院孙一民副院长做院情报告
▲ 复旦管理大视野走进苏州论坛全场合影
▲ 当天还举行了2024复旦大学EMBA苏州同学会联合未来工业协会年会