编者按:很多人都预测2023年将是AI之年。但AI显然不是今年才开始爆发或者炒作起来的。但是2022年图像生成工具以及聊天工具ChatGPT等消费者化是人工智能开始普及应用的标志,2023年这股趋势只会愈演愈烈。本文剖析了AI的用例与商业模式,也许我们将迎来继农业革命、工业革命以来的第三种通用技术的普及。文章来自编译。
现在AI令人兴奋的一点是平台层正在固化,这意味着应用层该出现了。换句话说,也就是你我每天都会接触到的东西该出现了。
过去这几个月的时间里,我已经写了好几篇与AI正在发生的事情有关的文章。鉴于这是我们进入2023年要面对的技术主题,在此我想把那些文章都整合一下,写一篇深度探讨的文章,然后进一步拓展。
其结果是这篇文章的篇幅要长很多,但在关于我们现在处在什么位置的事情上,我希望它能提供一份类似‘国情咨文’的快照,同时就“我们未来要去哪里”给出一些提示。
让我们开始吧。
每当我思考人工智能领域在发生着什么时,我往往会想到两部电影。一部是33年前问世的老片,一部是10个月前问世的新片。
1990年上映的《超国度》几乎已被人遗忘。这部科幻电影的导演是道格拉斯·亚当斯,他更出名的身份是《银河系搭车客指南》的作者。电影的假设是亚当斯对被动式的线性电视已经厌烦了,电影称就是“那种发生在你身上,而你就像一个沙发土豆一样坐在它面前的电视。”
为了寻找更具互动性的媒体形式,亚当斯把他的电视带到了一个垃圾场,在那里他遇到了汤姆。汤姆是一位软件代理——本质上属于一个数字管家,能够根据你的特定兴趣为你提供个性化的信息和娱乐饮食。汤姆带领我们的主人公穿行于一个超媒体的虚拟世界——一个由链接的文本、声音、图像和视频组成的世界。换句话说,汤姆带着亚当斯踏上了互联网之旅。。
《超国度》,尤其是汤姆这个角色,让我想到了我们目前的现实:人工智能驱动的算法推荐引擎,根据我们独特的兴趣图谱塑造出的一个超个性化的互联网。这就是我所说的“一切都被TikTok化”。
我想到的第二部电影面世的时间要近得多:2022年3月的《瞬息全宇宙》,在我看来,这有可能是今年奥斯卡最佳影片的潜在竞争者。在我最近的记忆中,《瞬息全宇宙》属于线索比较混乱的电影之一。这部电影讲述的是伊芙琳的故事,她是一名中国移民,经营着一家正在接受美国国税局审计的自助洗衣店。伊芙琳很快发现,她生活在无限宇宙里面的一个宇宙,她必须穿越多重宇宙才能拯救她的家人。
从很多方面来说,这部电影都是对互联网之乱的隐喻。在接受Slashfilm的采访时,电影导演之一的丹尼尔·谢纳特是这么说的:“我们希望这部电影的极简主义能够与没完没了地刷屏的感觉建立关联”。
YouTuberThomasFlight称《瞬息全宇宙》是第一批“后互联网”电影之一,因为它捕捉到了在线生活的怪异之处。生活在2023年的迷人的一点在于,我们的大脑与一个世纪前相比没有什么不同,但我们的世界在100年内却发生了翻天覆地的变化。正如Flight所说的那样:“我们现在生活在这样一个时代,在一次30分钟TikTok狂欢里,我们体验到的有趣想法、概念、人物以及地方,就要比我们被困在当地目不识丁的祖先一辈子所经历过的东西都要丰富。”快速演变的数字混沌会如何扭曲我们缓慢进化的人类思维呢?
《瞬息全宇宙》里面的宇宙是多种多样的,而且非常非常的奇怪。在一个没有人类生命的宇宙里,每个人都是一动不动的石头。里面还有一个宇宙,这个宇宙里面每个人都是蜡笔画。另一个宇宙里,每个人的手指都变成了热狗。
《瞬息全宇宙》这部电影捕捉到了互联网的运动能量与无情的节奏。
不过,这部电影让我想到的不是互联网,而是生成式人工智能正在发生的事情。就像电影让主人公将她想象中的任何东西都转化为有形的现实一样,生成式AI也让我们将想法变成了文字、图像和视频。
这是当我输入提示“Apersonmadeentirelyoffruit”时Midjourney生成的结果:
这是我输入“NewYorkCityskylineinthestyleofVanGogh”时得到的结果:
我可以花几个小时去试验这样的提示。
2022年取得突破的生成式人工智能是自十多年前移动和云计算兴起以来最引人注目的技术。平台层正在钙化,我们正目睹着令人兴奋的应用层的萌芽——这些产品有可能成为数十亿人日常生活的一部分。
这篇文章的目的是研究AI这一时刻背后的“为什么是现在”,并探索初创企业可以如何利用AI来进行开发。本文内容将分为以下几部分:
雷诺推出工业元宇宙,2025年将节省3.3亿美元:金色财经报道,汽车制造商雷诺(Renault)宣布建立了首个工业元宇宙,其所有生产线都将向其提供数据。据该公司称,到2025年,这个数字双胞胎副本将使其节省3.3亿美元,减少保修费用、交货时间和活动的碳足迹。(news.bitcoin)[2022/11/16 13:12:27]
搭好舞台
算法推荐系统
图像模型
语言模型
生成式人工智能的用例
商业模式
最后思考及待回答的关键问题
好了,让我们开始吧。
搭好舞台
在过去十年里,有两股重要力量推动了技术的发展:分别是移动和云计算。
移动促进了大型消费互联网公司的崛起:Uber与Lyft、Instagram与Snap、Robinhood与Coinbase。这些公司基本上都成立于2009年至2013年间。数字广告在2010年代迅速转向移动设备,Facebook等桌面时代的公司不得不争先恐后地重塑业务。
明年移动应用内广告的支出预计将超过桌面广告-MarketingCharts
云计算则支撑了软件即服务(SaaS)的爆发式增长,并让数据变成企业最宝贵的资源。这一领域的新兴公司基本上也都成立于2009年至2013年之间,其中包括Slack与Airtable、Stripe与Plaid、Snowflake与Databricks等。
从2015年到2022年间,存储在云端的企业数据占比翻了一番:
存储在云端的企业数据;资料来源:Statista
这是过去10年AWS收入情况图,很少有图表比这幅图更令人印象深刻:
AWS收入;资料来源:Statista
移动和云计算让2010年代成为技术领域非常非常好的十年。但在过去的几年里,我们看到很多人都在嚷嚷接下来会发生什么。虚拟现实?增强现实?自动驾驶汽车?加密货币?Web3?
这些技术个个都很有趣,原因各不相同,有趣的用例也各异,但都还非常非常早。整个VR行业仅相当于苹果2021年营收的2%。围绕新技术的炒作太多,而源于对移动和云计算的焦虑的“平台转变”已经……过时了。AWS推出时间是2006年;iPhone在2007年问世。移动和云计算都还没有饱和,但它们的新机遇并不像以前那样成熟了。与此同时,我们看到前所未有的私有资本开始涌入,去追逐创业公司:
风投资金在2021年激增至3300亿美元
2020年代最引人注目且最有可能推动技术发展的力量是什么?也许是人工智能。人工智能在过去几年中得到了显著改善。直到最近,Gmail的自动补充句子功能几乎还没法用;但现在已经好得吓人。Facebook用户将认识到AI在识别照片里面的朋友方面已变得有多么出色;实际上,Facebook的DeepFace引擎现在比人类还要擅长面部识别。就在去年夏天,我们看到了从StableDiffusion到Midjourney、ChatGPT到Lensa的一切事物的涌现。人工智能正在成为主流。
Facebook的DeepFace现在比人类还要擅长面部识别
我们正处在人工智能的转折点,这个转折点正在支撑起创新的寒武纪大爆发。2009年至2013年诞生了数十家由移动和云计算技术提供支持的变革型初创公司。未来几年这样的公司将再度涌现,但这次,人工智能将成为催化剂。
前一段时间,有位朋友问了我一个问题:AI是泡沫,还是下一个大事件?答案可能是两者兼而有之。
现在有很多令人兴奋的事情,其中很多是有理由的,但其中很多可能是非理性的、不成熟的,或者两者兼而有之。但是当你将画面拉远时就能发现,毫无疑问我们正处于一个激动人心的技术新时代的风口浪尖。
算法推荐系统
2022年第一季度安装了近3,000台加密货币ATM:金色财经报道,据加密ATM跟踪器coinatmradar的数据,在76个不同的国家/地区托管了大约36,659台加密ATM。多年来加密货币ATM的数量显着增长,2021年是迄今为止最大的增长,这一年增加了20,000多台机器。随着2022年第一季度的结束,coinatmradar的数据表明有36,659台加密ATM可用。此前数据显示有33,900台加密ATM,这意味着在过去93天里,全球安装了2759台加密ATM。自12月30日以来增长了8.13%,
拥有最多加密ATM的顶级运营商是Bitcoin Depot,全球安装了7001台。Coin Cloud是第二大运营商,拥有5,198台加密ATM机。在安装的36,659台机器中,Bitcoin Depot占19.1%,而Coin Cloud占14.2%。(news.bitcoin)[2022/4/3 14:01:41]
最近的大部分讨论都围绕着生成式人工智展开,但“传统”的人工智能仍有很大的发展空间。曝光度最高的人工智能应用是什么?也许没有比TikTok的ForYouPage更高的了,对于《超国度》那个具有先见之明的超个性化的互联网来说,这可以说是它最好的现代类比。
TikTok沉浸式、算法性的ForYouPage开创了内容策划的新风尚。一开始,每个发布出去的视频都会被推送给一组的初始受众,然后根据他们观看了多长时间、是否喜欢视频、是否对视频发表了评论等等,对这些观众的反应进行评估。如果受众反应良好,视频就会被推送给更多的受众,如此循环往复。
TikTok的算法
我最近跟同事Martin讨论了一下移动和云计算之后技术的下一步会是什么。我们聊起了AI,并回想起十年前那张著名的“解绑Craigslist”的图表。
就是这张图:
将业务从Craigslist解绑出来诞生了大批初创企业,迄今为止这批企业的融资额达到了88.7亿美元资料来源:CBInsights
这里还有一张,要表达的概念是一样的,但更清晰:
平台Vs垂直领域及下一个大解绑|AndreessenHorowitz图片来源:AndrewParker
这些图有一个基本前提,那就是原先市场的主要品类正在被更专注、更好的产品所重塑。通常,颠覆者会利用某项新技术:比方说,Tinder是第一批只支持移动设备的约会app之一。
AI应用可能也会带来类似的清算。主要的品类——如约会、房地产、求职等——可能会因为有人能更好地利用人工智能而被彻底颠覆。当AI可以把跟你完美匹配的对象呈现出来时,为什么还要上Tinder没完没了地刷屏?十年之后,我们可能会看到上图有了一个新版本,里面出现的也许是全新的公司logo——AI优先的公司会重塑每一个品类。当然了,生成式人工智能一定会从中发挥作用,但类似TikTok的推荐系统也很强大;就数字世界将越来越适合我们的独特品味和偏好而言,我们仍处于早期阶段。
让我们看个例子——交易。
从很多方面来说,SHEIN都算是TikTok的姊妹公司。SHEIN与字节跳动都是中国公司,而且位列全球最有价值的三大初创公司之一。
就像TikTok渗透了美国的媒体一样,SHEIN也打入到美国的快时尚——
美国快时尚市场Shein占据了最大的份额-BloombergSecondMeasure
这张图换了个视角,把SHEIN与H&M和Zara的销售额进行比较:
中国快时尚品牌Shein如何征服美国市场-Euromonitor.com
SHEIN的爆发式增长非常引人注目:SHEIN已经连续八年每年的增长率都超过100%,其在非公开市场的最新估值已经超过Zara和H&M市值之和。2022年6月,SHEIN取代亚马逊,成为iOS和Android应用商店排名第一的购物应用。
欧盟将于2023年初提出数字欧元法案:2月11日消息,欧盟财务负责人 Mairead McGuinness 在 Afore Consulting 举行的金融科技会议上表示,欧盟将在 2023 年初正式考虑围绕数字欧元立法。 McGuinness 称:“欧盟计划在未来几周内进行有针对性的立法磋商”。欧洲中央银行于去年对数字欧元的优势进行了研究,认为欧元 CBDC 可以帮助降低银行的利率,使交易更加顺畅和快捷,并最大限度地减少现金使用。欧洲央行行长Christine Lagarde曾表示,欧盟的 CBDC 可以补充传统现金并成为比特币等私人数字货币的替代品。(politico)[2022/2/11 9:44:08]
SHEIN的速度令人瞩目:这里每天都要上架8000件新商品,而Zara每周才新增500件。SHEIN基本上属于互联网原生的Zara和H&M转世,利用了更好的技术把从设计到生产的时间从三周压缩到了三天。SHEIN通过梳理竞争对手的网站和GoogleTrends,找出流行的款式,然后快速做出自己的设计,预测需求,实时调整库存。
我们再说回AI,SHEIN给我留下的其中一个深刻印象是它的推荐。就像字节跳动会预测你想看的内容一样,SHEIN会预测你想买什么衣服。SHEIN之于电商就像字节跳动之于内容。
这个周末,为了给朋友即将举行的30岁生日聚会准备东西,我打算到网上购物。这个派对以《亢奋》为主题,也就是说,基本上你得穿得像HBO那部美剧的里Maddie、Cassie或NateJacobs一样。我之前从来都没上SHEIN买过东西,但我输入了“男士黑色网纱上衣”来找衣服。然后我点击了“裤子”品类,结果看到了这个屏幕:
只是搜索了一次网纱上衣,SHEIN就能够预测出风格和主题非常相似的裤子。这非常令人印象深刻。
从某种程度来说,这是StitchFix开创的个人造型订阅盒概念的更复杂版本。StitchFix给整个过程引入了人,也利用了数据科学,但其基础是新客户引导冗长的问卷调查。而SHEIN只根据我输入的四个词就做出了准确的推荐。
StitchFix的个人造型市场已被证明相对小众,而且它的股票也已受到重创。活跃客户已降至390万,同比下降20万人。该公司正在努力向Freestyle产品转型——这是一种更传统的购物体验——但这个细分市场仍然只占该公司业务的一小部分。
StitchFix的订阅盒里面是由造型师和数据科学策划的推荐产品
尽管StitchFix举步维艰,但它的目标是突破性的——个性化商务。这家公司几年前就提出了这个概念,但当时人工智能还不够成熟,没法取代冗长的问卷调查以及小规模的数据科学家队伍。SHEIN朝着正确方向迈出了一步,但我们仍站在人工智能驱动推荐的风口浪尖。
想象一下,如果有家公司能梳理你的相机胶卷,并以惊人的准确性为你推荐一大批新衣服会怎样?或者,也许这家公司只需要请你将Instagram帐户关联一下,然后就能消化你的所有点赞和关注,即可提供极其准确、个性化的时尚推荐。
人工智能的主要消费者应用将大量依赖于娴熟的推荐。这些推荐能预测到连你都不知道的需求与愿望——就像TikTok的ForYouPage一样:它能够在人们自己还没意识到之前就向对方表明他们是性少数者。也许上面的示例公司可以在一条FYP动态消息中重塑商业,让你每次浏览一个精心策划的商品——双击即可购买,向上滑动即可查看下一件东西。
世界正在向着个性化转变,而人工智能是在给这股趋势火上浇油。我的朋友Alex说的一席话我很喜欢:
在AI的帮助下,一对一辅导正在成为可能
突然之间,“一对一”体验可以大规模复制了——与我们在未来几年看到的应用相比,今天的AI应用仍处在初级阶段。想想看,上面的每一个Craigslist类别——教育、书籍、家居装饰等。每一个都即将被重塑。
图像模型
2022年文本生成图像AI爆发了。首先出现的是来自OpenAI的DALL-E。当然,不是谁都可以直接用DALL-E,但这方面的创作已经开始在互联网上火起来了;Twitter上面我最喜欢的账号是WeirdDALL-EGenerations。
互联网上用DALL-E生成11张最奇怪的图像|Mashable
Hayden Adams:2022年Uniswap累计交易额将超过1万亿美元:金色财经报道,Uniswap自推出以来已经取得不少成绩,尤其是在2021年,该平台交易量猛增852%达到7120 亿美元,Uniswap创始人Hayden Adams预测,2022年Uniswap累计交易额将超过1万亿美元。不过目前投资者情绪似乎处于最糟糕的状态,Uniswap的1 万亿美元交易量里程碑似乎还需要较长时间才能达成。[2022/1/4 8:23:44]
对于这个世界大部分的地区来说,DALL-E是AI的第一个真正的“哇哦”时刻。在与麻省理工学院交流时,OpenAI的SamAltman把这一点归功于图像所传递的情感力量:
我想说的是,其实相对于DALL-E,技术界对2020年推出的GPT-3要更加认可。从GPT-3这里,你第一次真正感受到了系统的智能。它可以做人做的事情。我认为它的出现让以前根本不相信AGI的人也要认真对待这一话题了。发生在GPT-3身上的有些事情是我们大家都没预料到的。
但是图像却有着独特的情感力量。相对于GPT-3,世界其他地方对DALL-E的欣赏要高很多。
人往往更喜欢更丰富的媒体格式:Instagram一直都比Twitter更受欢迎;与此同时,TikTok在使用上一直在蚕食Instagram的市场,迫使后者也得向视频转型。在我看来,类似的偏好也会发生在生成式人工智能身上:图像>文本,很快,视频也会>图像,以及最终沉浸式3D体验将>视频。
在DALL-E起势之后,去年夏天StableDiffusion和Midjourney的出现彻底改变了局面。StableDiffusion具有开创性,因为它是开源的,这意味着开发者基于它做开发。稍微解释一下,StableDiffusion将扩散从像素空间转移到了潜在空间,从而推动了质量的显著提高。与此同时,Midjourney在可访问性方面具有开创性。Discord上就能使用Midjourney:任何人都可以注册一个免费账号,并获得25个积分,图像则是用公共服务器生成的。用完25个积分之后,每月支付10美元或30美元就可以继续使用。Midjourney已迅速成为Discord上最受欢迎的服务器之一,拥有740万会员。
下图是Midjourney、DALL-E2以及StableDiffusion在使用相同的文本提示时生成的图像,各自风格略有不同:
下面这条时间线从更宽泛的角度展示了AI图像生成在过去十年是如何得到改进的:
去年是图像模型的转折点,生成的图像质量得到了迅速提高。举个例子:众所周知,AI很不擅长创作手。除非AI具有出色的上下文感知能力,否则很难知道已经弄出了多少根手指。其结果是我们最终会得到很多有四根或六根手指的手。下图是Midjourneyv3与Midjourneyv4生成结果的对比,你能看出结果有了明显改进:不再会出现有两只喙或三条腿的企鹅。
当我想到图像生成早期遇到的挑战时,就会回想起一个世纪前动画在早期面临的挑战。米老鼠为什么要戴手套?原因之一是这样制作动画可以更快;手是很难画的。《聪明笨伯》和乔治·杰森也是如此——你看不见他们的脖子,因为有脖子意味着角色的整个身体都得跟随每个动作和表情而移动。这意味着动画师要做更多的工作。领带和高领让动画师得以投机取巧,加快制作动画的速度。
杰里·邓肯与聪明笨伯交谈-DeanKaner,《幽默时代》
当然了,半个世纪之后,动画已经取得了长足进步。《海底总动员》在某种程度上是皮克斯展示自己可以制作出逼真的水动画的借口。《怪兽电力公司》里面的形象也是如此。皮克斯一直等到第6部动画片《超人总动员》才第一次开始描写人类的故事,因为CGI技术之前还没有为此做好准备之所以专门讲玩具,部分是因为皮克斯还不能对逼真的人类细节进行渲染——所以在电影中你几乎看不见安迪和他妈妈的影子)。
数字创作的轨迹正在沿着动画的轨迹前进,但技术发展的步伐只会越来越快。比方说,上面Midjourney生成的企鹅图像之间的差异只是短短几个月之间的对比结果。
语言模型
《黑镜》第二季的《马上回来》讲的是一对夫妻一起搬进了新家。结果第二天,丈夫出车祸身亡了。后来他的遗孀得知有一项新服务可以让她与已故的丈夫聊天;这款工具能够消化短信以及社交媒体的历史记录,从而了解伴侣会如何回应,然后代替他与客户聊天。这一集的情节现在已经成为现实。在针对个人数据进行训练的基础,初创企业HereAfter.ai就提供了与已故亲属的互动化身聊天的服务。
杨林苑:长期来看2020是比特币新一轮牛市的开端:针对本次减半行情,Dfund管理合伙人杨林苑对金色财经表示:BTC至今已经经历了2个减半周期,过去发生的未来不见得会发生。减半是供需关系的变化,这解释了为什么比特币大部分的涨幅发生在减半之后,减半通过供需变化开启了涨幅之后,FOMO情绪会进一步将这种涨幅放大,直至达到供需新的临界之后回调,再达到新的平衡,这个过程不断往复。从长期来看2020是比特币新一轮牛市的开端,目前只是小幅上涨后的回调阶段,历史两次减半前也出现过。[2020/3/3]
去年,在图像模型出现飞跃的同时,语言模型也突飞猛进。去年11月,OpenAI推出了ChatGPT,刚推出五天,这款聊天工具就收获了100万用户。ChatGPT的表现令人难以置信;使用它的感觉跟你第一次用上GoogleSearch一样,都有“魔法时刻”降临的感觉。
下面的一些例子说明了ChatGPT能做什么:
提示:“什么是虫洞?把我当作5岁小孩给我解释一下。”
让chatgpt用通俗易懂的方式解释虫洞
提示:“提供一个29岁生日派对的创意。”
使用chatGPT提出派对创意
提示:“用伴奏的和弦写一首关于在家工作的歌曲。”
让chatgpt用和弦写音乐
人工智能现在这种发展和采用的节奏可以追溯到2017年当时谷歌发表的一篇开创性论文,《AttentionIsAllYouNeed》。这篇论文由Cohere.ai创始人AidanGomez与人合著,从中催生出一个规模呈指数级增长的“transformer”模型时代。
不到三年前的GPT-3推出时的参数规模为约2000亿,但新的GPT-4将有约1,000,000,000,000个参数。
来源:ErinPrice-Wright
在提出新想法、理解上下文以及回忆信息的能力方面,每个新模型都实现了飞跃。但更大的模型的训练成本也高很多。训练有数千亿个参数的模型可能要花费数百万美元。出于这个原因,大规模模型正在成为初创公司创立的基础。我的同事ErinPrice-Wright将其类比为亚马逊的AWS或微软的Azure——数百万企业所依赖的云计算平台。
比方说,许多初创公司都建立在OpenAI的GPT-3基础之上。举个例子,Jasper提供了一个由GPT-3提供支持的AI撰稿人。每月只需交29美元,Jasper就能让你拥有写作的超能力。不过,Jasper对OpenAI推出免费的ChatGPT感到吃惊,担心这会蚕食自己的业务。基础模型和基于这些模型建立的公司之间的关系会如何发展?这是今年值得关注的一件事情。
生成式AI的用例
手写文字识别是最早的人工智能形式之一,邮政服务主要用它来读取信封上的地址。但是人工智能的这个用例非常特殊。在生成式人工智能方面,我们已经看到:1)图像和语言模型有了巨大改进,以及2)OpenAI、HuggingFace、Stability.ai等公司提供的宝贵基础设施。这两个因素相结合拓宽了用例的可能性。
AI系统的语言与图像识别能力得到了迅速改进资料来源:OurWorldinData
之前在与DanielGross和BenThompson进行对话时,NatFriedman关于机会的思考方式我很喜欢:
一说到AI和大型语言模型时,人们往往认为需要大量专业知识。为了处理这些东西,我得了解深度学习,以及,哦天哪,我可能还得懂微积分或至少线性代数,可是我根本就不太喜欢那种东西。我需要知道怎么给Nvidia硬件编写CUDA内核程序?这可太吓人了。
我认为他们疏忽了一点,这其实是个谬误。这个谬误就好比要想制作颜料,你得是化学家。所以如果我想成为一名画家的话,我必须学习化学。但现实情况是,你不需要知道如何制作颜料就能成为一名伟大的画家。同理,我认为你不需要弄清楚大型模型是怎么做出来的,也可以用它们做出出色的产品。
我喜欢这个比喻。任何人都可以更轻松地开发出利用AI去画画的工具。变革每个行业的机会已经成熟。
如果极度简化的话,我们可以把用例分为两类:1)创意类,以及2)生产力类。
说到创意,我们看到生成式人工智能降低了创作的门槛。利用Midjourney,你可以给电影制作概念图。Latitude.ai等公司开发出AIDungeon等游戏,利用GPT-3进行AI驱动的探索。与此同时,Alpaca所做的Photoshop插件演示在Twitter掀起了一股风暴;这家公司的使命是“将AI图像生成能力与人类技能结合到一起”。
我过去也曾写过创意工具日益普及的文章。早在2015年时,StevenJohnson就曾在《纽约时报》上撰文:
消费文化的成本可能已经下降,尽管下降的幅度没有我们担心的那么多。但制造成本下降得更厉害。作者不需要印刷机或国际分销商的服务就可以为全球读者创作和出版小说。对于独立电影制作人来说,几年前可能要花费数万美元的直升机航拍画面,现在只需不到1000美元的GoPro和无人机即可拍摄;有些导演用iPhone即可拍摄一整部高清质量的电影。苹果售价为299美元的剪辑软件FinalCutProX就可以剪辑奥斯卡获奖影片了。利用NativeInstruments软件,音乐家即可以惊人的保真度重现在维也纳音乐厅演奏的施坦威三角钢琴的声音,或数百种不同的吉他放大器声音,或甲壳虫乐队在《永远的草莓地》中使用的Mellotron合成器声音。15年前,这些声音可能需要花费数百万美元才能合成出来;今天,你只需几千美元就可以拥有所有这些。
这很了不起,而且至今依然适用:2020年奥斯卡最佳影片《寄生虫》就是用FinalCutPro剪辑的。工具正逐渐变得更实惠、更容易获得,让更多的创作涌现。
人工智能拓宽了可能性。想象一下由人工智能驱动的RobloxStudio,或者当人工智能与Figma结合在一起时可以解锁什么。我制作这张图至今已过去两年多了:
YouTube是革命性的,但却给创作制造了很高的门槛:1)工具需要昂贵的投入,以及2)使用这些工具需要具备know-how知识。TikTok这一类似无代码的方式降低了这些门槛,创造出一个公平的竞争环境。其结果是YouTube上大概每1000人才有1人创作内容,而接近60%的TikTok用户都会自己创作内容。
也许今年这张图可以用第三个框更新一下——一个超越无代码创作工具的更直观、强大的工具,并在创作内容的过程中利用生成式人工智能。用这个工具为Instagram制作照片、为TikTok制作视频或为全新社交网络创作内容。
就像人工智能增强了创意一样,人工智能也增强了生产力。我们在赋予作者和营销人员超能力的工具中就能看到这一点,比方说像Jasper.ai、Copy.ai、Lex这样的工具。我让ChatGPT帮我头脑风暴,给我的自媒体设计新标语,它的推荐令人印象深刻:
我们从Gong身上看到了生产力的提升,它运用了AI来帮助B2B销售团队提高效率和效力。我们在Osmosis身上也能看到这一点,它可以帮助广告代理商生成AI广告。我们在GitHubCopilot身上也能看到这一点,它可以将自然语言提示转化为数十种编程语言的编码推荐,而且从2022年6月开始,所有开发者均可用上这款插件。
GitHubCopilot:你的AI结对程序员|GitHub博客_
人工智能的早期目标是死记硬背的重复性任务。我认为有一个领域被重塑的时机已经成熟:那就是客户支持。这些是今天的人工智能已经可以取得重大进展的领域。更复杂的任务在未来会有进一步的发展。但任何涉及人类创作的行业都会感受到人工智能的影响。
我看到有人已经开始拿早期AI应用和早期iPhone应用做比较。还记得手电筒app、lightsaberapp、lighterapp吗?还记得《水果忍者》以及《劲乐团》吗?我们正处在app的早期阶段,现在判断什么样的应用是杀手级应用还为时过早。一个迫在眉睫的问题是企业如何才能建立起竞争性护城河;真正的技术差异化将变得很罕见,公司需要找到保持竞争优势的方法,也许是通过建立网络效应,也许是建立用户互动与产品改进的迭代循环。毕竟,事实证明,2008年代的手电筒应用并没有多厚实的护城河。
现在的手电筒应用已经多如牛毛
但正如我们在几年内就从lightsaber应用发展到Uber,从《水果忍者》发展到Instagram一样,生态体系也将迅速发展,有生命力、差异化、跨时代的公司也将会出现。
商业模式
软件即服务是个好东西。可预测的经常性收入。80%以上的毛利率。理想情况下,净收入留存率>100%,这意味着即便没有获得任何新客户,你的业务也会逐年稳步增长。。
我的直觉是,很多最好的人工智能初创企业将是SaaS公司。好东西为什么要改?
比方说,Runway就是最令人兴奋的人工智能公司之一。Runway提供了一个由AI驱动的创作套件,看过它的产品演示之后你会瞠目结舌的。
从演示视频可以看出,Runway提供了文本生成视频功能,让你可以用魔法召唤出一条城市街道,然后快速做出更改。想象一下你在好莱坞从事特效工作——Runway可以让你在几秒钟之内添加大爆炸效果,而如果没有AI的话,你得花费大量的时间和金钱来做特效。CBS就是他们的客户之一,使用Runway之后,他们的晚间秀剪辑时间从5小时缩短到了5分钟。NewBalance是另一个客户,他们在Runway上用定制的生成模型来设计下一代运动鞋。
Runway的定价对于任何SaaS爱好者来说都很熟悉:
我们还看到人工智能公司转向了其他我们熟悉的商业模式。Midjourney依赖消费者订阅。去年12月,Lensa开始风靡全球,其商业模式是免费增值+小额支付。50个一组的自定义头像花掉了我8.99美元。
1/Lensa的兴起可以作为消费者行为的一个有趣的案例研究:Lensaapp其实早在2018就有了,但在推出四年之后的本周才升至应用商店的第一名。关键是Lensa推出了AI驱动的“魔法化身”功能。
当然了,Lensa面临的挑战是防御能力;Lensa的命脉建立在Instagram、Twitter和TikTok之上,它得弄清楚如何建立自己的护城河。话虽如此,也许Lensa并不太关心护城河——据报道该公司在短短几周内就赚了4000到5000万美元,将来会出现许多能赚钱且对开发者很有意义的AI应用,它们无需取得风投规模的成果。
PromptBase这家富有创意的新公司采用的商业模式我们也很熟悉。PromptBase是文本生成图像提示的交易市场——这可能是生成式人工智能的首批交易市场之一。想出正确的提示,从而制作出令人惊叹的AI艺术作品是非常困难的。最美的作品往往源自于详细的提示,而撰写提示本身就是一门手艺。以下是生成StableDiffusion图像的示例提示:
一座具备遥远未来主义风格的城市,被笼罩在一个巨大的透明玻璃穹顶下,里面充斥着高楼大厦,位于一篇片只有大型沙丘的荒芜沙漠之中,有太阳的光线,Artstation,满天星的深空挂着一颗闪耀的太阳,大规模,有雾,非常写实,电影般的,彩色的。
PromptBase上面交易的是类似这样冗长、高度具体的提示。到目前为止,该交易市场已有11000名用户。
关于AI应用商业模式的走向,一个简短回答是我们可能会看到与上一代技术相同的商业模式。也会有广告驱动的社交网络、小额支付驱动的MMO、按使用的定价模式。交易市场可能被证明是需要更多资本来扩大规模的业务,但将体现出强大的网络效应,从而建立起强大的护城河。SaaS将证明是最理想的商业模式之一,尽管针对“企业型SaaS市场已经十分拥挤”的噪音,AISaaS型公司将需要一流的产品来消除大家的疑虑。
最后思考及关键问题
一旦某项技术普遍改变了各种商品或服务的生产方式,就会被称为是“通用技术”。OurWorldInData的团队认为,人类有两种主要的通用技术:1)农业革命赋予我们大规模的粮食生产,让我们从狩猎和采集过渡到农业;2)工业革命赋予了我们大规模制造的能力。我认为互联网的出现——也就是数字革命——将标志着第三次革命的出现。但我也同意他们的观点,TransformativeAI是下一个通用技术:
这是一个激动人心的时刻。炒得过火了?也许有一点。但这种炒作也会吸引到推动该领域发展的人才;从某些方面来说,炒作有自我实现的成分。
人工智能不会自己发展。我们需要弄清楚如何与人工智能共存,并利用它来增强人类的能力。学校正在努力弄清楚如何应付ChatGPT,有很多学校选择禁止它的使用。但我同意沃顿商学院教授EthanMollick的观点,他认为,“大型语言模型在未来几年内不会停止发展。我们需要找到一种办法来适应这些工具,而不仅仅是取缔它们。”今天的孩子将生活在一个到处都是人工智能的世界里;他们需要了解如何去驾驭那个世界。
当然,还有一些重大的伦理问题需要解决——技术的飞跃往往会在影响深远与反乌托邦这两个极端之间徘徊。我们需要弄清楚的问题包括:
谁为人工智能的错误负责?
谁是人工智能作品的创作者?是人工智能吗?还是开发者?或者是写提示的人?抑或是那些自己的作品被用来训练模型的人?
我们如何确定哪些是人造的,哪些是机器制造的?区分这两者的界线在哪里?
我们如何摆脱AI的偏见?
创业公司如何才能脱颖而出,并树立自己的护城河?
生态体系的价值在什么地方积累,价值创造应该如何分配?
人工智能会成为净就业创造者还是净就业破坏者?我们如何对因人工智能而失业的员工进行再培训?
要弄清楚的事情还有很多。大规模的技术进步往往会引起大规模的社会不和与争执,甚至还会导致冲突。这是悲观的看法。
我输入的提示:“生活在一个用人工智能建设的未来社会,赛博朋克风格,高分辨率”,Midjourney生成的结果
但我永远是个技术乐观主义者,对我来说这是一个激动人心的时刻——只要我们采取正确的保护措施即可。我以前曾引用过Midjourney的DavidHolz的这句话,但我喜欢的是它对机会的思考方式:
我们不认为这跟艺术或深度伪造有关,而是跟我们如何扩展人类的想象力有关。什么意思?当计算机的视觉想象力比99%的人类都要擅长时,这意味着什么?这并不意味着我们将停止想象。汽车跑得比人快,但这并不意味着我们就不走路了。当我们需要远距离运输大量物品时,我们需要引擎,需要飞机、轮船或者汽车的引擎。我们把这项技术看作是想象力的引擎。所以这是一个非常积极、非常人文主义的东西。
Midjourney对提示“想象力引擎”的诠释
再用一个令人兴奋的想法来结束本文:生成式人工智能很快就会与其他成熟的技术发生冲突,比如VR和AR。想象一下生成沉浸式三维虚拟世界的文本提示。这可能会在不久之后成为可能。技术发展往往非常迅速:在人的一生之内,我们就从莱特兄弟首次实现飞行发展到了将人送上距离地球384400公里之遥的月球。而今天出生的人们,他们将目睹人工智能重塑人类生活、工作和社会的方方面面。
译者:boxi。
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。