说明:由于文章较长信息量较大,因此有关名词的解释,以及一些关于AIGC的基础信息,就不在文章中详细阐述,确实不太了解的,可以自行通过网络获取相应的基础知识。
说明2:本文的目的如标题所述,主要是希望把一些与AIGC有关的相对准确的信息,以及具备一定参考价值的建议,给到当下的年轻人,避免年轻人被混乱的资料迷惑和被误导,无法正确地对AIGC进行认知和学习。
一、观点建议前置汇总
开门见山,将我个人对年轻人的相关建议总结,罗列如下,方便急性子的同学先行了解:
1、 要积极关注新事物新热点,别神化工具,也别看不起它。必须去了解、尝试和学习与AIGC有关的各种内容,并不是AIGC有多重要或多先进,而在于不能因为不关注,而与同龄人拉开差距,年轻人,绝对不能放弃对未来的持续了解和认知。
2、 要看本质,不要追噱头。AIGC本质上是一种新潮的数字化工具,不要跟随某些媒体,主动把相对科幻和玄幻的未来AI功能想象,嫁接到当前的AIGC应用上,来吓唬自己。
3、 学习过程中,要多探讨功能价值,少放飞无用想象。探讨AIGC时,不要陷入通过对未来不切实际的假想来决策自身当下行为的怪圈。更多时候,我们应当关注当下的这个新数字工具能做什么,能实现什么功能,能提升哪些具体事务的效率,以及会给我们的学习工作生活带来什么样的变化。
4、 数字内容要为实体服务,单纯的虚拟数字容易掉入务虚陷阱。AIGC的发展,会帮助我们更快地打通虚实之间的交互屏障,对于近未来我们更深化的日常数字化生活来说,基于虚实的交互必然会越来越普遍,而AIGC的功能特点和优势,正好可以解决诸多当下虚实交互的难点和问题,因此AIGC有可能会成为未来以虚实交互为主要表现的数字化生活的技术基础,这也是作为年轻人,更应当主动了解、接触、尝试和学习AIGC的主要原因。
5、 少看营销号,拒绝被忽悠。不要被各式各样的媒体自媒体灌输奇怪的AI理论,更不要被它们刻意营造的恐慌所误导,要清晰清楚地认识世界的运行逻辑,以及人类的思考逻辑,人类的分散决策机制与AI的二分理论,并不是一个维度上可以用于直观比较的东西,要避免自身的思维被AI的运行逻辑扁平化。
6、 主动关注数字工具的迭代发展,不要停留在旧认知上。在我们的生活越来越数字化的当下,我们不可避免地会用数字化的方式,以及数字化的逻辑来进行判断,这样做的主要原因,是通过这种方式和逻辑,能够更好地简化我们的思考,缩短我们的决策时间,提升决策效率,但这并不代表数字化的方式和逻辑,能够真正改变我们。
7、 适当的时候,需要从更高的视角去看问题。一定要跳出那些常见的认知误区,不要被段子,以及相对玄幻的假想描绘的“未来可能性”给误导了,科技的进步从来都不是一蹴而就的,AIGC也不是万能灵药,可以解决一切问题,要审慎且客观地去了解和分析,再得出符合自身需求的结论。
二、以Midjourney为代表的AIGC能做什么
AIGC近几年被广泛关注,肯定离不开以Midjourney为代表的图片生成工具在社交媒体上的广泛传播,以及ChatGPT的火爆出圈,本文也将以这两个具备较强代表性的应用来展开。
相信大家在各种社交媒体,特别是在微信群里,见到过被多次转发,多次水印和反复降低图片品质后,图片都包浆了的梗图。
对于通过关键词描述来生成相应图片的AIGC来说,图片生成的过程,其实就类似上述这个不断加噪的包浆梗图的逆向化过程,也就是在图片素材库的帮助下,对关键词描述下的内容,进行不断的降噪,最终批量生成符合关键词描述,且具备符合训练图库显著特点的内容。
这也是相应的AIGC需要构建庞大的训练素材库,以及需要较强GPU算力的主要原因;同时也是对AI调教以后,能够提升出图品质的关键原因;并且这也是对美术具备更强认知能力和鉴赏能力的AIGC使用者,能够通过关键词描述,获得更具价值的图片的重要原因。
因为对同一个工具的使用,不同专业契合度的使用者,必然会有不同的产出效率和产出品质。
了解了AIGC的工作原理以及工具特点以后,我们就会发现,以MJ为代表的图片生成AIGC,有着特别鲜明的工具性特点,并且是一个很新颖的、相对高效的、需要一定专业基础的工具。
对于这样的工具来说,工具本身的迭代发展和进化,以及工具是否具备普遍使用性,工具是否具备替代其他工具的价值,就会成为其关键点。
以MJ为例,从2022年3月推出Beta邀请,到2023年3月推出大革新的MJ-V5,其发展和迭代速度是非常可怕的,去年暑假期间,MJ的用户还在纠结于出图的脸部不够真实、肢体形态别扭、手指脚指各种BUG,但到了今年,骨骼的使用和手指优化,是让很多老用户有惊艳到的。
基于这样的迭代发展速度,我们可以大胆的预测,以MJ为代表“以文生图”类AIGC,应当会在一个较短的时间内(6-18个月),进入到普遍商业化阶段,被应用在诸多领域,其商业价值及未来发展是可期的。
因此,对于年轻人来说,没有必要去怀疑此类AIGC的价值和前景,更应当关注的,是MJ类的AIGC,可以被应用在哪些领域,可以用来降低哪些工作的门槛,可以给用户带来哪些领域的便利,甚至可以造就什么样的新岗位。
此处,我更希望大家去结合自身的专业方向和知识体系,来进行构想和探讨,进而得出属于自身的准确结论,因为每个人的知识结构都是有其局限性的,不同人看到的应用方向必然会有差异。
关键点在于,这些可能的发展方向和给相关产业所带来的影响、变革和冲击,能够让你接下来的学习和工作,产业什么样的变化,收获什么样的新思路。
我自身有相对比较长时间的游戏产业工作经验,因此在我看来,以MJ为代表的AIGC一旦进入普遍商业化阶段,那么就可以帮助美术实力不够强劲,人力成本相对局促的中小团队,以更为高效和专业的方式,确定产品的美术风格,甚至直接帮助团队获得所需的美术资源。
而对于体量较大的游戏公司来说,AIGC特色库的低成本构建,也可以有效提升项目早期的试错成本和试错周期,这些帮助都是直观可见的。
三、Chat GPT的关键点和发展方向
相较MJ已经处于商业化前期,Chat GPT显然还处于各种维度下的探索阶段,离普遍商业化还有一段距离。
在聊GPT之前,我们必须先厘清一个GPT使用的AI领域的关键性概念 “Human in the LOOP”(人在回路),简单来说,就是在对AI进行训练的过程中,通过在关键训练节点处,加入人工选择调优因素的方式,来加速AI的学习和成长。
举一个不是特别合适的例子,类似流浪地球2里,MOSS先后“吃掉”了图丫丫和图恒宇,从而通过“人在回路”的方式,快速获得了成长。只不过在现实当中,人在回路的方式,对于AI的训练成长所起到的作用,虽然也很直观,但却不如科幻电影来得迅速和鲜明。
需要特别说明的是,人在回路这个方向,之前并不被AI领域的科研人员广泛接受,或者换个说法,通过人在回路的方式来对AI进行训练,在AI的研究领域,是存在一定争议的。
当然,对于普通用户而言,以及对于年轻的关注者来说,这些并不需要太过去关注,我们还是把关注点放到GPT所处的阶段以及能解决的问题上来。
对比有明确落地场景的MJ来说,GPT最核心的问题,并不是它所出具的信息是否可信,也不是它所给出的内容能够给用户带来什么样的实质帮助,更不是它能不能通过某某考试,又或者它能不能“听懂”人类才能听懂的笑话,这些问题本质上都是细枝末节。
GPT当下面临的最核心问题,其实是GPT是基于计算机数字二元论逻辑规则下的线性产物,而人类思考问题则是网状神经规则下的多维逻辑。
嗯,这句话听不明白不重要,可以简单理解为,GPT的关键运行机制和所输出内容,并不符合人类社会生活的广泛需求。
举一个简单的例子,不少媒体自媒体都会告诉你,GPT可以用来写让导师都认可的优质论文,美国很多中学和高校要求学生不能使用GPT。
我们不去探讨这些信息的真实性、缝合性和复杂性,单纯只从需求本身来看,对于看论文的导师来说,收到一份论文,不管有没有使用GPT来生成,导师最容易出现的反馈是什么?
是“哇,写得真好,给你一个优!”
还是“看完了,写得不错,但在这些点上,你需要优化调整一下,改一改再重新提交过来。”
对于GPT来说,根据沟通获取用户需求,后台通过一整套机制来给出“用户最有可能想要的内容”,就是工作的一切了,这是符合数字二元论逻辑的,但对于人类用户而言,通过GPT得到自身想要的内容,必然只是开始。
因此GPT当下的问题是,虽然通过人在回路的方式,以及本身的人工智能应答方案,让用户获得了相对惊艳的交互体验,但却无法从人类的角度,帮用户解决真正的问题,更多时候GPT所扮演的角色,是让用户获得了一个更新更好的,不但能够帮助解决问题,甚至还能够帮助用户简化问题和明确问题的新型人机交互入口。
这有点类似搜索引擎从最早Yahoo!的树状细分方式,进化到Google的关键词搜索机制。这其实也是微软将GPT嵌入到Bing当中,同时也推出与Office办公组件结合服务的原因。
简单来说,用户通过GPT这个入口,可以更精准更省力地获取相应信息,以及梳理相应资源,而这一点在当下移动互联网海量信息,通过传统搜索引擎需要付出较高时间成本才能获得有效信息的环境下,是具备解决方案层面的领先优势的。
但这也是当前GPT还不具备普遍商业化价值的关键所在。
因为当我们思考GPT的商业落地方案时,就不象MJ那样有许多可以提升效率,甚至改变某些领域环境业态的畅想。
毕竟从根本上来说,GPT这个入口,还没有真正意义上被明确和固定下来,甚至这个入口的形态,以及这个交互入口的交互机制和交互优势,也没有被完全挖掘出来,未来或许有着更多的可能性,但至少眼下,以GPT-4为标准来看的话,还需要继续迭代发展,直到这个入口被明确下来,并承担更多的职能,满足用户更多的复杂诉求。
四、其它类型的AIGC有哪些价值
当然,除了MJ和GPT,还有不少其它类型的AIGC应用和工具,例如Notion AI、Tome、Fliki等AIGC工具。
这些AIGC工具往往会在某个细分领域,或某个具体的场景,提供更优的解决方案或功能体验,考虑到这块的实际探讨空间会相对明确,同时专业度也更细化一些,因此就不再做展开式的探讨,只是简单地把一些个人的看法和建议同步给大家。
简而言之,大多数此类的AIGC,往往会专注于“用更省时省力的方式解决某个具体的日常需求”,或“提供给用户新的具备颠覆性感受的特定场景下的使用感受”。
因此,以当下AIGC特别快速的成长和发展来看,在未来的6-18个月里,应当会有至少2-3款此类AIGC,进入到广泛用户关注的视野中,进而推高用户群体对AIGC的整体期望。
同时对于年轻人来说,如果有明确的关注方向,以及有更为清晰的自身定位,那么多某个特定领域来关注AIGC的整体发展,或许是一条提升自身能力和抢占优势发展机遇的捷径,值得关注和尝试。
此处我不负责任地随便举几个可能的例子。
例如通过关键性图文和模板,生成短视频和动画的AIGC;通过真实图片批量生成二次元图片和视频的AIGC;以及反过来,通过动漫图片和描述,生成具备真实度的真人图片和视频等等。
总的来说,这会是一个相对具备活力,且有诸多可能性的AIGC领域,值得年轻人投入更多的时间、精力和关注度。
五、AI高速发展下的虚实交互有着无限可能
在通过两个典型应用,大致聊完了有关AIGC的相应信息以后,对于年轻人来说,其实是需要进行更深层次思考的。
虽然本轮AI发展和探讨浪潮,与前几次AI发展浪潮,存在一定的相似性,但时代发展快速向前,主要用户群体的变化、差异性和诉求变更,也让本轮AI的高速发展,有更多值得所有用户特别注意的点。
从社会整体发展来看,我们当下的社会,特别是国内当下的社会,都很现实地面临一轮新的数字化进程,这一轮数字化进程与25年前开启的国内互联网大潮一样,数字化程度的加剧,以及社会更多环节的数字化革新,必然会让我们的社会进入到一个全新的数字化阶段。
而这个全新的数字化阶段,已然无法用传统“互联网”来进行描述和说明,这也是在最近两年,我们会更关注“元宇宙”这个词的原因,并不是这个还没有得到广泛认可且缺乏标准解释的“元宇宙”能够代表未来,而是我们需要一个新的名词,来描述和说明我们正在构建的,数字化程度更加深入的未来社会,而“元宇宙”这个词,有着特别优秀的包容性,看着就特别合适。
需要特别说明的是,欧美的Metaverse概念,一直是相对务虚的,也就是强调虚拟数字空间,以及虚拟数字空间给生活带来的变化,不管是Meta,还是Epic,又或者Roblox,它们所描绘的Metaverse都是强调虚拟数字空间,以及在虚拟数字空间中的各种可能性。
但国内经过两年多的探讨,“元宇宙”这个概念,已经不再局限于虚拟数字环境了,而是更为强调虚实交互,虚拟数字世界与现实世界,如何通过元宇宙的概念和技术,产生相互的交融和发展,进而以虚促实以实构虚,形成真正意义上虚实交互虚实交融的“国产”元宇宙展望。
而当我们用当前社会数字化进程加深的视角来看这轮AIGC的发展时,我们就会更清晰地看到,AIGC所具备的特性、生命力和关键价值。
举两个比较直观的例子。
例如最近几年备受社会群体关注的“数字人”技术,当我们通过各种技术手段,构建了一个某某银行数字人以后,如何让这个数字人创造更大的价值,更好地服务银行用户呢?
在AIGC被关注到之前,我们能够使用的,大概就只有应答脚本这种所谓的“智能客服”,而一旦我们用一个相对成熟的银行专业领域固定训练库的GPT来作为数字人的中枢,那数字人的实际应用价值可能就会以指数级的方式获得提升。
相类似的,一个放置在博物馆、科技馆或天文馆的接待机器人,如果将一个具备相应领域专业度的AIGC置入其中,来作为机器人的人机交互核心,那其知识的专业度、标准性以及个性化应对,就会有各种超出常人想象的可能性。
因为这类AIGC的交互,将不再是固定的交互规则主导,而会演变为用户需求主导。同样场馆的交互机器人,对不同用户,会因为用户的不同喜好,而有着完全不同的交互体验和信息输出。
因此在我看来,本轮AIGC的高速发展浪潮,真正能够让普通社会群体感受到变化的,有可能是社会数字化进程加剧的大趋势下,虚拟数字与现实社会的虚实交互场景。
比较有落地场景假想的,包括医疗领域、教育领域、金融领域、社科领域及特定群体服务领域等,考虑到篇幅问题,在这就不做展开了。
六、奇点理论和知识产权
前瞻完AIGC发展的未来可能性以后,我们来探讨几个相对争议较多的话题。
首先是奇点理论。
在人工智能这个方向,关于人工智能奇点的话题一直是广受专业人士和普通人群所关注的。
本轮AIGC浪潮下,也有各式各样关于奇点理论的猜想和假设,有关人工智能的奇点再次即将到来的声音,音量也一直比较大。而预设奇点很快到来这个前提下,所衍生出来的诸如某某岗位即将消失,某某领域即将被颠覆的焦虑提升讨论也是层出不穷。
在这我不打算做深入的探讨,或者说我不想陷入到无休止也无意义的争论当中,我只想简单地阐述我个人的观点,如下:
本轮AIGC的发展,其工具特性要远超技术特性,不论是MJ这类以文出图的工具,还是采用人在回路模式的“有着无限可能的”Chat GPT都是如此,人们应当把关注点放在这些AIGC能够给我们的学习、工作和生活带来哪些便利,而不应当去猜想AIGC的发展会带来哪些科幻的可能性,因为不管是有着明确工具特点的MJ,还是看上去很有机会的GPT,都不太可能触达到人工智能的奇点。
举个困扰汽车自动驾驶伦理设计的例子来佐证我的观点。
在自动驾驶这个细分方向,影响其普及和推广的核心问题,并不是技术本身,而是社会伦理问题,我们这样假定,有一条专用的公路,只允许自动驾驶的无人货车进入,那么很显然,所有可能发生的问题,都非常容易被解决,这里可以参考一些自动化程度极高的大型港口装卸基地的现状。
真正让当前汽车自动驾驶应用无法获得推广,始终处于完善和龟速推进的关键原因,其实是采用自动驾驶后所面临的社会伦理风险。当你的汽车判断前方因外部客观因素,必然会发生撞击时,你的自动驾驶系统究竟应当先保障乘客的安全,还是尽量避免撞击过程可能会导致的第三方安全风险呢?如何通过AI机制去平衡这个两个选择都很糟糕,但却必须选择一个的状态?
其次是AIGC产出内容的知识产权问题。
这与上一个例子有类似之处,因为知识产权的衍生内容,是人才会关注的,对于AI和AIGC来说,产出的内容是否具备知识产权,以及是否侵犯了他人的知识产权,是无所谓的事情。
但它所衍生出来的问题却是很难规避的。
一方面是AIGC的学习过程,是否存在侵权的嫌疑,例如我们使用了某位有着鲜明艺术风格的艺术家的作品来训练AIGC,使得这个AIGC所产出的内容,都有着艺术家的艺术风格特性,那这是否构成侵权?
再例如已经有实际案例的,一些心术不正的用户,用知名网络人物或明星来训练AIGC,产生有明星人物鲜明形象特点的色情图片,用以牟利。以及包括上周受全网关注的,美国网民通过AIGC来生成美国前总统特朗普被抓捕的图片等等,这些都会涉及到侵权问题,以及一定意义上的法律边界问题。
另一方面则是通过AIGC所产出的内容,是否应当具备知识产权的属性,需要被知识产权所保护?这方面欧美已经有了一些实际的诉讼判例,但同样的情况下,是否有探讨的空间,以及在实际的争议过程当中,要用什么样的方式来解决,很显然,还是有很多的相关问题,需要更为深入的讨论,才能获得更广泛群体认同的。
当然除了奇点理论和知识产权等话题,AIGC其实还有更多的其它衍生的话题讨论,例如翻译工具、辅助工具、大小库、伦理风险、信息安全等等,在这就不做展开了。
需要特别说明的是,对于年轻群体来说,如果你对AIGC已经有了一些尝试和了解以后,这些衍生话题对自身的帮助,或许会比对AIGC本身的学习研究来得更大一些。
因为年轻群体最需要的,不仅仅是技能和知识层面的提升,还有来自思维模式、探讨角度和视野高度的综合性提升,而这些衍生话题,往往会给个体带来这些层面的变化和思考。
七、AIGC的未来价值展望
然后我们来简要探讨一下关于AIGC的未来价值展望。
在我看来,AIGC的工具性,是下一个阶段发展的重要方向,也是很快会被相关领域所接受和使用的主要原因。
因为AIGC的辅助性特点以及个性化差异,会让很多产业和领域的难点痛点,获得一个全新的解决问题的思路拓展,在引入AIGC的前提下,许多行业的流程规范可能会被重构,一些岗位也可能会面临真正意义上的颠覆性变化。
举一个很接地气的例子。
全国三四线城市的一些小的打印设计店,日常是需要一两位设计师来承接一些难度不高,但又有一定门槛的图形设计工作,而当AIGC获得了充分发展后,这些设计岗位可能就会消失,因为AIGC按规则出具的设计内容,已经完全可以满足这些门店绝大多数日常需求了。
再例如旅游地的信息介绍和浏览引导工作,在AIGC充分发展和引入后,可能就会给旅游点的游客体验,带来颠覆性的优化和改变,甚至有可能对旅游过程进行体验层面的重构。
而这些,只是我们根据当下AIGC的发展,可以想象和预见到的未来展望。而AIGC的快速成长态势,显然会带来更多的可能性,并且带来更多的颠覆性,用一句已经被滥用的话来说,随着AIGC的高速发展,“未来已来”。
文章看到这里,欢迎大家回到文章的开头,再看一下被放在文章最前面的观点建议汇总,也希望这些内容能够给各位年轻人带来一些有价值的帮助,感谢。
原文:https://zhuanlan.zhihu.com/p/617684725