生成式AI爆火背后:数据确权、隐私与版权争议|AIGC特辑之一
本文来自微信公众号“硅谷101”(ID:svstyle)
采访|泓君 文字|何源清 编辑|泓君
前面的话: 我们音频最近正在推出AIGC特辑,我们邀请到了学者、大模型研究者与开发者、应用层、投资人以及艺术家来讨论AIGC的方方面面。《硅谷101》播客上已经陆续上线,也有很多听众反馈信息量大,希望有文字稿,接下来我们会把一些音频中的文字摘要整理出来,欢迎大家订阅我们的音频和公众号。
老牌**《经济学人》的封面一向以辛辣和构思独特取胜,而今年年中,《经济学人》的**封面《Ai’s New Frontier》竟是一张Midjourney人工智能生成的图片。美国科罗拉多州博览会美术大赛的冠军作品——《太空歌剧院(Théâtre D'opéra Spatial)》,也是由AI所生成。
普通人可以用AI生成媲美艺术家的作品,这让“一句话生成图片”在网络上爆红。硅谷知名投资机构红杉也写了一篇文章,叫做《Generative AI: A Creative New World》,一时间,也成为投资人竞相追逐的赛道,业内人士将生成式AI的赛道称之为AIGC(Artificial IntelligenceGenarated Content)。
来源:《经济学人》**
本期节目,《硅谷101》邀请到了美国西北大学工业工程及管理科学系和计算机科学系助理教授汪昭然和大厂数据科学家钟凯祺来聊聊我们的使用体验,并尝试回答“一句话生成图片”到底是什么,以及AI生成图片的数据与版权问题。
01
误解获奖作品《太空歌剧院》:
并不完全是机器生成
《硅谷101》:您觉得在使用AIGC生成图片的过程中,有什么有意思的地方,跟大家介绍一下你的使用经验?
钟凯祺:你之前提到看过一幅照片,后面全是图书馆里的书,前面是几个机器人,那张图就是我画的。制图过程当中感觉比较重要的事是,后面一定要去学很多描述风格的装饰词,甚至是你需要的艺术家风格要明确的告诉它。比如在那一幅图里面,我就很明确地说是一个比较中古的油画风,一个人和一些机器人一起合作,在一个巨大的古老的图书馆当中一起工作。需要把这种感觉描述出来,越精确越好。接下来就是去试结果,可能试了大概20次左右,已经得到一个不错的结果。再去看看别人有没有一些更好的方案。还挺好玩的,像拆盲盒一样。
来源:美国科罗拉多州博览会美术大赛的冠军作品《太空歌剧院(Théâtre D'opéra Spatial)》
《硅谷101》:让我想起来在片头提到了这幅获奖作品,叫做《太空歌剧院》,我其实看了那幅作品,觉得他绝对不是一个“一句话生成图片”的初级玩家,一定是个高级玩家。
钟凯祺:那幅图是精修过的。
《硅谷101》:怎么精修?
钟凯祺:要参赛的图片,一般是先用 Midjourney 画一个底稿,专业的画家会在这基础上再去对它用电脑做一些精修。
原画师现在用两种方法精修:
一是直接打出底稿之后用它来做精修;
二是直接做局部:我在某一个局部想要什么,把这个做出来,然后再把几个局部的图片“捏”起来,做自己想要的构图。
这几类的方法现在都有,不完全直接用 AI 制图。就像摄影技术,照片生成的时候摄影也不太好直接出,因为有可能过度曝光等等的原因,必须要在弄完之后加很多的*作,这种逻辑也是一样的。等于现在还处在我们和AI作画技术不断磨合、进步的这么一个过程当中。
来源:Midjourney官网
《硅谷101》:Midjourney的美学风格是什么决定的?
钟凯祺:决定美学风格的,
第一是数据集,看看本身有什么风格?
第二是整个训练和推理的过程,会在过程当中不断地进行调试:设置一定的函数,来保证达到的效果是它们想要的。它们会对某一既定的、一致的美学风格去给一些征照的打分,等等的方式来调优每一个模型自己的美学风格。
当然这一块我不是特别专业,但我看到过有一些专业的画师在用了各大产品后,非常详尽的评测,对它们的美学风格是有一定的差异性评价的。
02
数据确权、
隐私与版权争议
《硅谷101》:我片头开始讲到了那幅获奖的作品《太空歌剧院》,说它引来了版权争议。这个作品它算不算你创作的?它的版权归谁?我用DALL·E·2生成的我们播客封面图的这两张照片,它的版权又是归谁,其他人能不能用这两幅图?它目前其实是没有任何的法律保护,在一个真空地带的。您怎么看?
一张《硅谷101》使用Midjourney生成的图片
汪昭然:这里面包含一个非常严重的问题,就是数据确权的问题。数据生成出来的模型到底归谁,包括一直到下游,你的 Prompt 生成出来的特定的图片,这个图片的版权归谁?其实现在有很大的争议。
这也是另外一个值得研究的热点,就是数据怎么定价、数据怎么确权、你怎么保护你自己的隐私。包括GBP-3做代码生成,还有微软现在的产品集成到Visual Studio Code里,它从把Github上的代码给读了一遍,生成出来代码到底算谁的。有些代码它的许可证可能不允许你去直接抄。如果我的模型生成代码出来的是一模一样的,比如生成了3行一样的,你很有可能就被告了。像谷歌被Oracle告Java的专利侵权,这其实是类似的。就算是人完全看一遍,自己记住再写一遍,其实也不能保证完全不一样。所以这其实是一个很大的问题。
那具体到数据集里面,如果出现特定人的脸,就算不是一模一样,但是大同小异,到底算不算侵犯隐私,或者**脆就愿意把我的数据卖给 Open AI 或者是 Stability 做训练,它应该给我付多少钱,下游的分成应该分多少。这是一个很大的问题,在广义的经济学上,信息是怎么定价的?也是有很多值得研究的课题。
但是另外一方面,这也是好事。我们可以这样想:如果出现了一个非常严格的、可执行的数据确权、数据定价的规则,那么它马上就能形成一个非常大的数据的市场。不仅仅是大模型的,包括现在的推荐**用到的这些数据,本质上也是从用户手里面给“骗”来的。你推荐的这些利润是不是应该给用户分一部分,现在还是非常模糊的阶段。
但是现在数据隐私的立法已经很完善了,我们可能马上也能看到数据的交易。不论是在美国、欧洲或者我国,可能也会有一些政策层面的改变,在这些政策下会发掘出来什么机会。很有意思,同时也有很多新的挑战需要解决。
《硅谷101》:我稍微补充一点,刚刚我们提到的在AI图片生成平台生成的作品,它们采用的版权协议叫做 CC0机制:它是一个**版权协议,它的版权并不完全是属于我的。比如我虽然可以被认为是跟机器共同创作作品的作者,但是这个作品同时也可以被其他的人去使用或者修改。所以现在应该来说在法律上它是最宽泛的一种,但未来会不会收紧我们不知道。
我们刚刚提到的是数据的隐私的问题,但另外还有一个是昨天我看见有人转发了一条即刻,是一期Joe Rogan(美国一个非常著名的播客主持人),跟Steve Jobs(乔布斯)的采访对话。听到这里大家肯定会非常奇怪,因为大家知道乔布斯已经去世了,是不可能接受采访的。所以第一反应是不是生前的采访?它其实是一段假的,也是就AI生成的。根据比如 Joe Rogan 的数据,和乔布斯生前的采访的东西,把它整理成的一个AI的采访对话。我没有全部听,大概点进去稍微听了一下,感觉还挺顺畅的,它相当于是一个假的播客作品。因为GPT3也能写, 那以后是不是AI可以生成这种大量的假新闻。我记得AI生成图片火之前,有一段时间 Deepfake(深度伪造技术)也很火。未来这种技术要怎么样去做好安全性,完全靠这些企业的道德标准吗?
汪昭然:对,这就是一个非常大的挑战。其实大家可能也没有什么好的解决方法,因为从原理来看,以前我们说有知识产权的保护,是因为可以很严格的比对,你到底有没有侵犯专利,有没有抄袭文章。但是现在很多东西,你说它是抄了,它也没有完全抄,但却有一些神似。就像在连续空间上不可能有两个点完全重合,概率是非常非常小的。
所以我觉得这些都是一些需要研究的问题,特别像生成模型,其实很多时候它会带来一些想不到的技术难点,就像您说的 Deepfake(深度伪造技术),或者是生成得一些很有冒犯性的内容,这些在某种意义上也回到了“可控生成”的问题上:什么是冒犯性的内容?其实我们可能也都没有一个共识。怎么严格定义、立法定义,因为确立规则是在这个东西出来之后,本质上都会有一些滞后性。甚至在这个时代已经不太好定义什么叫做“不好的内容”,这是非常有挑战性的。我其实就非常感兴趣在这方面有没有一些简单的解决方案,这些都是一些研究性的前沿理论。
03
生成式AI:
未来的搜索引擎?
《硅谷101》:您觉得生成式AI的最终目标可能是什么?
钟凯祺:其实我觉得这一块未来会碰到的边界越来越多,也不断会有法规完善,可能法规和业界的发展磨合会是不断发生的,有一个碰撞的过程。Stability 的CEO Emad Mostaque 在Twitter上就说过,包括Open AI 的 CEO Sam Altman也在Twitte上说过,生成式AI的最终目标是做一个类似于像新时代的搜索引擎。
来源于网络
当你想要一幅画或者一句话、一段语音等等的时候,输入你想要的内容,直接得到一个根据历史拼接出来的结果。这个过程当中一定会有越来越多的,可能是版权、可能是安全性所带来的问题。但是我认为这个过程确实是一个未来的趋势以及不可逆的。在这个过程当中肯定也就会有数据定价。
前面所讨论到的问题,我理解目前技术可能还暂时不支持,但肯定会有发展的空间,因为目前学界在做的很多,包括深度学习的可解释性等等的探索,如果未来真的可以定位到一些图片或者是音频当中所用到的语料、或者是素材库的一个可解释性,比如根据Transformer当中的Attention(注意力机制)来定位到一些真正的图片当中的对象,到底哪一个在图片当中的占比最大?可能是来自于哪个艺术家等等。运用这样的深度学习的逻辑,或者是用Prompt当中的一些归因的逻辑,去确定一些数据源头的定价,这应该会成为一个新的搜索引擎以及数据定价的一个模型。感觉会有很大一段发展和**的路要去走。
04
艺术家的机会与挑战:
从卖画到卖风格
《硅谷101》:您觉得未来艺术家们的机会与挑战会有哪些?
汪昭然:我觉得很有意思的是,从艺术家的角度,现在的商业模式是不是会有改变?现在大家把一个特定的画去拍卖,比如画家成名之后拍卖得更贵、转卖、收藏,像NFT这种风格的。但是另外一方面,如果在未来,作为一个画家,我有没有可能去卖我的风格?因为我的风格可以生成无限多的类似风格的图片。
其实已经出现了一些例子,比如有人就在他的Prompt里面加入一个画家的名字,这个画家是专门画龙的,画得特别逼真。那是不是加入画家的名字,生成出来的就有他的风格,这个画家好像现在就遇到了这样一些法律上的麻烦,到底算不算侵犯我的知识产权,反过来想,这对于画家是不是也算是一种新的机会?我来卖我的名字,卖我的风格,其实是超越了一幅特定的画、特定的作品,更广义上的一种知识产权,或者是一种艺术升华,我觉得其实也是一个很有意思的方向,可以思考。
【名词解释】
OpenAI
一个人工智能实验室,由营利组织OpenAI LP与母公司非营利组织OpenAI Inc组成,是特斯拉创始人Elon Musk与前YC总裁Sam Altman共同创建。
DALL·E·2
一个通过文本描述生成图像的人工智能工具,是OpenAI旗下的模型。
Midjourney
一款AI绘画工具,只要输入你想到的文字,就能通过人工智能产出相对应的图片,耗时只有大约一分钟。
【相关阅读】
《Generative AI: A Creative New World》——Sequoia www.sequoiacap.com
中文版《生成式AI:一个创造性的新世界》 www.woshipm.com
注:部分图片来源于网络
【本期节目不构成任何投资建议】
当前,以芯片为代表的信创产业逐步成为国家科技竞争力的重要标志。在国产CPU产业强势崛起的过程中,你首先想到的会是哪几企业?答案有很多,但“中科系”的提及率绝对很高。作为国家战略科技力量,“中科系”旗下
21世纪经济报道记者倪雨晴 圣何塞报道在硅谷源泉之一的圣何塞,英特尔CEO帕特·基辛格(Pat Gelsinger)正在带领英特尔加速奔跑。当地时间9月19日,2023英特尔on技术创新大会于美国加利
财联社9月19日讯(记者 唐植潇)近日有消息称,OPPO将会重启芯片业务,并且“有部分员工已经回流,加入到了车载业务之中”。记者就此事向OPPO方面进行核实,对方表示“不予置评”。特百惠(我国)数字与
600亿颗芯片!我国巨头正式宣布,美媒:**也没料到制裁这么快
我国芯片市场与美国依赖我国的集成电路市场一直以来都是一个巨大的市场,拥有庞大的需求和巨大的增长潜力。我国的电子消费市场一直在迅速增长,包括智能手机、电视、电脑和各种智能设备等,这些设备都需要高性能的芯
最新手机芯片天梯图:A17、华为麒麟9000S,排在什么位置?
近日,最火的两颗芯片分别是苹果的3nm芯片A17 Pro,虽然很多人吐槽它较上一代提升不明显,但论性能,可以碾压任何安卓芯片,甚至是领先2代的。另外一款芯片,则是华为麒麟9000S,当然,这颗芯片工艺
韩国芯片连续13个月暴跌,尹锡悦指责我国不采购,外媒:自食其果
据韩国媒体称,韩国的半导体出口额已经连续暴跌13个月了,比去年同比下降了28%左右。韩国政府急的焦头烂额。尹锡悦政府竟直接甩锅我国,话里话外都是指责,他认为韩国半导体卖不出竟是我国的原因,我国应该帮助
我国突破芯片瓶颈将影响全球秩序?美国很担心,指出我国关键弱点
我国在芯片半导体领域一直深受美国的**,通过贸易制裁的方式阻止高端芯片进入我国市场。这样的举措一度造成我国芯片领域发展断档,不过随着我国科技企业近几年的突破,目前我国已经在芯片制造方面取得了重大的成果
前几天,华为一声不响的上线了mate60系列,带着麒麟芯片9000s强势回归,吸引了全世界的目光。而华为麒麟芯片**背后,我们不该忘记这位老人—张汝京。我国半导体之父,为回**造芯片,被开除**户籍,
【有车以后 资讯】“未来汽车对传统汽车的颠覆性,使传统零部件体系的50%以上都面临重构。”12月16日,在全球智能汽车产业峰会(GIV2022)上,我国电动汽车百人会理事长陈清泰指出,智能汽车的价值链
投稿点这里汽车有多少个零件?其实这个问题并没有一个十分确切的标准答案...据估计,一般轿车约由1万多个不可拆解的**零部件组装而成。结构极其复杂的特制汽车,如F1赛车等,其**零部件的数量可达到2万个
全球最大的10家汽车零部件供应商 都是世界500强 无我国企业
【卡车之家 原创】美国《财富》**每年发布的世界500强排行榜,是以营业收入数据对全球企业作出排名的榜单。2017年“世界500强”榜单中,汽车制造商和零部件厂商共占据33席(除去大型工程车辆企业),
汽车零部件企业哪家强?除了博世**还有这些名字你一定耳熟能详
文:懂车帝原创 李德喆[懂车帝原创 行业]9月18日,由《我国汽车报》主办,罗兰贝格协办的2019汽车零部件“双百强”企业发布会在江苏南京举行。在两份榜单中,博世、**、电装位列2019全球汽车零部件
行业现状(Reference:产业运行 | 2021年汽车工业经济运行情况)中汽协预测:2022年我国汽车销量达到2700万辆,新能源销量超过550万辆(Reference:乘用车市场信息联席会)以乘
全球十大汽车零部件供应商,核心技术都被他们垄断,自主遗憾缺席
提到电影,我们会想到张艺谋、冯小刚,而很少会想到幕后的制作人;提起流行乐,我们会想到周杰伦、萧敬腾,而很少会想到背后的作词人。台前台后,一幕之别,知名度往往相差甚远。车界又何尝不是如此,知名车企我们都
来源:环球时报 【环球时报记者 倪浩 陶震 环球时报驻德国特约记者 青木】经过3年疫情后,全球最具影响力的通信展今年有望再现往日盛况。2月27日至3月2日,由全球移动通信**协会(GSMA)主办的20
近日华为、苹果争相推出手机卫星通信功能,成为一大亮点,不少手机厂商也将目光投到卫星通信。放眼未来,手机直连卫星的卫星通信服务将是大势所趋,也是6G时代的重要标志。华为以“北斗三号”为依托,率先把“卫星
国内企业在光通信产品的参数测试过程中,通常使用国外的先进测试设备。然而,这些测试仪器之间往往是孤立存在的,需要手动调试仪器并通过旋钮、按钮和人眼观察波形或数据。这不仅*作繁琐易出错,而且测试效率低下。
龙头20cm涨停,7天股价翻倍!一文看懂卫星通信前世今生及产业链
卫星通信概念股华力创通今日再度强势拉升,截至发稿,该股股价20cm涨停,7个交易日累计涨幅近113%,现报23.52元续刷阶段新高,总市值155.9亿元。消息上,有媒体从供应链获悉,Mate 60 P
工信部:目前我国尚不具备实现网络层面的移动通信号码归属地变更的条件
针对网友提出的“电话号码归属地更改”建议,工信部近日给出了官方回复。此前,有网友在人民网留言板向工信部留言称,“现在电话都是实名制,电话号绑定的***及一些主流的软件较多,更换号码后造成一系列问题