压在玻璃窗边c，在窗户边c-橘子百科-橘子都知道

压在玻璃窗边c，在窗户边c ChatGPT之后又一应用杀疯了，AIGC或进入可控期，将洗牌科技行业？

自聊(liáo)天机(jī)器人ChatGPT火爆以来，微(wēi)软公司(sī)创始人(rén)比尔(ěr)·盖茨已(yǐ)多次公开谈论人工智能话题。在最近的一次采访中，他(tā)再次表示：“AI可能会让科(kē)技(jì)行(xíng)业迎(yíng)来一(yī)次剧烈的洗牌”。

这(zhè)个结(jié)论是他(tā)在(zài)当地时间2月20日接受《In Good Company》节目专(zhuān)访时提出(chū)的。

他预期(qī)，AI的发(fā)展可能会威胁到谷歌(gē)的(de)市占率(lǜ)，因为微软在AI方面的行动相当迅速。而最终科技巨头将(jiāng)把(bǎ)AI整合成用户(hù)的“全能(néng)助手”，包(bāo)揽(lǎn)一(yī)切(qiè)应用，与(yǔ)人们进(jìn)行沟(gōu)通并提供建议，可以取代亚马逊、Siri或Outlook等应用。

大佬(lǎo)口中全能助手的到来(lái)可能尚需(xū)时日，但由ControlNet引发的又一次AI绘画(huà)浪潮(cháo)，让AIGC在(zài)ChatGPT的话(huà)题热(rè)点(diǎn)包围(wéi)中(zhōng)杀出重围。

ChatGPT之后(hòu)又一应用(yòng)杀(shā)疯了，AIGC或进入可控(kòng)期，将洗牌科技行业？_黑料正能量

ControlNet颠覆AI绘画新玩法

AIGC向可控靠近

以AI绘画为代(dài)表(biǎo)的AIGC上一次(cì)爆火的(de)时候，还(hái)是2022年8月，在美(měi)国科罗拉多(duō)州举(jǔ)办的新(xīn)兴数字艺术(shù)家竞赛(sài)中(zhōng)，一(yī)幅名(míng)为《太空歌(gē)剧院》的作品获奖。

随后各大厂商的AI绘画(huà)软件被广(guǎng)大网(wǎng)友熟知并体验，Stable Diffusion便是其(qí)中代(dài)表(biǎo)。

用户们可以在应用中输入一组关键词或者一(yī)张照片，就能获得一幅AI创(chuàng)作(zuò)的画作。

作画的关键就是所输入的(de)文本。同一组关键词也可以(yǐ)创作出很多张风格(gé)不一样的(de)画作(zuò)，这让(ràng)创(chuàng)作的过程就像开(kāi)盲盒。

很多用户很喜欢这种不(bù)确定(dìng)的惊喜(xǐ)，他们会将生(shēng)成的(de)美图当做头像。而(ér)另一部分(fēn)喜欢翻看AI绘(huì)画的“翻车”作(zuò)品。在社交媒体(tǐ)上(shàng)，许(xǔ)多用户(hù)分享AI“翻车现场”，例如，一位网友的小狗照片被AI画成了(le)“肌肉(ròu)男(nán)”，还(hái)有网友的个人照片被(bèi)AI识(shí)别成了建筑。

而如(rú)今随着ControlNet的出(chū)现与加(jiā)持，以往(wǎng)AI绘画的填(tián)写关键词游戏(xì)可(kě)能要被颠覆(fù)了(le)。

ControlNet是一位正在斯坦福读博(bó)的中(zhōng)国人张吕敏(mǐn)创作(zuò)的一种基于控制点的图像变(biàn)形算(suàn)法，主要用于数字图像处理、计算机视觉和计(jì)算机图形(xíng)学等(děng)领域(yù)。

其SD插件一经发布，在短短的两(liǎng)天内便成为了AI绘画领域最新的(de)热点。

在(zài)此之前，大(dà)家用(yòng)了很(hěn)多方法(fǎ)想让AI生成(chéng)的结果(guǒ)尽(jǐn)可能的符合要求，但是都(dōu)不尽如(rú)人意，它的出(chū)现代表着AI生成开始进入真(zhēn)正(zhèng)的可(kě)控时期。

因为ControlNet可以直(zhí)接(jiē)提取画面的构图，人物的姿势和画面的深度信息等(děng)。有了它的帮助(zhù)，就不用频繁的用提(tí)示(s压在玻璃窗边c，在窗户边chì)词来碰运气，抽盲盒(hé)式的创作了。

通俗(sú)的说ControlNet相当于给AI绘画(huà)加(jiā)了“魔法”，不(bù)少博主的作品已经获得了大量(liàng)的浏览量，“viggo”就是(shì)其中之一，他用朋(péng)友的(de)照片直接带她们走进动漫世界(jiè)。

viggo先用StableDiffusion图片转文(wén)字。

再(zài)用Text2Prompt插件拓展(zhǎn)找到对(duì)应的(de)关键词；最后(hòu)用ControlNet插件绑定(dìng)骨骼开(kāi)始换关(guān)键(jiàn)词试效(xiào)果。

通(tōng)过图片就可以看(kàn)出来，效(xiào)果(guǒ)十(shí)分惊(jīng)艳。

更厉害的是(shì)，除(chú)了真实的照片，草图也(yě)可以加上“魔法”，知乎大牛“DevPoint”和“逗砂”介绍到ControlNet还能实现线稿转全彩图。大神张吕敏(mǐn)其本尊(zūn)也(yě)亲自(zì)回应(yīng)。

不得(dé)不说当下AIGC已经变得越来越强大(dà)，甚至(zhì)输(shū)出的(de)作品都(dōu)已经能以假乱真了。

难辨(biàn)虚实(shí)，AIGC技(jì)术力爆发

警惕安全问题

近日，“苏州金鸡湖有游艇(tǐng)party”的消(xiāo)息火遍网络，而(ér)经过警(jǐng)方辟谣这(zhè)所谓的“party”可能(néng)是全国(guó)第一起(qǐ)AI绘图诈骗。

由于这(zhè)个(gè)活动里面给出的美女照(zhào)片都是AI制作的真人(rén)照片绘(huì)图，因为太逼真，被大家(jiā)当成真事传播(bō)了。

不过仔细观察可以发现，活动发起者提供(gōng)的照片中(zhōng)有个很大的漏洞(dòng)可以发现并(bìng)非真(zhēn)人，而是AI绘图，那便是(shì)图片中女性(xìng)的(de)手指部分有(yǒu)的(de)存在异常。

ChatGPT之(zhī)后又一应用杀疯了，AIGC或进入可控期，将洗牌科技(jì)行业？_黑料正能量

有行业人事表示：“现(xiàn)在因为手指(zhǐ)部分的绘画算法(fǎ)比较复(fù)杂，AI还不太(tài)会画人(rén)的(de)手，但最新(xīn)看到的图片已经有(yǒu)越来越(yuè)完美的AI模(mó)型(xíng)出现(xiàn)，以后可能(néng)就完全没有漏(lòu)洞了。”

类(lèi)似的AI作图诈骗在国(guó)外也已有发生。据英国广播(bō)公司报道(dào)，土耳其(qí)地震期间，有Tiktok用户(hù)使(shǐ)用(yòng)AI合成了儿(ér)童受(shòu)灾(zāi)的假照片发布到网络，以此诱骗(piàn)善良的人打赏“捐助(zhù)”从(cóng)而实施诈骗。

目前(qián)随(suí)着技术发展，AIGC已经(jīng)能做出真人照(zhào)片般的绘(huì)图(tú)效果，如果(guǒ)这样的图片被用来诈骗，将(jiāng)非常可怕。

此外AIGC还引发了很多担忧，一方(fāng)面，批(pī)判者认为AI在“学(xué)习”了大量(liàng)前人(rén)的作品之后，其创作(zuò)没有任何情绪和灵(líng)魂，难以和人类的艺术创作相提并(bìng)论。

另一方面，AIGC背后(hòu)的版权(quán)、目前都并没有得(dé)到有效的解(jiě)决，还(hái)有AIGC会(huì)不会代替人类“至高无上(shàng)”的(de)创(chuàng)意。

马斯克也强调，人工智能的安全(quán)问题(tí)需(xū)要得到重视，太晚(wǎn)就(jiù)来不(bù)及了。

AIGC下一(yī)站除了视频(pín)，还有远方

技术(shù)都(dōu)是有两(liǎng)面性的，潜在的危害并不能掩盖(gài)其光辉的贡(gòng)献。现在(zài)看(kàn)来，人工(gōng)智(zhì)能技术将是第(dì)四(sì)次工业革命的(de)核心驱(qū)动力量，将创(chuàng)造新的增长奇迹。

过去一年，人工智能(néng)在技术和(hé)商(shāng)业层(céng)面都有了巨大(dà)进展，AI绘画就是人工智能技术发生(shēng)方向性(xìng)改变的(de)一(yī)个代表。其(qí)下(xià)一站或许就是视频。

此前，Meta和谷歌(gē)先后发(fā)布了(le)几条引爆科技(jì)圈的(de)短视(shì)频。这(zhè)些视频引发关注并非内容做得(dé)多优秀，反而都非常简单，比如一(yī)匹正在(zài)喝水的马(mǎ)，一(yī)只画画的玩具(jù)熊，或(huò)者一段(duàn)骑摩托车的第(dì)一视角(jiǎo)录像，随(suí)便(biàn)一个有手机的人都可(kě)以随(suí)手(shǒu)录下(xià)一段。

但这些短视频的创作方式非常简单(dān)，创(chuàng)作者仅仅需要向(xiàng)AI输入(rù)一(yī)段话，甚(shèn)至(zhì)只是说一(yī)下要求，AI就(jiù)可以根据需要生成一(yī)段视频。

谷歌发(fā)布的两个(gè)AI生(shēng)成视频分别来自于Imagen Video和Phenaki，前(qián)者主要突出的是高清，与(yǔ)Meta的Make-A-Video没有太多的差别。

在Make-A-Video公(gōng)布了AI生成的(de)视频后，AI圈就已经玩了(le)一波梗，一个能够(gòu)做出(chū)更高清(qīng)视频的(de)AI还不足以在(zài)短时间(jiān)内戳(chuō)中(zhōng)兴奋(fèn)点。

Phenaki更加令(lìng)人震惊的地方在于(yú)，它可以制作出超(chāo)过(guò)2分钟的连贯的也有确切内容的视频，这才是真正(zhèng)让人们感到惊喜的(de)地方(fāng)。因(yīn)为无论AI生(shēng)成的(de)视频多么高清，也只(zhǐ)能是为内容生产者提供一个灵感，一(yī)个素材(cái)，一个(gè)过场(chǎng)动画。

不(bù)过能(néng)够制作出有具体剧情内容的(de)视(shì)频就意味(wèi)着，一些(xiē)视频创作(zuò)由AI代替(tì)人工(gōng)完成已经初步有了可(kě)能。

当(dāng)下AI的发展速度(dù)已经超过大部分人的想象(xiàng)。内容产业的本质是供给(gěi)创造需求，AIGC作为全新的(de)内容生产方式，可以为内容产业(yè)带来更新的内(nèi)容风格、更快的(de)生产速度，更(gèng)低的生(shēng)产(chǎn)成本，这无疑会(huì)驱(qū)动内容产业的大(dà)爆发。

除了AI绘图、视频，AIGC技术(shù)还能应(yīng)用于音乐、代码、机器人动(dòng)作等多种(zhǒng)内(nèi)容形式的生(shēng)成。不难发现(xiàn)该(gāi)项技(jì)术不仅(jǐn)在游戏等行业能得(dé)到有效应用，对于下一代互联网各种元素(sù)的构(gòu)建亦有关键(jiàn)意义。

从商业化的角度来看，文化(huà)娱乐(lè)、教育(yù)、传媒等(děng)诸(zhū)多领域，本身就(jiù)对(duì)基于AI的可(kě)视(shì)化内容(róng)有强烈需求。

因此(cǐ)，AI绘画及视(shì)频(pín)或不是(shì)结(jié)果，而只是(shì)AI进(jìn)程中的一块重要(yào)拼(pīn)图，有望在技术(shù)更新的加持(chí)下实现更大的应用价值。

AI从理解内容(róng)，走向了可以生成内容，甚至能够创造出独立价值和独立视角(jiǎo)的(de)内容。AIGC的再次(cì)出圈，更代(dài)表着未来的先(xiān)进生产力即(jí)将到来。

紧抓大(dà)模型与(yǔ)算力，牢固AIGC底座(zuò)

从技术的发展也可以看(kàn)出(chū)，在语(yǔ)言大(dà)模(mó)型、图(tú)像大模型之(zhī)后，多(duō)模态(tài)大模型已经成(chéng)为了(le)新的趋势。

大(dà)模型被(bèi)誉为(wèi)当(dāng)前人(rén)工(gōng)智(zhì)能发展的智能(néng)底座，是全(quán)球(qiú)竞争最激(jī)烈的(de)研(yán)究方向之一，包括谷(gǔ)歌、亚马(mǎ)逊、百度、阿里、腾讯等众多头部企(qǐ)业都在竞相发力。

不过训练大模型的确价格(gé)不(bù)菲，以国盛证(zhèng)券发布的《ChatGPT需(xū)要(yào)多少(shǎo)算力》报(bào)告估算，GPT-3训练(liàn)一次的成本约为140万美元。而对于(yú)一些(xiē)更大的LLM(大(dà)型语言模型(xíng))，训练成本(běn)则(zé)介于200万美元至1200万美元高价之(zhī)间(jiān)。

以(yǐ)ChatGPT在2023年1月的(de)独立访客(kè)平均(jūn)数1300万计算，其对应芯片需求为3万多片英伟(wěi)达A100 GPU，初始投入成本约为8亿(yì)美元，每日(rì)仅电费就在(zài)5万(wàn)美元左右。

此外(wài)不论是ChatGPT还是(shì)AIGC，都离不(bù)开(kāi)庞大(dà)算(suàn)力支持(chí)。在关注各类大模型的发展同时，更应该(gāi)关(guān)注算(suàn)力网络的建设。

算力网络正驱(qū)动AI产(chǎn)业发展进入史(shǐ)诗级加速(sù)进(jìn)程，让AIGC及通(tōng)用AI这一人工智能发展的终极(jí)目标离得(dé)更近(jìn)。

因为(wèi)算(suàn)力可以对突破性技术创新提供大力(lì)的支(zhī)持(chí)。这方面，多模(mó)态(tài)大(dà)模型是典型(xíng)。作(zuò)为面向(xiàng)未来强人(rén)工智能(néng)、通用人工智(zhì)能的(de)重要技(jì)术创新(xīn)，多模态大模型(xíng)已(yǐ)经在人工智能(néng)领域(yù)提出(chū)了很多年，业(yè)界也有(yǒu)不少技术突破，但是(shì)，多模态大(dà)模(mó)型进一步往下(xià)走(zǒu)，算力(lì)需(xū)求呈几(jǐ)何式上升，一般的算力(lì)基础设施很快将难以胜任。

从(cóng)图像、文字、语(yǔ)音(yīn)单独一项的(de)训练，到(dào)双模(mó)态、三模(mó)态的跃迁，让人(rén)工智能可以灵活应对不同模(mó)态的转化、像人与世界交互一样自然，这方面，由算力网络(luò)来驱动将有明显优势。