AIGC应用
AI“摄影”
【商用部分收费】docs.midjourney.com/docs/plans
【网友的midjurney杰作,虚“假”难辨】
A pair of young Chinese lovers, wearing jackets and jeans, sitting on the roof, the background is Beijing in the 1990s, and the opposite building can be seen —v 5 —s 250 —q 2.
AI设计
【beta版本不能商用】firefly.adobe.com/faq
【Adobe发布AI工具:Adobe Firefly】
AI动画/视频
【商用部分收费】runwayml.com/pricing/
AI阅读理解
【开源】【国内清华团队】github.com/THUDM/ChatG…
【只要扔进去一段网址,AI自动帮你”省流””】
AIGC多模态——数字人
【商用部分收费】www.d-id.com/pricing/
“AIGC出圈”的思考
2023最出圈产品 | midjurney和chatGPT |
---|---|
midjurney | prompt指导具象化艺术创作,拓宽了智能创作的想象空间,提高效率、自动化生产。 |
chatGPT | 量变引起质变,大模型的通识表现,拓宽了智能交互的想象空间,简化流程、降低获取信息成本。 |
AIGC为什么火?
-
关键词:【想象】【效率】【自动化】
- 想象空间:曾经很多人认为AI无法实现艺术创作,以chat bot为代表的强人工智能的表现也一直被人诟病,调侃为”人工智障”,直到2022年底,两款应用横空出世…
- 效率:学会与AI交流,为许多互联网er置换出大量的时空资源,让他们有精力聚焦在更有价值创造的地方。
- 自动化:人类的历史无非就是“汽车取代马车夫,机器取代手工”的过程,在这个信息爆炸的时代,技术的本质其实是工具,它的最大价值,就是降低了生产力的成本。从刀耕火种,再到青铜时代再到工业时代,人类文明进步的一个主线就是单位生产力的成本更低了。
-
AIGC的未来:
-
依赖prompt:
- 尽管有了海量数据的投喂,大模型的泛化能力已经很强,但无论是midjurney还是GPT,想要得到一个好的答案或者效果,仍然需要一个精准的问题描述。而一个清晰精确的好问题,需要良好的逻辑,准确的语言,以及扎实的知识面对AI给到的结果进行验证和反馈。这恰恰是最难的,很多人实际上并不具备提出一个好问题的能力。
-
“智能创作”的尽头:也许是AI短视频、AI制片、AI动画
-
“智能交互”的尽头:也许是端交互、可视化交互、沉浸式交互、多模态交互
-
思考一:提供想象力价值
如果未来所有的劳务都被AI取代,人类唯一还能生产的就是想象力,科技是第一生产力,想象力是推动生产的源动力。
当下的人们该如何去认知人工智能?人工智能的发展还要解决哪些问题?未来人工智能究竟会走向何方?会不会颠覆人类自己?我们人类究竟该怎样去发展人工智能?对于大众而言,这些问题似乎很难有答案。
爱因斯坦说,“知识是有限的,而想象力却能漫游世界。” 想象力是打开科技进步之门的第一把钥匙。
思考二:养“懒”客户
AI的优势是帮助客户快速、降本、自动化解决问题。“培养”客户惰性,提供高品质体验,顺着人性、抚摸人性、引导人性。
数字营销 | 互动娱乐 | 创作分享 | |
---|---|---|---|
替代用户完成他们需要做但做不到、不想做的事 | AI运营 | 24h客服、24h直播、24h陪聊 | 无间断更新 |
帮助用户完成他们需要做但比较难或投入过多的事 | AI带货、AI写文案 | AI讲师、AI主持、AI解说 | AI辅助办公、AI绘图、AI设计、AI剪辑 |
引导用户做他们喜欢做却又没做过的事 | AI模特、AI制片 | 智能NPC | AI制片、AI动画、AI摘要视频、AI演绎小说 |
思考三:ToB or ToC
ToB是“stable”的,ToC是“flow”的。
AIGC,说到底,终极矛盾依然是toC。toC市场对用户的喜好是敏感的,技术的演进和迭代,需要用户持续不断的输入和反馈,才能形成生产闭环。数字人的发展未来最好的一种模式:通过对司内业务的支持,间接捕捉C端市场的兴趣变化以注入业务活力,同时推动商业模式和技术创新,再反哺到ToB能力上,这样的正循环更有利于培养业务壁垒,形成的商业能力护城河。
AI作图
“AI作图”主流应用
聊聊开源模型SD
- Stable diffusion:
大模型,SD的推理其实就是通过文本编码来指导图像去噪的过程,输入的prompt在embedding后能够在潜空间寻找与目标描述最相似的图像分布特征。【Git】github.com/CompVis/sta… 【Course】www.bilibili.com/read/cv2156… | ![]() |
---|
- +stable diffusion WebUI
一款功能异常强大的AI图片生成器。 它不仅支持生成图片,使用各种各样的模型来达到你想要的效果,还能训练自己的专属模型。 Stable Diffusion WebUI使得Stable Diffusion有了一个更直观的用户界面,更适合新手用户。 | ![]() |
---|
- +Lora
小模型,通过设置权重能够叠加对基础大模型的效果影响。 | 调整画风:![]() ![]() |
换脸、换装:![]() ![]() |
---|
- +ControlNet
一款强大的精准控图插件:能够自动识别图像canny、depth、hed、openpose等多种融合特征,辅助文本描述词,实现用户想要的任何效果。 | ![]() ![]() ![]() |
---|
-
常用模型:
-
文生图/图生图 NovelAI Stable diffusion v1.5 Chilloutmix CharTurnerBeta 日系二次元模型 现实通用模型(风景效果好) 写实写真模型(人物效果好) 三视图模型
-
-
常用工具:
-
下载模型:
模型网站 Prompt tag网站 (H站) huggingface.co/facebook tag.muhou.net/ (C站)civitai.com/ aitag.top/ tags.novelai.dev/ www.wujieai.com/tag-generat…
-
-
实践:
-
基础大模型(sd):人物/景物/风景/构图/质感/画风
-
小模型(lora): 角色/实物/风格/画风
-
人物学习(>=10张) SD基础模型 + lora风格模型
-
画风学习(>=50张) lora模型 / hypernetwork
-
AIGC的版权风险
- “AI作图”面临的侵权风险
版权问题应该是“AIGC”领域最大的争议,公司的法务团队也在评估中…
当前国内外对于AIGC获取与利用版权作品进行算法训练是否合法存在诸多争议,AI绘画的版权问题尚在风口浪尖,尚无立法和司法层面的明确共识;Stable Diffusion经过充分训练后,可以依据用户给出的文本输出最终图像。但这些生成的图像内容,很大的概率包含并展现出作为训练数据的版权作品的元素及特征。
谷歌公司的研究人员Kevin P. Murphy指出:机器学习模型有时会重建输入数据的特性,而不是反映这些数据的潜在趋势。此类模型可以视为生成作品的概率模型,落入原作“复制品”或“衍生作品”的宽泛定义,存在侵犯“复制权”与“改编权”的风险。
- 使用中需要注意什么
-
对于模型训练的风险预警和应对:
- 像chatGPT、SD这种大模型的训练依赖于海量的数据集,大模型训练尽可能避开有版权的数据集。
- 除了著作权的风险,同时也要避免使用带有商标、人物肖像或者特殊外观设计的未授权数据,否则有可能会构成对专利权、商标权、肖像权的侵权。
- 使用水墨画、二次元等较高艺术形式的数据版权风险更高,尽可能避开。
-
对于AIGC结果的侵权预警:
- 如果训练集本身已授权,则生成结果同样无风险。
- 如果训练集未授权或无版权,且相似度小于80%,则生成结果版权公开,不属于任何人。
- 如果训练集未授权,且生成结果和原图相似度大于80%,就属于侵权行为。