随着ChatGPT-3.5和ChatGPT-4的发布,AIGC又迎来一波热浪,IT行业重新聚焦人工智能这一现象级热点;为此,6.10日我们于北京举办了ChatGPT实践应用和大模型技术解析线下沙龙,想和掘友们聊聊ChatGPT和大模型那些事!
至此,和大家先别三年的掘力计划系列线下活动正式宣告回归啦!
本次沙龙我们分别邀请了2位开源项目作者和2位业内专家,从技术原理、实战、应用等多维角度,共同探讨ChatGPT和大模型在当今技术领域的影响和变革。
Topic1 开源揭秘:35k+ Stars ChatGPT 桌面应用
陈鑫(lencx) 一位 8 年前端开发经验,平常喜欢折腾,热衷开源,业余学习 Rust,Tauri 等。本次给大家分享了自己独立开发 ChatGPT 桌面应用所经历的心路历程;以及如何将项目从默默无闻,做到 37K+ Stars 顶级开源项目;希望可以给大家带来一些思考。
项目核心实现过程
lencx的本次项目灵感来自于机器人指令,如果经常玩 TG 或者 Discord 的朋友应该都比较熟悉(通过输入斜杠指令来调用机器人的功能。比如:/help、/start 等)。
桌面应用是基于 Tauri 的套壳实现,简单来说就是直接在 WebView 中加载网站 URL。通过注入脚本的方式来实现对网站功能的扩展。主要有以下几点:
- 如何加载 URL 到窗口?
- 加载的网址中如何注入脚本?
- 注入脚本中如何调用 Tauri API?
个人开发过程中的产品思考
产品闭环:它可以很小,功能可以很简陋,但是必须要形成最小闭环,保证其可用性(产品核心功能可以正 常使用)。
速度要快:开发速度,更新速度,问题相应速度都要快,因为它可以帮助你抢占第一波用户(种子用户积累 很重要,可以形成口碑,帮助产品二次传播)。
用户体验:这是需要花心思的,虽然你是一名开发者,但是你更是一名使用者。所以没有产品,你就是产品; 没有设计,你就是设计(你就是用户,甚至你要比用户更懂用户,学会取舍)。
产品计划:你对产品未来方向的规划,计划加入什么牛逼的功能,需要在文档里写清楚。它就相当于是在给 用户画饼,可以打动一些想要长期追随它的用户(注意:画饼不代表天马行空的想法,而是根据实际情况, 可实现但因时间原因暂时无法实现的计划)。
差异化:因为当你发现机会的时候,别人可能早已经在里面开始收割了,所以产品功能的差异化,将是你的 突破口(人无我有,人有我有优)。
稳定性:产品的初期的架构很重要,它可能会伴随其一生。重构有时候并不现实,因为它需要牵扯到很多的 历史包袱,数据兼容,人力成本等等(可扩展性很重要)。
lencx认为:身为一名程序员很自豪,虽然足不出户,指尖却有着可以改变世界 (可能有 点大了) 自己的力量。即使不能实现,将其作为努力的目标也不错。
Topic2:中国的年轻人都在怎么玩ChatGPT?—— 一个开源作者的管中窥豹
张义飞:两年工作经验,依次在百度、腾讯、亚马逊实习过一段时间,现在在某不知名小厂打杂;技术栈比较宽。
本次义飞主要介绍了在开发 ChatGPT-Next-Web 项目中的历程,从项目开发动机,到产品设计的一些巧思,再到初期预热推广,以及如何让应对用户增长、小白用户分流、经营 Github Issue 区以及通过社交工具构建快速反应社区,让所有人感兴趣的人都参与进来,最后也分享一下对大模型技术应用场景的一些个人看法.
ChatGPT-Next-Web项目目前的情况
产品设计的一些巧思
一键部署 :假设所有用户都是懒狗
快速加载:假设所有用户都是急急国王
自动更新:不多说了,都是懒狗
面具 :搞点和别人不一样的噱头
精致设计:不仅是懒狗,还是颜控
对开源的理解
对未来可以落地方向的瞻望
张义飞:用代码解决实际问题是一件比打游戏更上瘾的事情!
Topic3:大语言模型的相关特性及对应用的影响
刘喆:白海科技联合创始人兼技术负责人,总体负责白海科技IDP LM 专属大模型应用加速平台及解决方案有丰富的数据开发和架构经验,曾在百度、明略、人民搜索任职,负责包括AI开发生产平台构建、大数据平台构建和广告监测全流程设计等
本次分享中主要科普了巨量参数带来的挑战、结构复杂带来的挑战、训练是个系统工程、 Task 训练Tips;介绍了大语言模型的一些相关特性:文本续写的本质,大参数量带来的相关训练问题及解决方案,大参数量带来的效果优化困难及相关相关策略,分布式训练特性产生的系统工程要求及系统化能力要求,Task 训练相关的对策等。
对大模型的展望
刘喆:未来大模型市场的服务商头部厂商可能占据80%的市场份额,目前入场还有机会。
Topic4:VisualGLM:中英双语多模态对话预训练模型
丁铭:本科博士均就读于清华大学计算机系,主要研究方向为大模型预训练。丁铭第一作者发表国际知名会议文章10余篇,谷歌学术引用2600余次,主持的CogView、CogVideo等工作在领域内均具有较大影响力;目前在智谱VisualGLM项目中担任ProjectLead。
VisualGLM-6B是最近发布的开源中英双语的多模态对话模型,该模型可以理解图像,并能根据图像内容进行流畅的问答。本次丁铭主要分享了VisualGLM的预训练过程,模型结构,部署方法,微调方法等。
ChatGLM & VisualGLM 项目介绍
VisualGLM 训练过程
Lora merge的参数合并
QA&茶歇&合影
本次分享PPT: bytedance.feishu.cn/file/UsdSbX…
直播回放链接:juejin.cn/live/ChatGP…
一个小调研
掘力计划线下沙龙近期重启啦,对于近期大家感兴趣的热点可以在评论下留言,我们下次的活动主题会参考大家反馈;提供一些参考方向:
- visionOS 或 XR 主题
- 程序员如何让应对AI的冲击等。。。