Episoder
-
本期播客邀请了个人非常喜欢的独立开发者碎瓜。
【课代表观点】
很多朋友是因为“寻隐”(queryable)这款AI相册搜索应用认识碎瓜的,并深受启发,一些人还参考它的开源代码,做了边缘侧的部署。
这其中也包括一些大公司。
尽管收获了hacker news榜首、copilot trending、应用上线15天用户突破40万等诸多成就,但碎瓜始终在过一种简单的创作者的生活。
这是他特别打动人的地方。他表明了一个人在技术浪潮中如何做到既全情投入又冷静旁观。
碎瓜的GitHub记录了他作为个人开发者的所思所想。如果这期节目听得不过瘾,推荐去读一读他的博客。
另,附上:
碎瓜最近对国内大模型的评估链接
以及,碎瓜在最后推荐的他喜欢的一款大模型应用:withaqua.com
01:11 独立开发一年,99%代码都是大模型写的
04:03 怎么理解大语言模型对个人的杠杆
05:52 一款伟大的AI相册搜索应用:寻隐
06:54 AI搜图和AI绘画的原理接近
07:54 为什么苹果们一开始没有做?
10:49 个人开发者如何考虑产品的商业化?
13:48 因为一篇论文开始研究AI的自主意识
15:26 陪伴是刚需,AI伴侣用户粘性很高
16:13 纯手机聊天的AI伴侣只有一个结局
19:05 我为什么讨厌“数字永生类产品”
21:28 “最佳平替”是不同社会阶层的连接通道
24:11 “生活智慧”是大模型最难习得的
26:52 未来随机生成,不做规划
27:49 推荐一个有意思的大模型应用【关于AI课代表】「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在小宇宙、喜马拉雅、网易云音乐、苹果podcast等平台上线。
每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。
【制作团队】
策划:nada、大帅
后期:kk
-
最近,Meta发布了有史以来最大的开源模型Llama 3.1 405B。
除了把开源模型的参数和能力拉到一个新高度之外,在Llama 公开的上百页技术报告里还有一个趋势也非常值得关注,那就是加大了训练过程中代码的权重,并且特别强调了AI编码能力的提升。
AI 编码,曾被认为是这波生成式AI中最先可能落地的场景。但除了偶尔引发对程序员失业的担忧,AI 编码相比聊天、搜索甚至无人驾驶,有点不太出圈。所以AI 编码到底发展到了什么阶段?为什么它依然是投资人最看好的三大场景之一?我还应不应该送小孩去学编程呢?
我们请到了两位嘉宾来聊一聊这些话题。
一位是通义灵码的产品技术负责人神秀。通义灵码是目前国内用户规模最大的智能编码辅助工具,插件下载量已超过400万。
另一位嘉宾是趣丸科技的研发效能负责人黄金。趣丸旗下的TT语音是英雄联盟、王者荣耀、和平精英等五大头部电竞职业赛事的官方合作平台。今年4月趣丸正式成立了AI效能团队,正在全面引进智能编码的工具。
【课代表观点】1:59为什么Llama3特别强调提升代码在大模型训练中的比重?
4:05AI编码公司通常需要从基模做起吗?
5:56明星公司Devin为何讨论热度这么高?
7:12Devin要取代程序员还有很大距离
11:14企业代码需求大都不是0到1,基于历史续写是Devin们的短板
14:11所有人都在探索Agent的能力上限,但需要时间
15:28通义灵码9月会推出Agent类产品demo
17:58趣丸有80%的程序员在用AI编码工具
19:09在一众编程语言中,Java的代码采纳率特别高
21:12AI编码表现比较拉胯的语言有哪些
21:48前端语言对大模型来说的三个难点
24:29程序员都很讨厌读别人的代码,可以丢给AI
27:12一些工程师在用AI coding工具学习新的编程语言
27:54大参数模型+RAG已成标配,但copilot还没做
29:37单元测试、代码优化是深度场景,各家质量都有待提高
31:34灵码用的是通义最大参数的模型
32:11企业选AI编码工具会有哪些额外考量
33:15国内产品和copilot相比,不一定差
36:58企业重要的是把“外地人”大模型变成“本地人”
37:36趣丸建立了“测试用例“等企业内部知识库,效果提升明显
41:31阿里云内部AI代码生成率30%,有哪些经验?
42:13通过注释,也能提升代码生成效果
45:06代码安全问题,仍然是讨论最多的
47:11云厂商一直承担企业私有代码的合规保存,技术上代码安全不成问题
50:39AI生成代码的侵权问题
52:03AI如何生成了不安全的代码怎么办?
54:58AI编码工具为何按licence收费,而不是按token
57:11一个licence卖多少钱,怎么考虑?
59:03国内AI编码市场正在快速打开,未来一年会全覆盖
1:00:59从写代码到整体研发提效,中间有多大gap
1:03:03其它研发环节可以如何AI化
1:06:26按自动驾驶L1到L5级划分,当前AI编码处于多少级?
【关于AI课代表】「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在小宇宙、喜马拉雅、网易云音乐、苹果podcast等平台上线。
每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。
如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。
【制作团队】
策划:nada、大帅
后期:kk
-
Mangler du episoder?
-
这10个问题分别是——
1、为什么 AI 出事故,人类会更愤怒、更苛责?
2、和机器人可能有真爱吗?还是机器通过算法拿捏了我们?
3、AI 有可能演化出情感吗?or,以死相逼,AI会愿意接受1+1=3吗?
4、AI 可以实现“人类增强”的野心吗?
5、阿西莫夫“机器人三定律”中的人机关系过时了吗?
6、OpenAI 这样的顶级大模型公司如何做价值对齐?
7、 哲学家让大模型理解为什么不能歧视女性,分几步?
8、AI 距离理解“无边落木萧萧下”还有多远?
9、 为什么很多 AI 哲学家都是动物伦理学家?or,动物智能+机器智能=人类?
10、哲学家如何用实验的方法研究科技伦理问题?
祝你收听愉快!
【本期课代表】
朱林蕃博士,复旦大学科技伦理人类未来研究院担任副研究员。研究领域为科学哲学、科技伦理。
【课代表观点】
00:11 哲学家关注抽象问题,大众关心AI对具体生活的影响
1:28 AI医学影像在欧美已经出现了问题
03:39 当AI出现错误,我们往往对它“Even Blame More”
3:52 庄子“空船理论”:人不会对没有主体性的船生闷气
05:36 新技术落地是“机制性”结果,却没有征求“我”的意见
7:13 人类对非人类伴侣的想法,在古希腊就出现了
9:43 为什么对AI 伴侣会有背叛感?是机器通过算法拿捏了我们?
12:35 以死相逼,AI会承认1+1=3吗?
14:22 硅基生命是永恒的,无法理解生命的脆弱性
16:00 “黑白玛丽”思想实验:了解和理解本质上不同
17:26 一些哲学家试图用AI做“人类增强”:更聪明、更“道德”
21:13 阿西莫夫新定律的危险:以集体名义牺牲个人
22:21 机器或许不该卷入深度的价值判断
24:34 OpenAI这些公司用红白攻防演练做价值对齐
27:00 哲学家已经加入AI的价值对齐
27:47 让大模型理解为什么不能歧视女性,分几步
29:38 国外大模型团队成员的“哲学家浓度”
30:58 更进一步,让AI理解“无边落木萧萧下”
32:43 和机器智能相比,人类的效率高得多、能耗低得多
33:41 AI伴侣产品普遍面临算力成本问题
35:12 哲学家讨论机器人,常常拿动物做标的
38:26 机器学习破解出了真菌的50多个单词
39:12 理解动物可能会走向可怕的结果
40:04 我经常思考如何退出智能社会
41:02 一定要考虑“数据销毁”的问题
41:55 用实验的方式研究科技伦理问题
43:50 用眼动仪发现人类真正的道德直觉
46:35 道德心理实验本身的伦理问题
【关于AI课代表】
「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在小宇宙、喜马拉雅、网易云音乐、苹果podcast等平台上线。
每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。
【制作团队】
策划:nada、大帅
后期:kk
-
差不多一个世纪前,罗斯福时期的美国,失业率接近20%。愤怒又沮丧的失业者把“矛头”对准了机械化和自动化。
电话自动交换系统的诞生,替代了原本的电话接线员,而这正是20世纪初美国女性最常见的职业之一。
一场关于“技术性失业”的大讨论爆发,直到被二战终结——因为打仗就不会有失业。
但技术性失业的“幽灵”总会伴随着每一次的技术浪潮卷土重来。
离我们最近的一次,是一周前无人驾驶出租车“萝卜快跑”在武汉上路。很快网上关于无人驾驶的安全、低价、抢司机“饭碗”等话题不断,并冲上多个热搜。
国内关于科技伦理的全民热议,印象中并不多见。
很欣慰,这次几乎没有人举着“卢德主义”的大旗,来压制这些讨论的声音。
这期节目,我们邀请到哲学家朱林蕃一起加入这场讨论。他认为,这一波生成式AI带来变革的速度,会比以往任何一次都要更快,也因此产生的阵痛会“更痛”。
除此之外,他还和我们讨论了AI带来的道德责任分散,这会让“追责”变得更麻烦;同时,他提醒我们不能忽视为“技术失业者”兜底,因为人们面对新技术时的“可适应性”也许比想象中更差。
希望这些讨论只是一个开始。也欢迎大家在评论区提出不一样的看法,以及你们感兴趣的关于科技伦理的其它问题。
【本期课代表】
朱林蕃博士,复旦大学科技伦理人类未来研究院担任副研究员。研究领域为科学哲学、科技伦理。
【课代表观点】
1:19人们坐不住了,因为中年人最后的“就业港湾”正在被AI入侵
4:25车内无人,但“参与”驾驶的主体其实变多了,可能导致“道德责任分散”问题
10:17是否要制定法律法规,在一些岗位限制AI和人去抢工作?
12:06技术性失业,到底是恐慌,还是事实?
13:54美国的自动驾驶上路测试为何受阻?
16:28中西方对新技术的不同态度
18:01中产阶级可能最容易因为新技术而失业
19:07大语言模型的入侵比以往更快,短时间爆发会带来大问题
22:09新的岗位能消化掉被汰换的劳动力吗?
23:08如果在技术博弈中失败,会出现更多Z世代和“躺平”的人
24:53“技术流浪者”将越来越多:他们不想流浪,但不得不流浪
【关于AI课代表】
「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在小宇宙、喜马拉雅、网易云音乐、苹果podcast等平台上线。
每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。
如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。
【制作团队】
策划:nada、大帅
后期:kk
-
马斯克、李飞飞、奥特曼、黄仁勋,为什么都入局机器人?
最近,我们收到了不少听众的建议,说希望我们能聊一聊具身智能和机器人这个话题。
那这两天最火的机器人,毫无疑问,是特斯拉的擎天柱Optimus,它不仅出现在世界人工智能大会上,也出现在马斯克怒怼空头的推文里。不过,这款明年量产的人形机器人首先会进入工厂,来完成电池的分拣工作。换句话说,它其实是一个人形的工业机器人。
所以,到底要如何理解这一波具身智能的热潮呢?
我们距离通用机器人到底还有多远?
这期节目,我们就请到工业机器人公司拓斯达的总工程师张晓辉博士,来和我们聊聊他的看法。
张博毕业于中科院沈阳计算技术研究所,长期从事数字化控制系统的软硬件设计和研究。他曾在三一、海天这些头部制造企业负责控制系统的研发。
目前,张博在托斯达担任总工程师,并从去年开始就尝试将大模型和工业机器人进行融合。
中国作为全球最大的工业机器人消费国,每天有150万台的工业机器人在全国的工厂里运行。张博估计,随着机器人泛化能力的提升,使用机器人的成本会进一步降低,这个数字还会有数十倍、数百倍的增长。
【课代表观点】
2:50 马斯克为什么先做汽车,再做人形机器人?特斯拉自动驾驶技术和机器人是相通的
4:10 具身智能需要一个循序渐进的过程,工业会最先落地,因为场景足够收敛
6:10 大模型有可能会带来一次新的工业革命
7:40 中国150万台工业机器人使用现状:买了不一定用
9:43 未来国内工业机器人覆盖率可能会提升10-100倍
10:48 为什么李飞飞等众多工业机器人团队都在研究分拣码垛?市场够大,但难度也很高
14:05 大模型能让人、机交互更简单,但更深层次的改变在于机器人和环境的交互
15:20 大模型参与交互的方式有两种——任务拆解和端到端控制,前者更现实主义
16:51 大模型出现后,原来写代码需要2-3小时,现在只需要15-20分钟
19:00 把游戏开发语言用到机器人控制器中,取代传统工业语言,加快了大模型在工业的落地
20:30 AI将来可以生成更好的数据,用于机器人的训练
23:17 大模型与机器人的结合,仍有许多基础设施层面的问题待解决
【关于AI课代表】
「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在小宇宙、喜马拉雅、网易云音乐、苹果podcast等平台上线。
每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。
【制作团队】
策划:nada、大帅
-
这是一期特别加更。节目上线第二天,也就是6月27日上午,离开了520天的魔兽国服将会重启。作为一款风靡20年的老游戏,魔兽在中国拥有超百万玩家和数万个游戏公会。
此前暴雪、网易及阿里云已联手完成魔兽国服的抗压技术测试。在压测中,有超100万人涌入服务器;其中单服容纳超12万人创下全球最高记录,这个数字是魔兽过往最大单服人数的4倍。而在魔兽早期,单服的人数通常在五千。
玩家在压测服中聚集:
如此国民级的游戏,为什么在当年被迫停服?回归后的魔兽发生了哪些改变?在AI游戏时代,魔兽还能否继续坐稳MMORPG第一的位子?
为了解答这些疑问,本期节目我们请到了著名的“魔兽舅舅党”老刀99,为我们爆料当年暴雪和网易“分手”背后的秘密,以及作为一个老玩家他对这次压测的感受。
我们也请到了魔兽重启“背后的男人”——炎强。作为技术架构师,炎强见证了魔兽从退服到回归的全过程。他透露此次魔兽不是把“电子骨灰盒”中的数据复原后直接上线,而是要把过去几十年的架构推翻进行全面升级。可以说,魔兽已经进入了新的技术时代。
同样作为老玩家的颢南,和我们分享了他对魔兽的热爱和对这次回归的期待。
颢南的收藏:
20年前,魔兽重新定义了“大型多人在线游戏”,也参与了无数人的青春。20年后,游戏已成为最赚钱的行业之一,吸引着这个时代最杰出的头脑投身其中。通过一款游戏,我们就能窥见当下技术和内容创作的最新趋势——或许这也是我们今天重新讨论魔兽的意义。
【本期嘉宾】
老刀99,知名游戏人、魔兽世界资深专家
炎强,阿里云游戏行业架构师,为魔兽国服长期提供技术支持
颢南,魔兽世界二十年老玩家
【嘉宾观点】
04:33 网易和动视暴雪谈崩的主要原因,是暴雪老板考迪克想为自己争取更多分手费
06:21 北京、深圳两个著名大厂都曾想要买下魔兽版权
09:22 这次国服回归不是简单的复活数据,魔兽要从蒸汽机时代进入电气时代
13:55 魔兽引领了中国网吧的硬件潮,让大家知道什么才是一款真正的好游戏
16:56 魔兽和过去不一样了:过去一百人同时在线已经卡到不行,现在团战已经能容纳六七百人了
19:04 魔兽如何实现技术升级?挖掘服务器性能、实现真正的弹性扩展
21:25 技术迭代与游戏开发如何同步是魔兽现在面临的挑战
23:06 超大服就像大城市一样具有多样性——有玩家甚至在铁炉堡里讲相声
28:57 为什么要在怀旧服中做大服扩展?魔兽想借这次机会获得重生
31:42 国内MMO行业在AI方面逐渐领先,暴雪、网易都在探索新技术
34:11 对于没有时间的中年玩家,能否开发AI队友一起打装备?
35:39 能否利用AI技术,加强游戏剧情设计、用好AI这个工具?
-
在深圳,大模型掀起的AI硬件创业潮正席卷大厂、初创公司和一些中等规模的软件企业。
这些新玩家们相信,大模型带来了全新的人机交互体验,而一个完整的交互解决方案,一定是软、硬一体的。
刘轶就是其中的一位。在对谈中,他引用了一个巧妙比喻:大模型是水,本身无形,需要载体——这是他决定投身硬件产业的重要原因。
另一部分原因,则来自一个语音AI行业老兵的经验之谈。
刘轶的背景横跨学界、产业界。他是港科大首位智能语音语言领域的博士,国家重大人才计划特聘专家。在清华任教期间,他所在的国家实验室后来走出了炙手可热的大模型公司智谱。
2014年刘轶博士决定离开高校,在深圳创立了北科瑞声,为行业提供语音AI的系统与服务,并很快在医疗、政务、交通等领域找到了垂直细分市场的机会,但也仍然面临企服市场定制化程度高、软件付费意愿不强等问题。
十年后,带着在垂直领域积累下的行业优势,刘轶决定在大模型时代再次出发。手机之外,高度依赖语音交互、“受限显示”的口袋式硬件,被寄予厚望。
不过,如何在这样一个小小的终端上平衡性能、算力和功耗三者的关系,是摆在每个新玩家面前的共同挑战。刘轶认为,这也恰恰说明在端侧仍大有可为。
【本期课代表】
刘轶,北科瑞声创始人、董事长,国家重大人才计划特聘专家
【课代表观点】
01:05,语音AI技术的进展和局限
04:54,中文和阿拉伯语的识别理解,哪个更难?
06:30,更好的大模型一定出现在工业界
08:51,微调(SFT)不是每个人都该去做的
12:13,大模型是水,一定要有载体
14:06,做硬件就是一个权衡的过程
16:37,GPT-4o离产业化还有一段路
17:20,受限显示的小硬件是个趋势
【补充知识点】
ASR自动语音识别(Automatic Speech Recognition) 基于深度学习技术,将音频中的语音转成文字。可用于识别多种音频编码格式、多种场景和不同长短的语音。广泛应用于智能客服质检、会议访谈转写、游戏语音输入、课堂内容分析等场景。TTS语音合成(Text-To-Speech)是一种将文本信息转化为自然语音输出的技术。通过TTS技术,我们可以让机器像人类一样开口说话,从而实现人机交互的语音输出。常见的应用有车载导航、电子书阅读、智能语音助手等。
【关于AI课代表】
「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在喜马拉雅、小宇宙、苹果podcast等平台上线。每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。
【制作团队】
策划:nada、大帅、Sue
后期:Jack 、迪卡
-
随着苹果重新夺回全球市值第一的宝座,人们对几天前WWDC全球开发者大会的态度,似乎也发生了微妙变化。
在这场大会上,苹果花了一半的时间谈论AI。新版Siri的可贵之处,或许并不是因为它对新近多模态能力的全盘吸收,而是它可以在APP之间“穿梭”,了解一个更完整的“你”。
外界备受关注的大模型合作信息,苹果一方面确认了会接入Open AI的GPT-4o,另一方面,它也公开了三层大模型架构,云、端协同,自研与三方协作,给硬件厂商打了个样。
本期节目,我们请到了OPPO智能语音助手小布的业务负责人万玉龙,他有过操作系统、基础大模型的研发经验,同时也是个智能硬件“行家”。
在这次对谈中,他从苹果发布会聊起,提醒我们思考一个“无处不在”的 Siri 给硬件厂商带来哪些启发,又对隐私提出了哪些挑战;
他还非常清晰地拆解了端侧和云上的大模型是如何实现协同的,端侧更快、云上更慢其实是一种过时的说法,同样的,端侧部署更安全,也是个需要被挑战的观念。
在讲起乔布斯去世前力推siri上线,让更多人至少从理想维度上对更自然的人机交互有所期待——也非常令人动容。
【本期课代表】
OPPO智能语音助手“小布”业务负责人,万玉龙
【课代表观点】
-1:34 为什么说Siri升级是苹果发布会的小惊喜
-3:29 终端厂商要明白自己的优势,不能跟着APP跑偏了
-8:42 谁更懂用户,谁才能在大模型上做出差异化
-10:52 苹果在人机交互上一直是行业的标杆
-12:47 乔布斯去世前力推Siri,让人们对更自然的人机交互有了期待
-14:16 相比文字,语音才是更自然的交互方式
-17:50 端侧大模型的重要作用:先把任务分流
-20:51 效果和服务效率是手机厂商筛选三方大模型的标准
-24:39 大模型时代,“端快云慢”是一个伪命题
-27:17 端侧并不必然“更安全”,云的安全性在移动互联网时代已被验证
-29:58 大模型的商业模式可能接近搜索引擎
-35:20 手机厂商通常会选择自研和三方大模型并行
-36:45 手机就像脑机的一个器官,短时间内难以取代
【补充知识点】
APP intents:使用 苹果App Intents 框架后,开发者可以通过编程的方式,将 App 的内容和功能加入 Siri 和“快捷指令”App 等系统服务中。
GUI:Graphical User Interface,即图形用户界面,指采用图形方式显示的端侧操作用户界面。
Function Call:Function Call 是 GPT API 中的一项新功能。它可以让开发者在调用 GPT-4 和 GPT-3.5-turbo 模型时,描述函数并让模型智能地输出一个包含调用这些函数所需参数的 JSON 对象。这种功能可以更可靠地将 GPT 的能力与外部工具和 API 进行连接。
OCR:Optical Character Recognition,即文字识别
【关于AI课代表】
「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在小宇宙、喜马拉雅、网易云音乐、苹果podcast等平台上线。
每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。
如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。
【制作团队】
策划:nada、大帅
后期:Jack 、迪卡