weekly-summary-20251019

技术

10.22 Gemini 3.0发布

https://eu.36kr.com/zh/p/3506972089228165

Anthropic 发布 Claude Haiku 4.5:多模型协作是未来

https://mp.weixin.qq.com/s/MyXn_z4ampn6avgKw81_Lg

  • • 总设计师(Sonnet 4.5)→ 负责画图纸、定方案,思考复杂问题
  • • 高效工人(Haiku 4.5)→ 按照方案快速把活干完

假设你要重构一个大型项目的代码:

  1. 1. 第一步:让 Sonnet 4.5 分析整个项目架构,找出问题点,制定重构方案
  2. 2. 第二步:让多个 Haiku 4.5 实例并行处理各个模块的具体重构
  3. 3. 第三步:再让 Sonnet 4.5 做代码审查
    这样一来,复杂的部分由最强的模型把关,大量的重复性工作由快速、便宜的模型搞定。成本降下来了,效率提上去了,质量也没打折扣。

在 Claude Code 中,可以用 slash 命令编排多个模型协作。Sonnet 4.5 做规划,Haiku 4.5 做执行,配合起来效果拔群。

State of AI 2025

https://zhuanlan.zhihu.com/p/1960432786079999589?share_code=xehTB0okCCua&utm_psn=1960614225782243702

Top 9 Software Architecture Patterns

https://www.youtube.com/watch?v=126ALse1rWA

为什么都喜欢用 鹈鹕骑自行车 测试模型的前端能力?

“鹈鹕骑自行车”测试之所以成为评估大模型前端能力的流行基准,主要源于其巧妙结合了代码生成、创造性解决问题和反套路评估等多重优势,能直观揭示模型的技术成熟度。这个测试由Django联合创始人Simon Willison在2025年AI工程师世博会上提出,最初是为评估大语言模型生成SVG代码的能力而设计,随后因其独特有效性被广泛采纳。

一、测试设计兼具技术深度与幽默感

  1. 核心是代码生成而非绘画​:SVG(可缩放矢量图形)本质是XML格式的代码,测试要求模型输出结构化代码而非直接作画,这精准匹配了前端开发中“将需求转化为代码”的核心能力。模型需理解自行车机械结构、鹈鹕生物特征及两者互动的物理逻辑,再通过代码精确表达。
  2. 创造性挑战突破训练数据依赖​:鹈鹕体型短腿、自行车需平衡结构,现实中不存在此类场景,迫使模型进行创造性组合而非简单复制训练数据。例如Claude 3.7 Sonnet通过“增加小自行车”解决鹈鹕腿短问题,体现了逻辑推理能力。
  3. 反标准化基准避免应试技巧​:传统基准测试(如MMLU、GSM8K)易被模型针对性优化,而“鹈鹕骑自行车”的荒诞性使其难以被预训练记忆,更能检验模型真实能力。Willison强调“每个人都需要自己的基准”,此举旨在打破对排行榜的盲目信任。

二、成为行业标准的过程与实用价值

  1. 直观比较模型进化轨迹​:自2024年12月至2025年5月,从DeepSeek v3仅画出分离元素,到Gemini 2.5 Pro实现赛博朋克风格完整构图,测试结果清晰呈现了模型在代码准确性、审美理解和物理逻辑上的迭代进步。
  2. 低成本高效验证多维度能力​:生成一张SVG图像可同步评估代码规范、语义理解、视觉设计及问题解决能力。例如谷歌I/O大会秘密展示鹈鹕骑车3D版,凸显了模型多模态融合的潜力。
  3. 推动前端开发自动化实践​:成功的鹈鹕骑车代码需符合可交互、可扩展的前端工程要求,如Gemini 3.0能直接生成完整网页游戏,证实该测试与实际开发场景的高度关联性。

三、测试局限性与发展趋势

尽管该测试备受青睐,但其局限性亦值得关注:一方面,它更侧重创意代码生成而非商业级应用复杂度(如安全性、性能优化);另一方面,随着模型普遍优化此类任务,Willison坦言需开发新荒诞测试以保持评估有效性。不过,其核心价值在于启示开发者:有效的评估应贴近真实需求,同时保留对技术边界的探索乐趣。

想法

好文摘抄

Andrej Karpathy最新万字采访:AGI还需10年,RL其实很糟糕,AGI不会导致经济大爆发

https://mp.weixin.qq.com/s/3RyW0C--YgY_1bSIfN-txQ

目前的AI还只能达到【系统】的程度,达不到【人】的程度,更遑论【上帝】的程度。

AGI会成为自动化浪潮的延续-自动化更多知识工作。

游戏环境过于简化和抽象,与现实世界的需求相去甚远。

AI 的发展路径并非一步到位,而是需要先打好“表示层”的基础(这个表示层应该理解为如何与LLM交流吧?涉及多模态理解)

一个核心的观察点在于上下文学习。当我们在一个对话窗口中与模型交互时,它展现出的推理、纠错和适应能力,感觉最接近真正的智能。这种能力是在预训练阶段通过梯度下降(gradient descent)“元学习”(meta-learns)到的。
通过精心设计的权重,Transformer 可以在其前向传播过程中模拟出梯度下降的更新步骤。
LLM的本质应该也是不复杂的,比如搞清楚梯度下降等。

人类是健忘的:特别是儿童,他们是最好的学习者,但记忆力却很差。我们几乎记不住幼年时期发生的事情。Karpathy 认为,这种健忘很可能是一种特性而非缺陷。正是因为无法轻易记住所有细节,我们被迫去寻找事物背后的模式和通用原理。

人的核心竞争力也是这样的:

基于以上观察,Karpathy 提出了一个极具前瞻性的概念:认知核心(Cognitive Core)。他认为,未来 AI 研究的一个重要方向,是想办法将模型的知识记忆与智能算法分离开来。我们应该剥离掉模型通过预训练记住的大量事实性知识(这些知识可以通过外部检索工具随时获取),而只保留其内部的、处理信息的算法部分——即进行推理、规划、学习和解决问题的核心认知能力
一个理想的认知核心可能不需要万亿级别的参数。Karpathy 大胆预测,一个仅有十亿参数的纯净“认知核心”,经过精心设计和训练,其智能程度可能远超今天庞大的模型。它会像一个聪明的、但知识有限的人类,当被问及事实性问题时,它会知道自己不知道,并主动去查询,而不是像现在的模型一样产生幻觉。这个更小、更纯粹的智能核心,将是通向更通用、更鲁棒 AI 的关键一步

9的征程:

他提出了一个核心概念——“9的征程”(March of Nines)。这意味着在一个对可靠性要求极高的系统中,每提升一个数量级的性能(例如,从 90% 的成功率到 99%,再到 99.9%),所需要付出的努力是恒定的,甚至可能是递增的

为什么你的工作压力大

这个工资,基本都是中层以上,基本都不是让你做什么,完成什么,而是让你推动公司关键业务发展,攻坚,缓解老板各种焦虑,基本都是开不完的会,对不完的需求,管理海量需求的进度,安抚焦虑不安的团队,这种工作不是所谓的不干有的是人干,而是老板的确找不到更多的人,老板也恨不得有几个这样的人,只是这么多年过去了,还是只有这么几个
–知乎

到钱多的地方去,到有钱的行业里去

不要想着小地方躺平了,未来越来越难。

为什么马斯克、雷军这些人精力无限

https://www.zhihu.com/pin/1952799889890182269
关键词:正反馈
软考和学习也是一样,回顾下之前为了出国学英语的状态。

靠创意维生,这是个巨累无比的事情

内容行业的最大问题是没有规模效应,你为别人出一期内容,收一笔钱,就算赚得多,它是没有规模效应的。每一期都要给厂商想个新的创意,这是个巨累无比的事情。

怎么样实现规模效应呢?我们最终的答案是衣服。我现在身上穿的衣服就是我们的自有品牌。

我们的T恤今年能卖到几十万到上百万件,已经超过大部分服装厂商了。今年单款可能到20万件,但是我们品类很多,所以这是我们今年跑出来的一条路。

我发现电商可以靠规模效应,因为电商最重要是获客,这个我们有优势。

创意是绝对不安全的,这是我的观点。不在于你的创意好不好,而在于有这么多人现在加入了这个战场,你怎么确定你的创意是安全的?

我觉得最安全的是人生经历,AI 对你的信息收集是不完整的,这个时候你就具有独立性。

–飓风影视采访

划分不同业务,满足不同用户

我把长视频和短视频当作 X 轴,把专业观众和大众观众当作 Y 轴,这样就有四个象限。我的目标是每个象限都有一个对应的账号,把这四个象限全部都吃透。
–飓风影视采访