weekly-summary-20250105

技术

DeepSeekV3

论文:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
论文中,明确提出了 DeepSeek-V3 仅使用 2048 块 GPU 训练了 2 个月,并且只花费了 557.6 万美金。

招人(韩东明的朋友在里面):

要 C9 本科科班,笔试 3 道题,必须有一道满分,都是 99 都不行。
前端一年 200W+
他们就是找一堆聪明人,一起赚钱的

怎么搞成的:
集中一票聪明人,专注干这个事情
搞十个博士,二三十工程,啥都不干,只干这一件事,能出来点不错的东西的

为什么 THS 搞不成:
纯模型,基建没有,数据没有,人也没有

deepseekCoder

https://github.com/sing1ee/deepseekCoder

OpenAI o3

为了避免与英国电信运营商 o2 发生潜在的商标冲突,该公司将其命名为“o3”而不是“o2”。

o1 刚出来的时候,很多人还质疑这还达不到 AGI(通用人工智能)。o3 体现出的编程和数学能力,不仅达到了 AGI 的门槛,甚至摸到了 ASI(超级人工智能)的边。
o3 也进一步验证了 RL 和 test-time scaling 的价值,在高质量预训练数据基本耗尽,模型能力 “撞墙” 的情况下,提供了一条通过后训练和增加推理时间,继续提升模型智力,解决更困难问题的路径。

o3 具体的性能指标很多人都看到了,我就不再重复了。省流版:

  • o3 在 Codeforces 编程竞技中击败了 99.9% 的程序员,在 168076 名程序员中排名 175 名。甚至 o3 的作者都打不过 o3。
  • o3 在编程解决真实世界需求方面也比 o1 有明显提升,在 SWE-Bench 软件开发测试中,之前发布的 o1-preview 是 41.3%,o3 是 71.7%,也就是 70% 的真实世界需求,o3 可以直接做对,并通过单元测试。也就意味着只有剩下 30% 的工作需要人类程序员去编码完成了,而这部分工作 AI 也可以帮助人类程序员大大提升效率。
  • 在 AIME 2024 数学测试中做对了 96.7%,相当于在美国数学奥林匹克竞赛上只答错了一道题。
  • 在博士级别科学问题测试的 GPQA Diamond 中超过 o1 10 个百分点,而 o1 已经基本上是人类博士生的平均水平。
  • 图形逻辑推理的 ARC-AGI,o3 经过微调后,达到 87.5%,超过人类平均水平(85%)。

但 o3 并不是万能的,现实世界工程任务的处理能力并没有想象的那么强。我发现大型工程项目中的编程任务,o1 preview 的准确率并不如 Claude 3.5 Sonnet。o1 擅长的是边界清晰、定义明确的封闭式科学问题。o3 不知道怎么样,但从 SWE Bench 只能做对 71% 来看,还是不如人类软件开发工程师的,因为一个合格的全栈工程师不能说我只能完成 70% 的需求,剩下 30% 的需求做不了。o3 在 Codeforces 上超过 99.9% 的人类,是因为编程竞赛题都是边界清晰、定义明确的,而在真实世界的工程任务上就远不如编程竞赛那么强

随着硬件的摩尔定律和模型知识密度提高,推理成本会快速降低。因此,我认为这一波大模型的进展证实了我一直相信的观点:在能源有限的情况下,相比人类,AI 是智能更高效的形式。很高兴看到 OpenAI 一直在引领整个行业,探索将能源转化成智能更高效的解决方案。

作者:李博杰
链接:https://www.zhihu.com/question/7416922570/answer/60763494897
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

坏消息:o3 超越了人类

好消息:你比 o3 便宜,一次满血推理 3500 美元,这个价格机器不干有的是人干

特大好消息:你的老板压根不能像测试集里一样清晰的定义问题

2024 年大模型领域全复盘

https://www.163.com/dy/article/JKTHVG4C0511AQHO.html

GPT-4 垄断被全面打破
一些 GPT-4 级模型可以在笔记本电脑上运行
由于竞争和优化,大模型服务的价格崩盘
多模态视觉已经变得常见,音频和视频模型开始出现
语音和实时摄像头模式正从科幻小说变成现实
一个提示词做出一个 APP,已经很普遍了
对最佳模型的普遍访问仅持续了短短几个月
AI 「智能体」可能还有点远
评估真的很重要
Apple Intelligence 很糟糕,但 MLX 库很出色
正在崛起的「推理」模型
目前最好的 LLM 来自中国,训练成本不到 600 万美元?
环境影响变好了,但也在变得越来越严重
合成训练数据效果很好
LLM 不知何故变得更难用了
知识分布不均匀
LLM 需要更好的批评

2025 OpenAI 目标

https://mp.weixin.qq.com/s/0JOxuWBFsH5dJFi8dl6uxg

未来世界的编程语言是英语,这也是我的机会。
我得先把语音控制电脑玩起来(之前那个 Computer use 的 demo 我还没尝试,搞一搞!)

不同的产品开发和迭代方案

https://mp.weixin.qq.com/s/uJBNWo8TWLW-heyzeSXUYw

D2C/P2C

方案:通过前端分层抽象+协议进行组织桥接(https://github.com/alibaba/formily)
阿里:协议 SDK
蚂蚁:IR(Intermediate Representation)

小米开源 Home Assistant(米家集成)

https://github.com/XiaoMi/ha_xiaomi_home

只要能联网的设备就能调用米家生态。
能实现把不同平台的智能家电,都塞进同一个 App 里操作。

如何看待米家官方开源了接入 Home Assistant 的集成组件? - 小黑爱数码的回答 - 知乎
https://www.zhihu.com/question/7080069932/answer/57780675566

想法

做风口的上下游

做风口的上下游,别做风口,这是蓝海与红海的区别,上下游才是我们普通人的风口,风口正中间是顶尖人士和资本的机会,集中了最牛逼的人才和资源,我们搞不过。

好文摘抄

云鹿书院的院长同样被思想禁锢着,被程氏的学术影响着,他想要突破,想要找到新的流派,但他自己身在旋涡,又如何带领天下读书人脱离旋涡呢?
思想禁锢这东西,说白了就是三观,而三观是时代造成的。你身在这个时代,受其熏陶,不会觉得这有什么问题。只有时间尺度达到一定距离,才能高屋建瓴,发现问题。
我必须提醒你一件事,无论任何时候,我们都要做减法,越是复杂的计划,漏洞越多
读书人最容易聪明反被聪明误,算计人的时候,会给自己增加难度,去思考布局的精妙,手段的高超。尤其是自视甚高且熟读兵法的许辞旧。