新闻速览

保姆的味道3中午：我们差点忘了的Kimi，最近要“杀”回来？

2025-07-17

保姆的味道3中午

当前，AI竞赛在全球范围内持续展开，未来三年投入3800亿的阿里正在践行AI战略，从AI大模型到基础设施服务，再到千行百业的落地，阿里需要能打硬仗的年轻人，以便在快速变化的AI技术周期中抢占先机，建立竞争优势。，我们差点忘了的Kimi，最近要“杀”回来？

保姆的味道3中午

刘晓东致辞

马斯克的xAI正将其基础设施扩张的目光投向中东，旨在利用该地区廉价的能源、充裕的资本和政治善意，为其算力密集型AI模型提供动力。

蔡萍萍主持会议

吴长锋报告

“大家经常遇到信用卡盗刷，但是储蓄卡被盗刷比较罕见。”孟先生告诉红星资本局，他没有带这张储蓄卡出境，所以，在盗刷发生后，他本人感到非常疑惑。

董湘辉作报告

需要注意的是，开发者需要携带本人身份证件原件（身份证、港澳居民来往内地通行证、台湾居民来往大陆通行证或护照）安检入场。入场时会在安检口查验证件。Google 开发者大会的参会者必须年满 18 周岁。参与该活动无需支付任何费用。

张建立报告

这是同济大学第一艘海洋科考船，也是同济大学着力打造“海上校区”的全新载体。“同济”号全长约82米、宽15米，排水量2500吨。别看它体型精干，却拥有3000吨级科考船的能力，续航8000海里，约等于从上海开到南美洲西海岸，它能搭载15名船员和30名科学家在海上连续工作35天，探索除极区外的无限航区。

李玄策作报告

芯流智库曾公布过一组Similarweb数据显示，拓竹独立站月访问量超过750万。在3D打印影响力榜单中，独立站自然流量断崖式领先，是第二名的四倍有余。

张有良作报告

当地时间7月4日，美国总统特朗普签署“大而美”税收和支出法案，使其生效。此前，该法案已在美国国会众议院以218票赞成、214票反对的表决结果通过。

廖韦华作报告

在选用裤子的时候，采用宽松一点的裤装，更能符合当下人的着装的需求。裤子的面料可以顺滑且冰冷一些，这样在夏季穿上长裤，也不会觉得太过于闷热。好比一条深蓝色或者是白色的阔腿长裤，它们都能具备好搭配的优势，随便的搭配上衣，都很好看。

王昕报告

众所周知，随着若塔意外离世，再加上努涅斯、基耶萨都可能在夏窗离队。利物浦确实需要在今夏，引进一位新的顶级射手增强阵容厚度。而他们对于25岁的伊萨克的欣赏，可谓由来已久。

刘丽云报告

除了上面的这些案例，官方还发布了他们自己跑出来的一些很不错的案例，比如这个3D粒子的旋转星系，在光影的控制，交互上做的也很厉害。

周六发了条plog炸出好多老读者。还记得我前不久去拍摄，现场导演说十年前就关注了我，我说十年前你还在上中学吧。她有点腼腆地说：“上小学…...” 巧的是，前天plog评论区又有小伙伴说小学就在看我的推送，好的，你们都是“资深读者”！▼

关于在OpenAI工作的思考我在三周前离开了OpenAI。我是在2024年5月加入这家公司的。我想分享我的思考，因为大家对OpenAI做了很多猜测，但很少有人有在那里的第一手文化体验。Nabeel Quereshi有一篇很棒的文章，叫《对Palantir的反思》，他回顾了是什么让Palantir如此特别。我也想做同样的事，趁记忆还新，为OpenAI留个注记。这里没有任何商业机密，只是对当下这家最具吸引力的组织之一，在极具意义时刻，工作体验的个人观察。首先要说的是：我离职并非因任何人事纠纷，恰好我对离开感到深深矛盾。从创立自己的组织，变成一家有三千名员工公司的职员，这种身份的转换很难。现在我渴望一次全新的开始。我也许会被那里的工作所吸引，回去也说不定。毕竟想象一下有机会参与AGI的建设是不现实的，而大语言模型无疑是近十年以来的技术创新。我很庆幸能亲眼见证一些发展，同时也参与了Codex的发布。显然，这些并非公司的官方立场——只是我个人的观察。OpenAI是一个大机构，我只能从我的“小窗口”提供这些见闻。首先要知道的是，OpenAI扩展得极快。我加入时，公司刚刚超过1000人。但一年后已经超过3000人，而我在员工任职时间排名位列前30%。几乎所有领导层在2–3年前都还不是在做现在这份工作。显然，快速扩张会带来问题：如何在公司层面沟通，组织架构如何设定，如何推进产品发布，如何管理和组织人力，以及如何招聘等。不同团队的文化情况也差别巨大：有些团队持续高压快跑，有些在监控已有项目，有些保持更稳定的节奏。没有所谓的“OpenAI体验”，研究团队、应用团队、GTM（市场/销售）节奏都完全不同。OpenAI有个特殊之处——一切都通过 Slack（一个用于工作沟通交流的平台）运行，没有电子邮件。我整个任期或许只收到过10封邮件左右。如果你不善于整理，很容易被这些渠道淹没，但如果你管理好渠道和通知，也能做得井然有序。OpenAI鼓励“自下而上”，尤其在研究领域尤为明显。我刚加入时，问第一季度的路线图在哪，得到的回答是：“不存在。”（不过现在已经有了。）好主意可能来源任何人，通常我们并不清楚哪些想法会提前证明是最有成效的；公司不靠宏大的“总体计划”，进展往往迭代并在新的研究结果基础上逐步展开。这种自下而上的文化也让OpenAI极具“重绩效主义（meritocratic）”性质。历史上，公司里的领导者大多是因拥有好点子并能执行而晋升。许多非常优秀的人，不擅长全体大会发言或政治运作，但在OpenAI他们一样能脱颖而出。好点子通常可以胜出。OpenAI的文化喜欢快速行动（bias to action）。在类似方向有多个团队同时试点并不少见。我刚加入时曾同时见到大概3–4种Codex相关原型，最后才决定上线。它们通常由少数人自发发起，不需要特别审批；当看到希望时，团队就自发聚拢。Codex 负责人Andrey曾说，你应该将研究员视为“迷你董事会”。在那里，你可以全盘推进自己的方向，看它能走多远。相应地，如果某个问题被认为“无意思”或者“已解决”，它可能根本不会有人去关注。优秀的研究经理作用极大，但也都有限。他们擅长将不同方向的研究串联起来，将其汇聚到大规模模型训练里。同样，出色的产品经理也能串起价值点，将力量聚合。我合作过的ChatGPT的工程经理（EM）Akshay、Rizzo、Sulman，是我见过最Cool的“客户”。他们经验非常丰富。他们多为管理型角色，主要职责是招聘优秀人才并为他们提供成功支持。OpenAI会瞬间调整方向。这点我们在Segment（原公司）也很喜欢——有新情况就改变方向，比为了“计划”一直推进要好得多。令人惊奇的是，OpenAI这么大的公司还保留着这种思维方式——Google显然不是这样。公司决策快速，一旦决定了努力的方向，就全力奔跑。媒体上对OpenAI有很多抨击。我来自B2B企业背景，对此很震惊：内部还未宣布的功能，新闻稿已经播出；我告诉别人我在OpenAI工作，往往就听到对它的既有偏见。有一些 Twitter 账号用自动化机器人监测功能上线情况。因此，OpenAI非常保密。我无法详细告诉任何人我在做什么。公司内部有不同的工作空间和不同权限。营收、烧钱数据都高度保密。OpenAI也比你想象中更“严肃”，因为风险非常高。一方面要构建 AGI，需要把一切都做对；另一方面产品已有数以亿计用户在用于医疗建议、心理疗愈等敏感场景；再者，OpenAI处在与 Meta、Google、Anthropic 的激烈竞争中，甚至全球政府都密切关注这个领域。尽管媒体有抨击，但我见的每个人都是真心“想把事情做好”。作为一家消费者导向的公司，曝光最大，也最易成为舆论焦点。当然，不应把 OpenAI 视作一个整体统一的“单一实体”。我更像把它当成“洛斯阿拉莫斯”式的组织——一群科学家在探索最前沿。巧合的是，他们也造出了历史上最火爆的消费者 App。之后开始扩展到政府和企业服务。公司里人来的时间不同、所处团队不同，目标也不同——想法迥异。时间越久的人，越会带着“研究实验室”或“公益非营利”视角去看。我最欣赏的一点是公司“说到做到”地让 AI 利益大众化。最先进的模型没有锁定在某个企业合同中。世界上任何人都可以访问 ChatGPT，哪怕未登录。可以注册 API 使用 —— 大多数模型（即使是 SOTA 或专有模型）会迅速加入 API 服务，让创业公司、开发者都用得上。你可以猜测会有截然不同的企业版本策略，但 OpenAI 并没有走那条路，值得赞赏，这一点仍是公司文化核心。安全问题的关注比你在 Zvi 或 LessWrong （社区论坛，专注于讨论认知偏见等）里看到的还要多。公司有大量人手致力开发安全系统。但现实中更关注的是实用风险——仇恨言论滥用、政治操纵、研发生物武器、自我伤害诱导、及时药物注入等——远比理论上爆炸性风险更受关注。当然仍有人研究理论风险，那也是存在的。但在我看来，实用安全才是主流，很多安全内容不公开发表，OpenAI 其实还应该更多公开这一部分成果。与很多公司在招聘会发大量周边不同，OpenAI 不大送周边（新员工也基本没桌牌之类）。取而代之的是会不定期发“drops”，员工可以订购库存。第一次 drop 店铺就被刷爆了，连 Shopify 都挂了。有一个内部的帖子流传如何POST正确的json（基于JavaScript语言的轻量级的数据交换格式，即JavaScript Object Notation）有效负载和规避这一点。所有事情与 GPU 成本相比都太小。举例：Codex 中一个细小功能的 GPU 资源消耗，就相当于我们整个 Segment 基础设施的费用（虽然 ChatGPT 规模更大，但平台体量也大）。OpenAI 是我见过的最雄心勃勃的组织。你大概会以为拥有一个全球头部 App 就够了，但他们志在多场战役：API 产品、深度研究、硬件、编程代理、图像生成等等（还有很多未公开项目）。这里是个让点子落地弹射的平台。公司非常关注 Twitter上的氛围。如果你发的一条与 OpenAI 相关的 tweet 爆火，很可能有人会看到并重视。一位朋友曾说：“这家公司靠 Twitter情绪运行。”对于一个消费级公司来说，这点也没毛病。当然他们也有用户增长、留存等分析，但情绪倒也很重要。OpenAI 里的团队比很多地方更 fluid、更灵活。在 Codex 发布时，我们需要几个 ChatGPT 的工程师来赶进度。于是我们找 ChatGPT 的产品经理提需求，第二天就来了两位牛人，不需要等季度计划或重新分配资源。动作快得惊人。高层领导很活跃，好像没一位是“挂名”——gdb（Greg Brockman）、sama（Sam Altman）、kw（Wojciech Zaremba）、Mark、Dane 等经常在 Slack 上互动。代码与基础设施OpenAI 使用巨大的 monorepo（单一代码仓库：一种将多个项目或代码库存储在同一个版本控制系统中的策略，以便于跨项目协作和代码共享），以 Python 为主（但也有 Rust 服务，和少量 Golang 用于网络代理等）。这导致代码风格多样：既有来自 Google 资深工程师设计的大型库，也有博士刚毕业写的 Jupyter notebook。所有后端基本都是 FastAPI + Pydantic 构建 API，而且没有统一强制的风格指南。OpenAI 完全在 Azure 上运行。好玩的是，能真正信任的只有三项服务：Azure Kubernetes Service、CosmosDB、BlobStore。没有 Dynamo、Spanner、BigQuery、Kinesis 等 AWS 工具，也少有自动扩展设计。IAM 机制也较弱，于是很多机制选择自研。从工程人才看，有大量来自 Meta → OpenAI 的背景。在很多方面，OpenAI 早期就像 Meta：一款轰动一时的消费者应用软件、新兴的基础设施、行动快。大多基础设施人才来自 Meta+Instagram，水准很强。把这些东西放在一起，你会看到很多基础设施的核心部分让人想起Meta，你会看到很多 Meta 风格的设计：内部重写的 TAO、边缘统一身份认证等等。我相信还有很多我不知道的。聊天功能深入系统。从 ChatGPT 起，许多代码库都是围绕聊天消息和对话的思想构建的。这些源语内嵌得很深，不注意就会踩坑。Codex 虽有些变体（基于响应式 API），但仍复用很多原先框架。OpenAI 强调实干：没有架构委员会决策，通常谁做谁决定。这带来行动快的优势，但也常导致代码库里存在多个类似功能库。我见过很多库，比如队列管理或代理循环。在缺乏工具支持的快速扩张团队里，问题也会产生：比如Sa-server（后端整体）有点像垃圾场。在master上，CI崩溃的频率比您想象的要高得多。即使是并行运行的测试用例，考虑依赖关系的子集，在gpu上运行也需要大约30分钟的时间。这些并不是无法解决的问题，但它提醒我们，这类问题无处不在，而且当你快速扩展时，它们可能会变得更糟。好在内部已有大量精力投入改进。其他经验了解什么叫“大消费者品牌”。Codex 推出时我才意识到这一点。这里的 KPI 是“专业用户”；即便是 Codex，会侧重用户个人使用情况上指标，而非团队协作。对于我这种 B2B 背景的人来说，这种风格很不一样：你转动个开关，流量就来了。大型模型训练机制（高层次）。这种流程从“实验小型原型”到“扩容实跑”再到“疑难调试”一直延续。实验时不仅调模型结构，也会调训练数据混合；训练变大后更像分布式系统工程，需要调边缘案例（仅在极端（最大或最小）操作参数或其他异常操作条件下发生的问题或情况）。GPU 数学基础。作为Codex发布的一部分，我们必须预测负载能力需求，这是我第一次真正对gpu进行基准测试。要从延迟、token 数、time-to-first-token着手往下推硬件能力，而不是简单问 GPU能跑多少 FLOPS 。每个模型版本的性能负载差异很大，需要重测。在大型 Python 代码库中协作。Segment是两个微服务的组合，主要是Golang和Typescript，我们没有OpenAI那样的代码广度。而在 OpenAI，我学到了很多关于如何根据贡献代码的开发人员的数量来扩展代码库的知识。你必须设置更多的护栏，比如“默认工作”、“保持主界面清洁”和“难以误用”。发布 Codex过去三个月里，我参与的最大项目是 Codex 的发布。毫无疑问是我职业生涯中的亮点。说下背景：在2024年11月，公司设下目标——2025年推出编程助手。到2025年2月，我们已有数个内部工具使用模型效果不错。压力来了——确实模型对编码已具生产力（你看到市场上大量生成 vibe-code 工具）。我提前休完陪产假回来，帮助这次发布。一周后，我们混并了两个团队，开启加速冲刺。从写第一行代码到上线，仅用了7周。Codex 冲刺是我十年职业生涯中最拼的一次。几乎每晚工作到11点或更晚。早上5:30被新生儿叫醒，7点去办公室，几个周末也在办公室。大家周周争分夺秒，很像当年YC创业节奏。这种节奏真难形容。我从没见过哪家只花7周就从想法到完全发布并开放给所有人的产品。我们构建了一个容器运行时，对repo下载进行了优化，对自定义模型进行了微调以处理代码编辑，处理了各种git操作，引入了一个全新的界面，启用了Internet访问，最终得到了一个使用起来令人愉悦的产品。那感觉，真心太爽了。无论别人怎么说，OpenAI 依然保有那种创业精神（launch spirit）。幸运的是，只要给对的人，就能创造奇迹。我们是一个由8名工程师，4名研究人员，2名设计师，2名市场推广和1名产品经理组成的高级团队。如果我们没有这个团队，我想我们会失败的。没有人需要太多的指导，但我们确实需要相当数量的协调。如果有机会和Codex团队合作，你就知道他们有多强。发布前夜，五个人熬夜到凌晨4点布署主单体（部署耗时数小时）；然后回到办公室，参加8点的发布会和直播。打开功能开关，瞬间流量来了。我从没见过哪个产品上线后凭借侧边栏（Sidebar）就有这么爆发式流量——ChatGPT的力量非常显著。在产品形态上，我们选择了全异步形式。与当时的 Cursor（现在也支持后端异步模式）或 Claude Code 不同，我们希望用户把任务发给代理，就像给同事发PR（拉取请求）；它会自动执行，完成后返回PR。这是个赌注：当时模型仍“好但不完美”。它能工作几分钟，但还做不了几个小时。用户对模型能力信任度参差不齐。而且到底模型真正能力在哪也还不很明朗。我相信从长远看，大多数编程会更像 Codex 这种形式。但与此同时，等着看各种产品如何演化会很有趣。Codex 在大型代码库中导航、任务管理能力特别突出。相比其它工具，我见过最大区别是它能并行触发多个 task，然后比对他们输出。我最近看到公共数据显示不同大模型代理制作 PR 的数据量。Codex 已生成 63 万个 PR。53 天内，对外公开的 PR 达 7.8 万个/工程师；私有 PR 多则更多。我人生都没做过这么有影响力的事情。告别感言坦白说，我最初对加入OpenAI很担忧。不确定放弃自由、拥有老板、融入大厂是否合适。我低调告诉朋友我加入了OpenAI，生怕不适合就尴尬了。我希望这次经历能让我：构建对模型训练机制及未来能力变化的直觉与优秀的同事一起工作并学习推出一个伟大的产品回顾这一年，我觉得这可能是我做过的最正确的选择。难以想象哪能比这里学得更多。如果你是创始人，觉得自己创业没前景了，该深度评估是不是放弃机会打多几次仗，要么去加入大实验室。现在是创造的黄金时刻，也是窥见未来方向的绝佳窗口。我认为 AGI 的竞争有三匹马：OpenAI、Anthropic 和 Google。他们会根据各自 DNA（消费导向 vs 商业优先 vs 基础架构和数据驱动）走出不同路径。在其中工作将是开眼界。感谢 Leah 在深夜支持我，承担大部分育儿任务。感谢 PW、GDB、Rizzo 给我机会。感谢 SA teammates 教会我很多：Andrew, Anup, Bill, Kwaz, Ming, Simon, Tony, Val。感谢 Codex 核心团队：Albin, AE, Andrey, Bryan, Channing, DavidK, Gabe, Gladstone, Hanson, Joey, Josh, Katy, KevinT, Max, Sabrina, SQ, Tibo, TZ, Will。这趟旅程我永生难忘。更多推荐：保姆的味道3中午

来源：孙郁艳

标签：我们差点忘了的Kimi，最近要“杀”回来？

新闻速览

保姆的味道3中午：我们差点忘了的Kimi，最近要“杀”回来？

2025-07-17

来源：孙郁艳

相关报道