新闻速览

pornchian吃瓜：马特-巴恩斯：曾拿球砸科比但后来成科比的门徒

2025-10-13

pornchian吃瓜

预训练指令微调模型： Qwen2.5-7B/14B-Instruct（无论是否使用 CoT）在任务中的表现都较差，F1 分数低于 30，这表明仅依靠提示并不足以实现精确的片段级定位。预训练推理模型：具备推理能力的模型（如 QwQ-32B、Qwen3-8B、Qwen3-14B）在幻觉检测任务中能够迁移部分推理能力。例如，Qwen3-14B 在摘要任务上的 F1 提升至 35.8，而 Qwen2.5-14B-Instruct 仅为 32.9。然而，这些模型的表现仍落后于微调模型，这说明仅具备一般推理能力还不足以胜任片段级幻觉检测任务。微调基线模型：监督微调显著提升了性能，在 14B 规模下 F1 达到 55.4。RL4HS 模型：RL4HS 在所有基线模型之上表现出一致的优势，包括专有模型 GPT-4o/5-mini、GPT-5 和 o3。RL4HS-7B 在三个任务上的平均 F1 达到 55.9，显著优于 SFT 的 50.1。在 14B 规模下，RL4HS-14B 在摘要、问答和数据到文本任务上分别取得 57.6、54.8 和 62.6 的成绩，超越了 Qwen3 系列以及表现最强的 GPT-5 和 o3 模型。，马特-巴恩斯：曾拿球砸科比但后来成科比的门徒

pornchian吃瓜

姚云致辞

他参考了Gabriele Chanel女士当年借鉴男友衣橱的灵感，以挺括的男式西装外套开场，延续到手工编织的针织、透明织物的裙装以及重新演绎的褶皱山茶花。

潘晓晖主持会议

李明报告

阿尔特曼在台上直言：“手机和电脑虽好，但总有新事物值得探索。”他与艾维共同证实，OpenAI正紧锣密鼓地研发多款硬件产品，不过具体细节仍如迷雾般笼罩。从使用场景到产品规格，一切尚待揭晓。

王景妮作报告

在6月全美范围反对特朗普政府的抗议活动期间，数千人在波特兰举行示威游行，其中部分示威者聚集在波特兰的移民及海关执法局设施外与联邦执法人员发生冲突。波特兰示威者此后在该设施外定期举行活动。

罗小梅报告

关于病例年龄的这个问题，确实是我们工作存在的失误，我们向这位患者道歉。在今后的工作当中，我们会尽量避免此类问题再次发生。

苏文明作报告

由于美国会参议院9月30日先后否决两党拨款法案，当地时间10月1日0时1分，美国联邦政府因资金耗尽而“关门”。这是联邦政府近七年来首次“停摆”。数十万联邦雇员面临强制休假或被裁员，众多联邦部门的服务也“停摆”。（央视记者许骁）

宁明波作报告

当地时间10月6日，瑞典卡罗琳医学院宣布，将2025年诺贝尔生理学或医学奖授予科学家玛丽·E·布伦科（Mary E. Brunkow）、弗雷德·拉姆斯德尔（Fred Ramsdell）和坂口志文（Shimon Sakaguchi），获奖理由为对外周免疫耐受发现的贡献。三位获奖人将分享1100万瑞典克朗（约合人民币834万元）的奖金。（时代财经张羽岐）