【AI News | 20250618】每日AI进展

AI Repos

1、AgentsMeetRL
本列表汇集了使用强化学习训练 LLM 智能体的优秀开源项目。这些项目需具备多轮交互或工具使用功能。该列表基于 GitHub Copilot Agent 的代码分析，并经过人工审核，旨在总结各项目所依赖的强化学习框架、算法、奖励类型（如外部验证器、简单规则、基于模型、自定义）和环境，以供技术参考。我们欢迎社区提交新的项目，共同完善这份资源，并纠正任何可能存在的遗漏或错误。
在这里插入图片描述

2、Office-PowerPoint-MCP-Server
Office-PowerPoint-MCP-Server 是一个基于 python-pptx 的 MCP 服务器，专为 PowerPoint 演示文稿的创建、编辑和操作而设计。它提供全面的功能，包括幻灯片增删、文本/图片/表格/形状/图表添加与编辑，以及文档属性修改等。用户可通过 Smithery、安装脚本或手动方式进行部署，并支持本地 Python 服务器或 UVX 运行。该工具通过 MCP 配置与外部客户端（如 Claude Desktop）集成，极大简化了 PowerPoint 自动化流程。
在这里插入图片描述

3、awesome-hacker-news
这份精选列表汇集了各类优秀的 Hacker News 应用、库和资源，旨在提升用户体验。它涵盖了网页、移动网页、RSS/Atom 订阅、电子邮件、社交媒体（Twitter、Mastodon、Instagram 等）工具，以及浏览器扩展、用户脚本、用户样式。此外，列表还包括了桌面（Windows、macOS、Linux）、iOS、Android、Windows Phone 等平台上的客户端，以及打印、音频、Sublime Text 插件、Emacs、命令行、Alfred 工作流、智能手表和 Telegram 整合。该资源旨在为 Hacker News 爱好者提供全面的工具与信息，并欢迎社区贡献。

AI News

1、MiniMax 发布 Hailuo 02：开启视频生成新篇章
MiniMax 稀宇科技于 6 月 18 日推出其最新视频生成工具 Hailuo 02，标志着视频生成领域的一大突破。Hailuo 02 采用创新的 Noise-aware Compute Redistribution (NCR) 架构，将训练和推理效率提升 2.5 倍，同时将模型总参数量和数据量分别扩大三倍和四倍，使其能够处理体操等复杂场景。该工具提供 768p-6秒、768p-10秒和 1080p-6秒三个版本，不仅显著降低了创作门槛和成本，还在全球排名中位列第二。MiniMax 未来将继续提升生成速度并实现图像到视频（I2V）等高级功能，赋能全球创作者。

2、字节跳动 Seedance 1.0 崭露头角，超越谷歌 Veo 3
字节跳动发布了 AI 视频生成模型 Seedance 1.0，并在独立评测中超越了谷歌的 Veo 3。Seedance 1.0 创新性地解耦了空间和时间层，结合多模态位置编码，能同时处理文本到视频和图像到视频的生成任务，支持复杂场景切换和多镜头叙事。凭借大规模数据集和强化学习，它在遵循提示、动作真实感和视觉一致性上表现出色，并能高效生成 1080p 视频。Seedance 1.0 将于 2025 年 6 月集成到 Doubao 和 Jimeng 等平台，有望显著提升专业创作效率。

3、谷歌 Gemini 重磅升级：视频上传与分析功能全面上线
谷歌 Gemini 近日发布了 2.5Pro 和 Flash 最新版本，并面向所有用户开放。此次更新不仅带来了更经济、更快速的 Gemini 2.5 Flash-Lite 模型，更引人注目的是在安卓和网页端新增了视频上传与分析功能。用户现可轻松上传视频，Gemini 将对视频内容进行概述、查找特定片段或物品，并展示相关分析结果。这一功能拓展了 Gemini 在视频处理方面的能力，使其在与竞争对手 ChatGPT 的较量中取得先机，并有望在未来展现更强大的潜力。

4、CMU 与英伟达发布 Multiverse：LLM 推理进入超高速并行时代
卡耐基梅隆大学（CMU）与英伟达联合推出 Multiverse 模型，旨在彻底变革大型语言模型（LLM）的推理方式，实现原生并行生成。该模型采用类似 MapReduce 的三阶段结构，通过任务分解、并行执行和结果合并，充分利用硬件并行计算能力，解决传统自回归生成的效率瓶颈。实验表明，Multiverse-32B 模型性能提升近 2%，在不同批量大小下实现最高两倍的速度提升，并在 GitHub 上开源了整个生态系统。这项技术能够动态切换顺序与并行生成，有望为自然语言处理领域带来重大突破。

5、Cursor Pro 取消请求限制，开启 AI 编码无限使用新篇章
AI 代码编辑器 Cursor Pro 计划于 2025 年 6 月 17 日迎来重大升级，正式取消每月 500 次快速请求限制，转为“有限速率的无限使用”模式，以响应用户需求并提升开发者体验。此举意味着用户不再受请求次数约束，但可能面临速率限制以确保系统稳定。同时，Cursor 推出了每月 200 美元的 Ultra 计划，提供 20 倍模型使用量，旨在满足企业和重度开发者需求。这一变革巩固了 Cursor 在 AI 代码助手市场的领先地位，并体现了其对用户体验的重视。

6、讯飞星火医疗大模型登顶 MedBench，赋能基层医疗新发展
讯飞星火医疗大模型在 MedBench 榜单中以 95.4 高分荣登榜首，彰显其在复杂医学推理、医学语言理解和医疗安全等方面的卓越能力。MedBench 是由上海人工智能实验室等机构创建的中文医疗大模型评测平台，全面评估医学语言、生成、问答、推理、安全和伦理等维度。目前，讯飞的医疗 AI 诊疗助理已在全国 31 个省市、7.4 万余家基层医疗机构应用，服务超 22 万基层医生，并与 500 多家等级医院深度合作，助力提升医疗质量和效率。

7、百度飞桨发布 PP-StructureV3：实现 PDF 到 Markdown 的高效智能转换
百度飞桨团队近日推出新一代文档解析工具 PP-StructureV3，旨在解决非结构化数据向结构化数据转换的难题，尤其在当前大模型与 RAG 技术发展背景下意义重大。PP-StructureV3 能够高精度解析多种场景和版式的文档图像或 PDF 文件，将其无缝转换为 Markdown 和 JSON 格式，并在 OmniDocBench 基准测试中表现卓越。它还具备印章、图表、复杂表格及中英文公式识别等专精能力，采用精细化模型组合策略，并提供极简 API 方案，支持本地推理和服务化部署，极大提升了文档解析效率与准确性。

8、谷歌推出 Gemini 2.5 Flash-Lite：更快的推理速度，更低的成本
谷歌发布了其系列中最轻量、最具成本效益的 AI 模型 Gemini 2.5 Flash-Lite。这款模型已进入稳定阶段，并在编码、翻译、推理等多个领域取得突破，显著提升了推理速度和降低了延迟。Flash-Lite 保留了 Gemini 2.5 系列的核心能力，如灵活控制推理预算、连接外部工具，并支持处理 100 万 token 的超长上下文。开发者现在可通过 Google AI Studio 和 Vertex AI 平台访问该模型，为未来的 AI 应用奠定了坚实基础。

9、腾讯元宝推出 AI 编程模式：实时代码生成与预览
腾讯元宝近日上线全新的 AI 编程模式，用户选择 DeepSeek V3 模型并开启该模式后，可通过双栏界面与 AI 对话，实时生成和预览代码效果。这一功能最大亮点在于便捷性，用户可直接提出修改意见并即时更新效果。同时，在腾讯云代码助手 CodeBuddy 支持下，元宝新增了 Python、C++ 等多种编程语言的在线运行功能，无需环境配置即可运行代码。该模式特别适用于教育和亲子场景，能够激发用户的创造力和编程兴趣，推动编程教育与创新应用发展。

【AI News | 20250618】每日AI进展

AI Repos

AI News

相关资讯

热文排行

最新新闻

推荐新闻

热搜词