AG真人国际(中国)官方网站Kimi发布视觉思考模型k1基于强化学习技术打造

发布时间：2024-12-17

点击次数：

　　日前，AI初创公司月之暗面宣布推出视觉思考模型k1，并将以“Kimi视觉思考版”的形式陆续在Kimi网页版和Kimi智能助手App上线。据悉该模型会完整呈现推理思维链CoT，让用户不只看到答题结果，还能完整看到模型思索答案的全过程。用户在最新版手机App或网页版Kimi+页面找到“Kimi视觉思考版”，即可拍照或传图进行体验。

　　据官方介绍，k1模型是基于强化学习技术打造，原生支持端到端图像理解和思维链技术，可直接处理用户输入的图像信息、并进行思考得出答案，无需借助外部OCR或额外视觉模型进行信息处理。

　　同时k1模型还借助端到端的图像理解能力，解锁了包括几何图形题在内更加全面的数学能力。在不同阶段的几何和图形题专项基准能力测试中，k1-preview的成绩追平或超过了OpenAI o1模型。除数学能力之外，其还将能力扩展到了物理、化学等领域，在基础科学学科教育阶段能力测试中超过OpenAI的o1和GPT-4o、Anthropic的Claude 3.5 Sonnet等全球标杆模型。

　　据悉在模型训练方面，k1模型的训练分为两个阶段，即先通过预训练得到基础模型，再在基础模型上进行强化学习后训练。具体而言，k1的基础模型重点优化了字符识别能力，在OCRBench上得到了903分的当前最好结果，并且在其他基准测试集上也处于全球第一梯队的水平；k1的强化学习后训练则在数据质量和学习效率维度做了进一步优化，并在强化学习的规模化（scaling）上取得了新的突破。

　　不过需要注意的是，k1模型仍然存在一些局限性需要突破，AG真人国际例如在分布外（out-of-distribution）的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面有很大提升空间。其中在一些场景和泛化能力上，k1与OpenAI的o1系列模型相比仍有差距。

　　对此月之暗面方面指出，基础科学领域的大量信息蕴藏在图像和图形信息里，如何将思考能力与图像理解能力更紧密得融合，同时为用户带来更流畅的交互体验，是一项重要的技术挑战，“我们相信，图像理解和思考能力，将会解锁Kimi更广泛的使用场景”。此外其还表示，未来会持续提升Kimi视觉思考版的各方面能力，让它变得更加“可靠”、更加“万能”。