日前,AI初创公司月之暗面宣布推出视觉思考模型k1,并将以“Kimi视觉思考版”的形式陆续在Kimi网页版和Kimi智能助手App上线。据悉该模型会完整呈现推理思维链CoT,让用户不只看到答题结果,还能完整看到模型思索答案的全过程。用户在最新版手机App或网页版Kimi+页面找到“Kimi视觉思考版”,即可拍照或传图进行体验。
据官方介绍,k1模型是基于强化学习技术打造,原生支持端到端图像理解和思维链技术,可直接处理用户输入的图像信息、并进行思考得出答案,无需借助外部OCR或额外视觉模型进行信息处理。
同时k1模型还借助端到端的图像理解能力,解锁了包括几何图形题在内更加全面的数学能力。在不同阶段的几何和图形题专项基准能力测试中,k1-preview的成绩追平或超过了OpenAI o1模型。除数学能力之外,其还将能力扩展到了物理、化学等领域,在基础科学学科教育阶段能力测试中超过OpenAI的o1和GPT-4o、Anthropic的Claude 3.5 Sonnet等全球标杆模型。
据悉在模型训练方面,k1模型的训练分为两个阶段,即先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。具体而言,k1的基础模型重点优化了字符识别能力,在OCRBench上得到了903分的当前最好结果,并且在其他基准测试集上也处于全球第一梯队的水平;k1的强化学习后训练则在数据质量和学习效率维度做了进一步优化,并在强化学习的规模化(scaling)上取得了新的突破。
不过需要注意的是,k1模型仍然存在一些局限性需要突破,AG真人国际例如在分布外(out-of-distribution)的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面有很大提升空间。其中在一些场景和泛化能力上,k1与OpenAI的o1系列模型相比仍有差距。
对此月之暗面方面指出,基础科学领域的大量信息蕴藏在图像和图形信息里,如何将思考能力与图像理解能力更紧密得融合,同时为用户带来更流畅的交互体验,是一项重要的技术挑战,“我们相信,图像理解和思考能力,将会解锁Kimi更广泛的使用场景”。此外其还表示,未来会持续提升Kimi视觉思考版的各方面能力,让它变得更加“可靠”、更加“万能”。