欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 美食 > 个人随想-一个有意思的鼠标截屏RAG

个人随想-一个有意思的鼠标截屏RAG

2025/5/1 20:18:54 来源:https://blog.csdn.net/chinaai777/article/details/141998984  浏览:    关键词:个人随想-一个有意思的鼠标截屏RAG

在这里插入图片描述

multi-model rag现在的技术已经比较成熟了,我们也落地了很多公司的rag和agent项目。今天先不说项目落地,今天给大家分享一个有意思的需求。

广州的一家公司,当我们rag搭建完成后,他们的一个产品经理提了一个需求。他们说,虽然你们的应用,可以通过打字,语音和上传图片实现rag,但是还不是很方便。他说,我们很多时候浏览的都是pdf或者一些加密的信息,这些加密的信息,我是不能复制粘贴的,也就没有办法把文字内容直接复制到我的聊天框,截图再上传,也太麻烦了。

我说,这很简单啊,现在qq、微信的截图,都自带ocr识别功能,能把图片的内容,直接给你识别出来,然后你再复制到聊天框不就行了?

他说,这还是比较麻烦。我是希望,我直接截图,你这里直接调用rag或者agent,也就是,屏幕截图接入大模型。比如:我截图一个复杂的公式,你直接帮我翻译出来。我截图一个数学问题,你直接给我计算出答案。我截图一个内容,你直接调用rag给我找到知识库的内容并总结,等等把。

不知道大家有没有听懂他的意思。

不可否认,这人真的是个人才。。。一般人还真想不出来。现在截图功能,已经越来越普及, 一个截图,不需要保存截图,然后找到这个截图,再发送给大模型,而是我一个截图,直接调用大模型,这个产品经理,确实让我刮目相看。

ok,开干。
系统接入,比较简单,加入一个屏幕截图快捷键,第一版,我们直接mss+image+imageTK+bytesIO,搞定,通过鼠标监听、获取选定区域、将图像保存到内存中。

接下来,我们会在截屏旁边,提供rag和agent入口,它可以选择要执行的操作,如果是rag,我们就会调用chatprompttemplete+ocr这个image的内容,发送到agent,同时带上图片的原始值,做multi-model的rag。如果用户选择的是agent,会默认预定义几个agent给他用,比如:计算、解释等(记得前一节我们说的,限定agent范围)。

ok,搞定。我们觉得还行,接下来,用户继续提需求,你这个屏幕截图快捷键,很多员工不想重新设置,就想用微信电脑版的截图,比如alt+A,也要达到截图不保存,直接发大模型。。。

ok,我们继续做,具体怎么做的,怎么跟客户沟通的,等我们做好了,再跟大家分享。

所以,跟传统软件开发一样,用户的需求,真的是千奇百怪,但是还是一句话,如果真的是可以解决业务痛点的问题,就大家一起努力干吧。

关注我,每天带你开发一个AI应用。

每周二四六直播,欢迎多多交流。
在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词