PythonRPA工具实战：从重复劳动中解放双手的技术方案

2019年秋季，笔者在经历第三次海投简历的机械操作后，终于忍无可忍。那种凌晨两点还在机械点击"立即投递"按钮的感受，迫使笔者决定用技术手段解决这个问题。 Python RPA工具实战：从重复劳动中解放双手的技术方案 IT技术

最初只是一个简单的Python脚本，模拟鼠标点击和键盘输入。随着功能不断叠加，逐渐演变成今天这套完整的RPA-Tool自动化工具集。

技术选型与核心架构

RPA-Tool基于Python生态构建，核心技术栈包含PyAutoGUI、Pillow、Python-pptx、PaddleOCR等库。图像识别模块采用OpenCV的模板匹配算法，支持灰度匹配和多尺度搜索。OCR模块集成百度PaddleOCR引擎，能够识别复杂场景下的中英文混合文本。

架构设计遵循命令模式，每个操作封装为独立的Command对象，支持JSON和Excel两种配置方式。JSON配置适合程序化生成，Excel配置适合业务人员可视化编辑。

图像识别是RPA工具的核心能力之一。SearchImage命令在屏幕上遍历搜索目标图片，通过滑动窗口算法计算每个位置的相似度得分。当得分超过阈值（默认0.8），即判定匹配成功。

ImgClick在SearchImage基础上增加点击动作。ClickAfterImg则接收已定位的坐标执行点击，支持x、y偏移量调整。MoveToAfterImg实现鼠标平滑移动，DragToAfterImg支持拖拽操作。

对于没有明显UI元素的场景，OCR能力至关重要。RPA-Tool集成的PaddleOCR支持多种语言识别，包括简体中文、繁体中文、英文、日文、韩文等。识别结果以结构化JSON返回，包含文字内容、置信度、边界坐标等信息。

ClickAfterOCR基于OCR识别的文字位置执行点击。例如识别到"登录"按钮后，可在相对位置执行点击。then参数支持链式操作定义，实现复杂的条件响应逻辑。

一个典型的JSON配置文件包含name、data两个顶层字段。data数组按顺序存储命令列表，每条命令由cmdType和cmdParam构成。waitForTarget设为true时，命令会持续等待目标出现直到超时。

detecttime控制检测间隔，maxWaitTime设置最大等待时间。这两个参数的合理配置直接影响脚本的执行效率和稳定性。建议图像识别场景设置detecttime为0.3-0.5秒，OCR场景设置为0.5-1秒。

坐标定位需注意屏幕分辨率差异。建议使用相对坐标或图像识别替代绝对坐标。循环执行场景务必添加Sleep延时，避免目标应用来不及响应。F10热键支持随时中断执行。

这套工具已在多个实际项目中验证可靠性，从简历海投到游戏刷资源，覆盖PC端和Android移动端两大平台。核心价值在于将重复性操作标准化、可配置化，让非技术人员也能享受自动化红利。