在花
返回时间线
· 09:05 · 已编辑 · 47 条回复 ·

百度发布新一代文字识别模型飞桨OCRv5:轻量高效,部分测试超越GPT-4o

百度在 Hugging Face 发布新一代文字识别解决方案飞桨OCRv5。该模型参数量仅0.07B,能在CPU及边缘设备上高效运行,其移动版在英特尔Xeon Gold 6271C CPU上每秒可处理370余字符。

飞桨OCRv5采用模块化两阶段流程,解决大型视觉语言模型在文本定位和边界框精度上的不足。在OCR特定基准测试中,其表现优于Gemini 2.5 Pro、Qwen2.5-VL和GPT-4o,覆盖手写、印刷中英文及拼音。模型支持简体中文、繁体中文、英文、日文和拼音,能识别40余种语言。

HuggingFace

🍀在花频道 🍵茶馆 📮投稿

Telegram 评论区

47 条回复,可以前往 Telegram 继续讨论。

去评论区