对于许多漫画读者和开发者来说,准确识别漫画中的文字一直是一项挑战。最近,一个专为日本漫画微调的 AI 文字识别(OCR)模型,将识别准确率从 27% 提升至 70%,为漫画翻译和相关应用提供了新的可能性。
对于喜欢直接阅读原文漫画的读者来说,语言隔阂往往是第一个挑战。而对于想透过工具辅助阅读或进行翻译的人来说,如何让电脑准确「读懂」漫画的文字,则是一个重要的技术问题。
这背后的核心技术,称为光学字符识别(Optical Character Recognition, OCR)。虽然现今的 OCR 技术在处理标准文件时已相当成熟,但一旦应用场景换成漫画,就会面临许多困难。
为什么识别漫画文字这么困难?
漫画的文字呈现方式与一般文件有很大的不同,这为 OCR 技术带来了几个主要的挑战:
- 多变的字体风格: 漫画家常会使用各种艺术字体来传达角色的情绪或声音的张力,这些非标准化的字体对电脑来说难以识别。
- 不规则的排版: 对话框内的文字可以是直书、横书,甚至倾斜排列,增加了定位和识别的复杂性。
- 复杂的背景干扰: 文字经常叠加在丰富的画面或效果线上,不像白纸黑字那样清晰分明。
- 特殊的漫画符号: 大量的拟声词和效果字是漫画独有的表达方式,通用型的 OCR 模型通常没有针对这些内容进行训练。
因为这些因素,大多数通用的 OCR 工具在处理漫画时,识别结果的准确率并不理想。
专为漫画设计的 PaddleOCR-VL-For-Manga 模型
为了解决这个问题,有开发者针对日本漫画的特性,推出了一个名为「PaddleOCR-VL-For-Manga」的特制 AI 模型。
这个专案的基础是百度 PaddlePaddle 团队所开发的视觉语言模型 PaddleOCR-VL。为了让它能更好地适应漫画场景,开发者进行了所谓的「微调」(Fine-tuning),也就是用特定领域的数据对模型进行额外训练。
训练数据主要来自 Manga109-s 数据集,并辅以 150 万个额外生成的合成样本。透过这些专门的漫画数据,模型得以学习如何识别漫画中各种特殊的文字风格和版面配置。
关于 Manga109-s 数据集
Manga109是一个由学术机构汇编、包含 109 部日本漫画的研究用数据集。其中的Manga109-s子集特别授权可用于商业开发,为相关应用的研究提供了宝贵的资源。
识别成果:准确率从 27% 提升至 70%
经过这次专门的微调,模型的表现有了显著的提升。
根据开发者公布的资讯,原版模型在漫画上的完整句子识别准确率约为 27%,而经过微调的「PaddleOCR-VL-For-Manga」模型,准确率则提高到了 70%。这项进展意味着,模型能更完整地识别出对话框中的句子,而不仅仅是零碎的单词。
新模型在处理漫画对话泡泡和风格化字体方面表现不错。不过,开发者也指出,模型在区分「全形」与「半形」字符时仍有改善空间。尽管如此,这依然是漫画 OCR 技术领域一个值得关注的进展。
如何使用这个模型?
这个模型是开源的,对这项技术感兴趣的开发者可以在 Hugging Face 平台上找到它。
使用者可以透过 Transformers、PaddleOCR 或其他支援 PaddleOCR-VL 的程式库来调用这个模型。开发者建议,若要处理有固定版面的文件,可以尝试将其与 PP-DocLayoutV2 布局分析工具结合使用,但同时也提醒,漫画的版面配置与标准文件存在差异。
这项技术的潜在应用
这类技术的进步,为许多领域带来了实用的价值:
辅助漫画翻译: 翻译团队可以利用此工具进行初步的文字抓取,再由人工进行专业的翻译和润饰,有助于提高工作效率。
开发语言学习工具: 未来或许能看到更多结合 OCR 技术的应用,例如透过手机拍摄漫画即可即时翻译,辅助日语学习者。
促进学术文本分析: 研究人员可以更便利地从大量漫画中提取文本资料,进行语言学或文化研究的分析。
总体来看,这个专为漫画微调的 OCR 模型,展示了 AI 技术在特定应用场景下的潜力。它为解决一个长期的技术挑战提供了有效的思路,也为漫画相关的数字化应用带来了更多的可能性。


