欢迎使用 SoMark

SoMark准确、快速、经济的将PDF、PPT、图片等各场景下多种格式文档转换为机器可读的结构化结果，为LLM的训练及RAG等应用提供数据弹药。

99% 识别准确率

基础文字识别准确率达到 99%，支持原文坐标回溯，精确定位每个元素。

100 页最快 5 秒

高速解析，支持集群横向扩展，轻松应对大规模批量处理需求。

按需付费

按量计费或一次性授权，私有化部署最低仅需一张 RTX 3090 显卡。

21 种文档组件

识别标题、表格、公式、图片、化学结构式、印章、二维码等 21 种元素类型。

多格式输出

输出 Markdown、JSON，适配训练数据与 RAG 应用场景。

多场景适配

支持论文、研报、白皮书、合同、教育题库、政府文件等主流文档场景。

支持的文件格式

pdf png jpg jpeg bmp tiff jp2 dib ppm pgm pbm gif heic heif webp xpm tga dds xbm doc docx ppt pptx xlsx xlsm xls

支持的文档元素

支持识别以下 21 种文档元素：

类别	元素
文本结构	标题 `title`、文字段 `text`、页眉 `header`、页脚 `footer`、脚注 `footnote`
图片与表格	图片 `figure`、图例 `figure_caption`、表格 `table`、表例 `table_caption`
专业内容	公式 `equation`、化学结构式 `cs`、化学方程式 `cs_equation`、代码段 `code`
导航与版面	侧边栏 `sider`、目录 `cate`、目录条目 `cate_item`
教育与结构化项	选项 `choice`、填空空白 `blank`、参考文献 `reference`
特殊元素	二维码 `qrcode`、印章 `stamp`