主要内容

detectTextCRAFT

检测图像中的文本通过工艺深度学习模型

自从R2022a

    描述

    例子

    bboxes= detectTextCRAFT ()检测文本图像通过使用字符区域意识的文本检测(工艺)深度学习模型。的detectTextCRAFT函数使用一个pretrained工艺深度学习模型来检测图像中的文本。pretrained工艺模型可以发现9种语言,包括中文、日语、韩语、意大利语、英语、法语、阿拉伯语、德语、和孟加拉语(印度)。

    例子

    请注意

    使用pretrained工艺模型,您必须安装用于文本检测的计算机视觉工具箱™模型。你可以下载并安装计算机视觉文本工具箱模型检测从附加的探险家。关于安装插件的更多信息,请参阅获取和管理插件。要运行这个函数,您将需要深度学习工具箱™。

    bboxes= detectTextCRAFT (,roi)检测文本在一个区域(ROI)的形象。

    例子

    bboxes= detectTextCRAFT (___,名称=值)通过使用名称-值对参数指定附加选项。您可以使用名称-值对参数调整检测结果。

    例子

    全部折叠

    一个输入图像读入MATLAB工作区。

    我= imread (“handicapSign.jpg”);

    计算使用的文本检测结果detectTextCRAFT函数。地区和亲和力阈值设置为默认值。的输出是一组边界框包含发现的文本区域。

    bboxes = detectTextCRAFT(我);

    画出输出图像通过使用边界框insertShape函数。

    Iout = insertShape(我“矩形”bboxes,线宽= 3);

    检测结果显示文本。

    图imshow (Iout)

    图包含一个坐标轴对象。坐标轴对象包含一个类型的对象的形象。

    一个输入图像读入MATLAB工作区。

    visiondatadir = fullfile (toolboxdir (“愿景”),“visiondata”);我= imread (fullfile (visiondatadir,“imageSets”,“书”,“pairOfBooks.jpg”));

    指定感兴趣区域(ROI)在输入图像。

    投资回报率= (120、80250200);

    检测文本在指定的ROI内使用detectTextCRAFT函数。该地区和亲和力阈值设置为默认值。的输出是一组边界框包含发现的文本区域。

    bboxes = detectTextCRAFT (roi);

    画出ROI和输出边界框在输入图像。检测结果显示文本。

    我= insertObjectAnnotation (,“矩形”投资回报率,“投资回报”颜色=“绿色”);Iout = insertShape(我“矩形”bboxes,线宽= 3);图imshow (Iout)

    图包含一个坐标轴对象。坐标轴对象包含一个类型的对象的形象。

    这个例子展示了如何检测每个字符在文本区域输入图像的使用工艺模型。你可以通过修改亲和力阈值来实现这一点。这个示例还演示了不同的亲和力阈值对检测结果的影响。

    一个输入图像读入MATLAB工作区。

    visiondatadir = fullfile (toolboxdir (“愿景”),“visiondata”);我= imread (fullfile (visiondatadir,“封套”,“book27.jpg”));

    考虑指定亲和力阈值检测图像中的文本区域。

    阈值= (1 0.1 0.01 0.001 0.0004);

    Preallocate四维数组Iout存储输出图像的检测结果。

    Iout = 0(大小(我,1),大小(我,2),(我,3)大小,长度(阈值));

    计算每个亲和力阈值指定的输出输入。的输出是一组边界框包含发现的文本区域。画出输出图像通过使用边界框insertShape函数。区域阈值设置为默认值,0.4。

    问= 1:长度(阈值)bboxes = detectTextCRAFT(我LinkThreshold =阈值(问));Iout (:,:,: cnt) = insertShape(我“矩形”bboxes,线宽= 3);结束

    显示的文本检测结果不同的亲和力阈值。你可以注意亲和力阈值降低,角色亲和力较低分数视为连接组件和分组为一个单一的实例。良好的定位和检测结果,亲和力阈值必须大于零。

    图蒙太奇(uint8 (Iout),大小=[1 5],写成BackgroundColor =“白色”);标题([“LinkThreshold = 'num2str(阈值(1))“| LinkThreshold = 'num2str(阈值(2))“| LinkThreshold = 'num2str(阈值(3))“| LinkThreshold = 'num2str(阈值(4))“| LinkThreshold = 'num2str(阈值(5)));

    图包含一个坐标轴对象。坐标轴对象与标题LinkThreshold = 1 | LinkThreshold = 0.1 | LinkThreshold = 0.01 | LinkThreshold = 0.001 | LinkThreshold = 0.0004包含一个类型的对象的形象。

    输入参数

    全部折叠

    输入图像,指定为一个二维灰度图像或二维彩色图像。

    数据类型:||int16|uint8|uint16|逻辑

    搜索一个矩形的一个图像,指定为研制出向量的形式xy宽度高度]。向量指定左上角和一个矩形区域像素的大小。该地区必须完全包含在图像。

    当你指定这个值,detectTextCRAFT功能检测文本只存在在这个ROI。

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    名称-值参数

    指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

    例子:bboxes = detectTextCRAFT(我最大尺寸= (10,10))指定的最大大小检测输入图像中的文本区域

    本地化区域阈值中的每个字符图像,指定为一个积极的标量在[0,1]。增加检测的数量,降低阈值。然而,这也会导致假阳性。减少假阳性的数量,增加该地区的阈值。

    数据类型:|

    链接阈值将相邻字符分组为一个词,指定为一个积极的标量范围[0,1]。你可以增加角色的数量水平检测阈值通过增加链接。检测图像中每个字符,将这个值设置为1。良好的定位和检测结果,链接阈值必须大于零。

    数据类型:|

    规模最小的图像中检测到文本区域,指定为一个双元素向量的形式(高度宽度]。

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    规模最大的图像中检测到文本区域,指定为一个双元素向量的形式(高度宽度]。默认情况下,这个值设置为输入图像的高度和宽度。

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    硬件资源来处理图像与工艺模型,指定为“汽车”,“图形”,或“cpu”

    ExecutionEnvironment 描述
    “汽车” 使用GPU如果可用。否则,使用CPU。使用CUDA GPU需要并行计算工具箱™和®使英伟达®GPU。关于支持计算能力的信息,看到金宝appGPU计算的需求(并行计算工具箱)
    “图形” 使用GPU。如果没有一个合适的GPU,函数返回一个错误消息。
    “cpu” 使用CPU。

    数据类型:字符|字符串

    性能优化,指定为“汽车”,“墨西哥人”,或“没有”

    加速度 描述
    “汽车” 自动应用一些优化适合输入网络和硬件资源。
    “墨西哥人” 编译和执行一个墨西哥人的功能。此选项仅在使用GPU可用。你还必须有一个C / c++编译器安装。设置说明,请参阅墨西哥人设置(GPU编码器)
    “没有” 禁用所有加速度。

    默认的选项是“汽车”。如果你使用“汽车”选项,MATLAB®没有产生过墨西哥人的功能。

    使用“加速”选项“汽车”“墨西哥人”可以提供性能优势,但在初始运行时间增加为代价的。后续调用与兼容的参数是更快。使用性能优化计划多次调用该函数时使用新的输入数据。

    “墨西哥人”选项生成并执行一个墨西哥人函数基于网络和参数在函数调用中使用。你可以有几个墨西哥人函数与一个网络。结算网络变量也清除任何墨西哥人功能与网络有关。

    “墨西哥人”选项仅当你使用GPU。使用GPU并行计算需要工具箱和CUDA NVIDIA GPU启用。关于支持计算能力的信息,看到金宝appGPU计算的需求(并行计算工具箱)。如果并行计算工具箱或合适的GPU不可用,那么函数将返回一个错误。

    输出参数

    全部折叠

    边界框指定检测到文本区域,作为一个返回4矩阵。是检测到文本区域的数量。矩阵中的每一行是一个向量的形式(xy宽度高度]。向量指定左上角和检测区域像素的大小。

    版本历史

    介绍了R2022a