發(fā)布于:2021-01-23 00:00:12
0
79
0
圖片是一種很好的交流方式,但通常情況下,圖片被用來(lái)在社交媒體和廣告中傳播文字。圖像中的文本也存在可訪(fǎng)問(wèn)性問(wèn)題。事實(shí)上,由于各種原因,能夠檢測(cè)圖像文件中的文本是很重要的。讓檢測(cè)圖像中的文本成為可能的驚人的開(kāi)源工具是tesseract OCR!
我建議使用自制軟件安裝tesseract:
brew install tesseract
要運(yùn)行tesseract從圖像中讀取文本,可以在命令行中運(yùn)行以下命令:
tesseract ~/Downloads/MyImage.png ~/Downloads/MyImage.txt -l eng
上面的命令將檢測(cè)到的英文文本(-l eng)提取到一個(gè)文本文件(MyImage.txt)中。這個(gè)過(guò)程非常快,并且支持幾十種語(yǔ)言。
讓我們來(lái)看看下面的例子:
檢測(cè)到以下文本:
International ‘Champions Cup ~- TOUR SQUAD #AFCTour2018 CECH MUSTAFI GUENDOUZI oziL LENO SOKRATIS NELSON IWOBI MARTINEZ MAVROPANOS SMITHROWE = NKETIAH BELLERIN OSEI-TUTU WILLOCK PEREZ KOLASINAC ELNENY RAMSEY LACAZETTE CHAMBERS MAITLAND-NILES MKHITARYAN AUBAMEYANG HOLDING
有許多不同編程語(yǔ)言的實(shí)用程序可以插入tesseract的功能,但了解底層工具是很重要的!tesseract是一個(gè)令人難以置信的工具,如果你需要一個(gè)開(kāi)源工具來(lái)檢測(cè)圖像中的文本,你應(yīng)該利用它!
作者介紹
熱門(mén)博客推薦