Програма для розпізнавання тексту з картинки. YAGF - графічна оболонка для CuneiForm (оптичне розпізнавання відсканованого тексту) Що робить програма cuneiform

CuneiForm - безкоштовна утиліта, призначена для швидкого перетворення зображення в текстовий формат. Програма знаходить своє застосування в багатьох сферах: в школах, в університетах, офісній роботі, при оцифрування старих архівів, книг та інших документів.

CuneiForm OpenOCR - найкраща альтернатива Abbyy Finereader

Чим же цей інструмент краще Finereader для звичайного користувача? Перш за все, безкоштовністю. Вартість вищезгаданого софта становить 5776 рублів, в той час, як за CuneiForm OpenOCR ви не платите нічого. Просто встановлюємо і користуємося. До речі, скачати CuneiForm ви зможете прямо на даній сторінці (внизу ми розмістили посилання на офіційну версіюпрограми). Відразу після установки відкриваємо наш распознаватель і читаємо невелику інструкцію до нього:

Отже, як відбувається перетворення картинки в текст? У даній програмі буде дуже просто працювати і новачку, і професіоналу, адже для розпізнавання потрібно зробити всього пару дій. По-перше, вам необхідно якесь зображення (будь-якого формату - PNG, BMP, JPEG і т.п.), тому відкриваємо потрібний об'єкт.

По-друге, необхідно натиснути на кнопку «Розпізнати». Далі, в CuneiForm запускається процес розпізнавання тексту. Це, як правило, відбувається дуже швидко, тільки в рідкісних випадках потрібно чекати більше 5-10 секунд.

Після того, як інструмент розпізнав текст, відкривається ваш стандартний текстовий редактор - Word, WordPad і т.п. До речі, тут же можна відредагувати отриманий текст, бо далеко не завжди утиліта видає точний результат, особливо при обробки зіпсованих, старих сторінок.

Також далеко не завжди CuneiForm OpenOCR може виділити області тексту, тобто таблиці, абзаци, заголовки і інші розділи. У такій ситуації вам необхідно вручну виконати розмітку сторінки, для цього створено окремий, зручний інструмент.

Для більшої зручності розробники додали функцію сканування. Ти просто кладеш в МФУ або сканер якийсь документ або книгу, скануєш потрібну ділянку, а після Кьюніформ автоматично перетворює текст в зображення - дуже корисний інструмент.

Загальних параметрів тут не так багато, можна налаштувати лише 3 - розмітка, сканування та форматування, але це компенсується тим, що можна налаштовувати кожен модуль окремо, так що користувач все може налаштувати під себе. До речі, сама утиліта досить проста і сумісна з будь-якою ОС:

  • Windows XP;
  • Windows Vista, 7;
  • Windows 8, 8.1 і 10;
  • Mac OS;
  • Linux і інші.

Щоб завантажити CuneiForm безкоштовно російською, відвідайте офіційний сайт розробників, там ви отримаєте повну інформацію про програму. Якщо ви вже зрозуміли, як з нею працювати, то просто натисніть на зелену кнопку, і тоді ви отримаєте відмінний распознаватель тексту, скачавши його з офіційного сайту без вірусів і СМС-підписок.

Назва програми: OCR CuneiForm

версія: 12

Розмір: 33,4 Мб

Мова: Кілька мов в т.ч. російська

Тип програми: розпізнавання тексту

Ліцензія: Вільна з відкритим кодом

опис програми

OCR CuneiForm може розпізнавати будь-які поліграфічні, машинописні гарнітури всіх накреслень і шрифти, одержувані з принтерів за винятком декоративних і рукописних. В систему вбудовані спеціальні алгоритми для розпізнавання тексту з матричного принтера, поганих ксерокопій факсів і машинопису.

OCR CuneiForm це:

  • висока якість розпізнавання;
  • висока швидкість роботи;
  • розпізнавання текстів російською, англійською, змішаному російсько-англійському, українському, німецькому, французькому, іспанському, італійському, шведському і інших (всього більше 20);
  • робота в режимі автофрагментаціі для пошуку текстових блоків, таблиць і зображень, а також потужний засіб ручного і напівавтоматичного фрагментації;
  • розпізнавання таблиць будь-якої структури і складності, в тому числі і без відображення ліній табличній сітки;
  • автоматичне збереження ілюстрацій (чорно-білих і кольорових) і таблиць в одержуваному на виході документі;
  • повне збереження топології сторінки;
  • підтримка пакетного режиму сканування і розпізнавання;
  • простота використання та інтуїтивний інтерфейс, вбудовані помічники по роботі з програмою;
  • вбудований текстовий редактор для роботи з розпізнаним текстом;
  • поєднаний показ зображень і результатів розпізнавання.

В системі використовується цілий ряд унікальних технологій, серед яких адаптивне розпізнавання, нейронні сіті, Когнітивний аналіз альтернатив розпізнавання та інші.

Питання та відповіді по програмі

Що таке CuneiForm? CuneiForm - це система оптичного розпізнавання найбільшого російського розробника програмного забезпечення Cognitive Technologies, яка забезпечує швидке і високоякісне перетворення паперових документів та електронних графічних файлів, одержуваних, наприклад, зі сканера або факсу, в редагований текст для подальшої роботи з ним в текстових редакторах.

Для кого призначена OCR CuneiForm?Система розпізнавання текстів CuneiForm призначена для всіх, кому доводиться вводити в комп'ютер факси, книги, газети, машинописні сторінки, тексти договорів і т.д. Для роботи з системою досить покласти сторінку з текстом в сканер, натиснути кнопку, і через кілька секунд Ви отримаєте готовий результат в багатофункціональному текстовому редакторі.

Які шрифти розпізнає OCR CuneiForm, потрібно чи навчання? CuneiForm - шріфтонезавісімая (OmniFont) система. Алгоритми, закладені в CuneiForm, виходять з правил написання букв, з їх топології, і не вимагають завдання будь-яких ідеалів, або навчання.

В системі використовується технологія інтелектуального самонавчання на базі адаптивного розпізнавання символів.

Розпізнаються будь-які друковані шрифти - книги, газети, журнали, роздруківки з лазерних і матричних принтерів, тексти з друкарських машинок і т.п.

Чи не розпізнається рукописний текст і декоративні шрифти (готичний, стилізований під рукописний).

У CuneiForm існують спеціальні настройки для розпізнавання текстів з матричного принтера і факсів 200x100 dpi.

Чим OCR CuneiForm відрізняється від інших подібних програм?

  • якістю розпізнавання;
  • високою швидкістю роботи;
  • використанням унікальних технологій, таких як адаптивне розпізнавання, нейронні мережі, когнітивний аналіз альтернатив розпізнавання та інших;
  • простий використання і інтуїтивним інтерфейсом;
  • функціональним наповненням, наявністю багатьох додаткових можливостей.

Чи підтримує OCR CuneiForm роботу з таблицями?Так. Програма автоматично знаходить в тексті таблиці різної структури, в тому числі без ліній разграфки. Вбудований редактор підтримує редагування таблиць (можна зменшувати / збільшувати, видаляти / створювати колонки і т.д.)

Як OCR CuneiForm поставиться до картинок в тексті?Як побажаєте. Може просто проігнорувати їх присутність, а може зберегти у вихідному документі в чорно-білому, сірому або кольоровому вигляді, в залежності від вашого бажання.

Посилання для завантаження

  • Завантажити установчу версію з depositfiles.

Інформація взята з офіційного сайту програми

Рано чи пізно, всі хто часто працює з офісними програмами, стикаються з типовою завданням - відсканувати текст з книги, журналу, газети, просто листочків, а потім перевести ці картинки в текстовий формат, наприклад, в документ Word.

Щоб це зробити необхідний сканер і спеціальна програмадля розпізнавання тексту. У цій статті піде мова про безкоштовне аналогу FineReader - CuneiForm(Про розпізнавання в FineReader -).

1. Особливості програми CuneiForm, можливості

Завантажити можна з сайту розробника: http://cognitiveforms.com/

Програма для розпізнавання тексту з відкритим вихідним кодом. До того ж, працює у всіх версіях Windows: XP, Vista, 7, 8, що радує. Плюс до цього додайте повний російський переклад програми!

плюси:

Розпізнавання тексту на 20 найпопулярніших мовами світу (англійська та російська само собою входить в це число);

Величезна підтримка різних друкованих шрифтів;

Перевірка по словником розпізнаного тексту;

Можливість збереження результати роботи в декількох варіантах;

Збереження структури документа;

Відмінна підтримка і розпізнавання таблиць.

мінуси:

Не підтримує занадто великі документи і файли (більше 400 dpi);

Не підтримує на пряму деякі типи сканерів (ну це не страшно, в комплект до драйверів сканера йде і спец. Програма для сканування);

Дизайн не блищить (але кому він потрібен, якщо програма повною мірою вирішить завдання).

2. Приклад розпізнавання тексту

1) Відкриваємо необхідну картинку в програмі CuineForm (файл / відкрити або «Cntrl + O«).

2) Щоб приступити до розпізнавання - потрібно спочатку виділити різні області: тексту, картинок, таблиць та ін. У програмі Cuneiform це можна зробити не тільки в ручну, а й автоматично! Для цього натисніть на кнопку «розмітка» в верхньої панелівікна.

3) Через 10-15 сек. програма автоматично підсвітить всі області різними кольорами. Наприклад, область тексту виділяється синім кольором. До речі, підсвітила вона все області правильно і досить швидко. Чесно кажучи, не очікував від неї такої швидкої і правильної реакції ...

4) Для тих, хто не довіряє автоматичної розмітки, можна скористатися і ручний. Для цього є панелька інструментів (див. Нижче), завдяки якій можна виділити: текст, таблицю, картинку. Пересунути, збільшити / зменшити початкове зображення, підрізати краю. Загалом, непоганий набір.

5) Після того, як всі області були розмічені, можна приступити до розпізнаванню. Для цього просто клацніть по однойменній кнопці, як на картинці нижче.

6) Буквально через 10-20 сек. перед вами відкриється документ в Microsoft Wordз розпізнаним текстом. Що цікаво, в тексті для цього прикладу, помилки, звичайно були, але їх вкрай небагато! Тим більше, з огляду на в якому непоказному як був вихідний матеріал - картинка.

За швидкістю і якістю цілком можна порівняти з FineReader!

3. Пакетне розпізнавання тексту

Ця функція програми може стане в нагоді, коли вам потрібно розпізнати не одну картинку, а відразу декілька. Ярлик для запуску пакетного розпізнавання, зазвичай, захований в меню «пуск«.

1) Після відкриття програми, вам потрібно створити новий пакет, або відкрити раніше збережений. У нашому прикладі - створимо новий.

2) В наступному кроці даємо йому назву, бажано таке, щоб і через півроку згадати що в ньому збережено.

4) Тепер потрібно вказати папку, в якій розташовані файли для розпізнавання. До речі, що цікаво, програма сама знайде все картинки і інші графічні файли, які вона зможе розпізнати і додати їх у проект. Вам же залишиться видалити зайві.

5) Наступний крок не важен- вибираєте що робити з вихідними файлами, після розпізнавання. Рекомендую вибрати галочку «нічого не робити».

6) Залишилося лише вибрати формат, в якому буде збережений розпізнаний документ. Є кілька варіантів:

- rtf- файл з документа word, Відкривається всіма популярними офісами (в тому числі і безкоштовними,);

- txt- текстовий формат, в ньому можна зберегти тільки текст, картинки і таблиці не можна;

- htm- гіпертекстова сторінка, зручно, якщо ви бажаєте сканувати і розпізнаєте файли для сайту. Його і виберемо в нашому прикладі.

З іншого боку, є у неї і мінуси.

По-перше, дуже мало інструментів для редагування і перевірки отриманого результату. По-друге, коли доводиться розпізнавати багато картинок - то в FineReader зручніше відразу бачити в колонці справа все, що додано в проект: швидко видаляти зайве, вносити правки ін. І третє, на документах зовсім вже поганої якості, CuneiForm програє в якості розпізнавання: доводиться документ доводити до розуму - правити шибки, проставляти знаки пунктуації, лапки і т.д.

На цьому все. А ви знаєте якусь ще гідну безкоштовну програмудля розпізнавання тексту?

Сьогодні я розповім і навчу вас розпізнавати текст з картинок. Також для тих, кому потрібна була програма для розпізнавання тексту, Нижче я пропоную завантажити російську версію програми CuneiForm 12. А зараз я більш детально розповім, як з нею працювати.

Навіщо потрібно розпізнавати тексти?

Наприклад, вам задали написати доповідь або реферат, полазити в інтернеті, ви нічого путнього не знайшли. Потім сходили в бібліотеку і взяли книгу по темі доповіді, але потрібного тексту в книзі багато і передруку такого обсягу може зайняти у вас весь вільний час. Ось в таких випадках приходить на допомогу програма CuneiForm 12, Від вас вимагається від сканувати потрібні сторінки книги, а потім за допомогою програми витягти з картинок текст. Хочу зауважити, що все відбувається дуже швидко.

Програма для розпізнавання тексту

Як я писав вище, ми будемо працювати з програмою CuneiForm 12. Чим же вона краще за інших?

  • CuneiForm безкоштовна, Наприклад програма ABBYY FineReader коштує 3990 рублів.
  • Висока швидкість роботи і якість розпізнавання.
  • Розпізнавання текстів на 20 мовах, в тому числі змішаному російсько-англійському.
  • Робота з малюнками і таблицями.
  • Простота використання і інтуїтивно зрозумілий інтерфейс.
  • А також безліч технічних удосконалень.

Але недоліки також є, так як це програма російських розробників, то гарним дизайном вона не виділяється, але для мене головне, то що вона правильно розпізнає текст.

Як працювати з програмою CuneiForm 12

Після завантаження та установки програми, запустіть CuneiForm 12. Ви повинні побачити ось таке віконце:

  1. Вибір картинки, з якої буде розпізнаватися текст.
  2. Вибір принтера.
  3. Кнопка «Розпізнавання».
  4. Кнопка «Зберегти».

Натискаємо на першу кнопку і вибираєте потрібну картинку або від скановану сторінку. У наступному вікні вибираєте мову тексту, який знаходиться у вас на картинці. Наступні настройки не так важливі, можете їх перегорнути.

Після розпізнавання у вас повинно з'явитися ось таке віконце:

У верхній частині буде розпізнаний текст з виділеними помилками, а нижче вихідне зображення. Як ви бачите, моя картинка була поганої якості, нерівна, але програма розпізнала все відмінно. До речі як видно на малюнку вище програма пропонує три варіанти розвитку подій.

  • Залишити для редагування.
  • Зберегти на диск.
  • Експортувати в Word або в Excel.

Готово, тепер ви знаєте, як це робиться і у вас з'явилася програма розпізнавання тексту зі сканера.

CuneiForm - це програма для оптичного розпізнавання тексту документів в редагований вигляд. Результати роботи програми можна редагувати в офісних програмах та текстових і зберігати в популярних форматах, проводити по ним повнотекстовий пошук. Однак для Linux є тільки консольна версіяпрограми, тому набагато зручніше користуватися разом з фронт-ендом YAGF.

Оболонка YAGF - Y et A nother G raphical F ront-end for CuneiForm надає графічний інтерфейс для консольної програми розпізнавання текстів CuneiForm на платформі Linux. Крім того, YAGF дозволяє управляти скануванням зображень, їх попередньою обробкою і власне розпізнаванням з єдиного центру. Програма YAGF також спрощує послідовне розпізнавання великого числа сканованих сторінок.

Програма CuneiForm мається на стандартному репозиторії Ubuntu, а ось для YAGF необхідно підключити один з додаткових репозиторіїв:

Ppa: alex-p / notesalexp deb http://archive.getdeb.net/ubuntu natty-getdeb apps

і встановити за допомогою Центру додатків Ubuntu.

Для роботи YAGF необхідний пакет перевірки орфографії aspell і словники відповідних мов (aspell-en, aspell-ru і т.д.). Якщо ви хочете керувати скануванням зображень безпосередньо з YAGF, встановіть програму XSane. Для розпізнавання тексту потрібно, природно, програма CuneiForm.

Робота в YAGF складається з декількох етапів: отримання зображення (серії зображень) сторінок; підготовка до розпізнавання (якщо необхідно); розпізнавання; збереження результатів.

отримання зображень

Ви можете використовувати файли зображень, збережені на жорсткому диску, або відсканувати нове зображення. Для того щоб завантажити зображення, скористайтеся командою Файл / Відкрити (ви можете відкрити кілька файлів одночасно). Ви також можете перетягнути графічно файли мишею на темну смугу в лівій частині головного вікна програми, в результаті чого вони будуть завантажені в програму. YAGF підтримує всі основні растрові графічні формати (JPEG, PNG, BMP, TIFF, GIF, PNM, PPM, PBM і інші). якщо ім'я відкритого файлумає вигляд nameXXX.ext, де XXX - послідовність цифр, ви можете переходити до попереднього / наступного файлів за допомогою кнопок переходу, розташованих на панелі швидкого доступу. Наприклад, якщо ви відкрили файл MyPage001.jpg, то при натисканні кнопки переходу до наступного зображення програма спробує відкрити файл MyPage002.jpg.

Ви можете отримувати зображення безпосередньо зі сканера за допомогою програми XSane. Перебуваючи в YAGF, скомандуйте Файл / Сканувати. Буде запущена програма XSane. Налаштуйте параметри сканування в XSane і натисніть кнопку «Сканувати». Після закінчення сканування у вікні перегляду зображень YAGF з'явиться відскановане зображення. Якщо вам потрібно відсканувати декілька зображень, виконуйте ці операції кілька разів (у вікні перегляду зображень завжди буде відкрито останнім відскановане зображення, ви можете перейти до попередніх зображень, використовуючи команди переміщення). Ви можете працювати в YAGF, не закриваючи вікно XSane. Якщо вам потрібно відсканувати чергове зображення, просто клацніть кнопку XSane «Сканувати». При виході з YAGF відкрите програмоювікно XSane буде закрита автоматично. Для переходу до інших відсканованим зображень користуйтеся кнопками з панелі швидкого доступу, як було описано вище. Всі отримані зображення відображаються в зменшеному вигляді на панелі зображень в лівій частині головного вікна програми. Ви можете зберегти ці зображення в окрему директорію за допомогою кнопки «Зберегти».

підготовка зображень

У YAGF ви можете виконувати прості операції підготовки відсканованого зображення: виділення блоку тексту для розпізнавання і поворот. Якщо зображення орієнтоване неправильно, його можна повернути на 90 градусів за і проти годинникової стрілки або на 180 градусів. Робиться це за допомогою кнопок панелі швидкого доступу у вікні перегляду зображень. Якщо ви хочете передати на розпізнавання не все відскановане зображення, а його частина, ви можете виділити мишею один або кілька прямокутних блоків у вікні перегляду зображень. Якщо клацнути лівою кнопкою миші по існуючому блоку, його колір зміниться на рожевий. Тепер розмір обраного блоку можна змінити, «вхопившись» мишею за край блоку. Якщо клацнути у вікні зображення правою кнопкоюмиші, з'явиться контекстне меню, За допомогою якого можна видалити всі виділені блоки, видалити вибране блок, розпізнати текст обраного блоку. Для зручності виділення блоків ви можете зменшити або збільшити розміри зображення у вікні перегляду (ця операція не впливає на розміри зображення, переданого програмі CuneiForm). Зміна видимих ​​розмірів зображення можна виконати так само за допомогою комбінацій клавіш Ctrl ++ і Ctrl + - або обертаючи коліщатко миші, утримуючи при цьому клавішу Ctrl (точно так само можна змінити розміри шрифту у вікні перегляду тексту).

Якщо в програмі відкрито кілька сторінок і для кожної обрані своя орієнтація, свій масштаб і виділені свої блоки, YAGF запам'ятає ці параметри для кожної сторінки.

Якщо сторінка відсканована нерівно, з нахилом, ви можете спробувати виправити нахил за допомогою нової функції«Виправити нахил сторінки». Для цього натисніть відповідну кнопку.

розпізнавання

Приступаючи до розпізнавання, ви повинні вибрати потрібну мову розпізнавання (або пару мов, якщо розпізнається документ написаний на декількох мовах). Основна версія CuneiForm дозволяє вам розпізнавати тексти майже на всіх європейських мовах, а також тексти, що містять пару мов російська-англійська.

Кожен новий розпізнаний фрагмент тексту (виділений блок або нова сторінка) додається в редактор розпізнаного тексту у вигляді нового абзацу.

За замовчуванням YAGF виконує перевірку орфографії розпізнаного тексту за допомогою libaspell. Зазвичай у вашій системі встановлюються орфографічні словники для «рідної» локалі система і англійської. Якщо ви хочете перевіряти орфографію для текстів на інших мовах, встановіть відповідні словники. Якщо YAGF не знаходить потрібного словника для перевірки орфографії для заданого мови розпізнавання, програма попереджає вас про це. Вимкніть перевірку орфографії, якщо не хочете отримувати такі попередження.

Якщо вам потрібно розпізнати текст відразу з декількох зображень, ви можете скористатися пакетною розпізнаванням. Для цього всі зображення, які потрібно розпізнати, повинні бути відкриті на панелі зображень (в лівій частині вікна програми). Натисніть кнопку «Розпізнати всі сторінки». Всі відкриті зображення будуть завантажуватися і розпізнаватися автоматично. При цьому буде виведено діалогове вікно, що відображає прогрес розпізнавання. Ви можете зупинити процес пакетного розпізнавання, клацнувши кнопку «Перервати». Якщо на розпізнаються сторінках виділені блоки, буде розпізнано тільки текст всередині блоків.

збереження результатів

Розпізнаний текст може бути збережений на диску в текстовому форматі (кодування UTF-8), в форматі HTML або скопійований в буфер обміну. Кнопка «Копіювати текст в буфер обміну» копіює в буфер виділений фрагмент розпізнаного тексту або весь текст, якщо в редакторі відсутнє виділення.