OFF: Анализаторы графического изображения

LIFE

OFF: Анализаторы графического изображения - кто юзает? нужен совет

28.01.12

✎

15:37

куча картинок, отсканированные листы книг, документов - библиотека так сказать. задача - оставить картинки как есть, но реализовать поиск по слову.

пример: ищем по слову "1547"
результат: все картинки на которых так или иначе написано "1547"

мой вариант реализации: перевод через распознаватель (аля абби), хранение всех картинок вместе с распознанными своими экземплярами.

вопрос: как можно реализовать без промежуточного распознования?

1 Гот

28.01.12

✎

15:45

"Интересы:
непроизвольное доведение собеседника до белого каления"

Иди на рынок мандарины торгуй.

2 Kavar

28.01.12

✎

15:46

Что значит промежуточное?
Тут два варианта, либо предварительное распознавание ввсех картинок, либо распознавание в реальном времени.
Теперь представь что будет в последнем случае.
Еще вопросы есть?

3 kuromanlich

28.01.12

✎

15:47

(2) "Тут два варианта, либо предварительное распознавание ввсех картинок," - это у меня промежуточный

"либо распознавание в реальном времени" - ну както распознователи номеров машин на видео работают же

4 Kavar

28.01.12

✎

15:50

(3) Ну реализуй в реальном времени. флаг тебе в руки :))))

5 Гот

28.01.12

✎

15:51

На пиксели разбирай, в карту подставляй, совпадения сортируй, воруй-убивай.

6 kuromanlich

28.01.12

✎

15:55

(4) ) ок
(5) это так работают видео регистраторы?

7 Мизантроп

28.01.12

✎

15:57

> это так работают видео регистраторы?

от электрической сети

8 kuromanlich

28.01.12

✎

15:58

(7) не верю

9 romix

28.01.12

✎

15:59

(0) Я бы предложил пришпилить текстовый слой от ФайнРидера внизу страниц:
http://alcdata.narod.ru/USSR_1963/008.html
(это сделано простенькой софтинкой на Дельфи)
Тогда и страницы целы, и поиск через поисковики - в целом возможен.

10 Гот

28.01.12

✎

16:02

(6) Нейронные сети модно использовать.

11 romix

28.01.12

✎

16:03

+(9) Идея не моя.
Чтобы страницы не занимали много места, я им сделал отбеливание уровней другой программкой из командной строки.

12 romix

28.01.12

✎

16:06

+(9) И еще нужна софтинка для перенумерации изображений в ряду 001, 002, 003 ... - если там что-то выпало или случайно пропущено, чтобы номера страниц не уползли.

13 Гот

28.01.12

✎

16:09

Читай теорию по темам:
"Теория клеточных автоматов"
"Растровые изображения"
"Петли, концы, пересечения текстовых символов"
"Волновое выделение петли в текстовом символе"

Источники:
Smith R.A. RealHTime Language Recognition by OneHDimensional CellularAutomata
Травин А. Технологии оптического распознавания текстов
Нейман Дж.Теория самовоспроизводящихся автоматов.Дж.Нейман. М.:Мир,1971.

14 Гот

28.01.12

✎

16:09

Но лучше послушай совет в (1), и иди на рынок торговать.

15 romix

28.01.12

✎

16:13

(13) FineReader чем же плох. Там то теория надо надеяться таки учтена в лучшем виде.
Оттуда выгрузка в HTML и распатронивание на странички как в (9).

16 Мизантроп

28.01.12

✎

16:13

(14) Гот, послушай совет из (16), иди на рынок апельсины торгуй.

17 kuromanlich

28.01.12

✎

16:15

понятно что "спаренный" вариант легче всего... просто хочется "сразу".

(15) а у файнридера нет оле? его методы вне его можно использовать?

18 romix

28.01.12

✎

16:20

(17) Есть отдельные ДЛЛ-ки у них, надо на их сайте смотреть.

19 pumbaEO

28.01.12

✎

16:21

БСП подсистема файловые функции, автоматическое извлечение текстов + cuneiform (из бесплатного ) для картинок.

20 Гот

28.01.12

✎

16:21

(16) Непайду

21 kuromanlich

28.01.12

✎

16:24

(18) спасибо

(19) блин, точно!

22 kuromanlich

28.01.12

✎

16:27

(19) но "автоматическое извлечение текстов" только для напечатанного... в советские времена личные дела письменно тоже оформляли, и отчеты... но все равно спасибо.

23 Злопчинский

28.01.12

✎

16:45

(19) куняформ - УГ, даже инстальнутся нормально не может.

24 Злопчинский

28.01.12

✎

16:46

на Исе есть пример распознавания примерно такого как тебе нужно..

25 kuromanlich

28.01.12