Не могу понять как они распознают картинки в этом сервисе

15.04.12

✎

13:35

Есть такой сервис. Туда выкладываешь картинку, выкачанную из интернета и сайт тебе выдает кучу ссылок где находится в сети эта картинка. При том картинка может иметь другой размер и даже отличаться от оригинала чудчуть (случаи фотошопа). Я не могу понять как они это делают. Ведь невозможно распознавать образ за такое короткое время. там за считанную долю секунды обрабатываются миллионы фотографий.
а собственно сайт вот он: http://www.tineye.com/
особенно хорошо находит картинки англоязычных сайтов.

1 HeroShima

15.04.12

✎

13:37

"Ведь невозможно распознавать образ за такое короткое время. там за считанную долю секунды обрабатываются миллионы фотографий."
возможно. выделяются признаки, сохраняются и сравнение в базе идёт уже по ним.

2 Нуф-Нуф

15.04.12

✎

13:37

пора тебе уже понять что твой мозг просто не способен понять такое, что легко понимают другие понимающие люди

3 Terve-R-

15.04.12

✎

13:41

(0) тебя послушать, так и обычные поисковики существовать не могут - тоже миллионы сайтов обрабатывают за долю секунды

4 miki

15.04.12

✎

13:42

«Выглядит похоже». Как работает перцептивный хэш.
"
За последние несколько месяцев несколько человек спросили меня, как работает TinEye и как в принципе работает поиск похожих картинок.
"

http://habrahabr.ru/post/120562/

5 toypaul

гуру

15.04.12

✎

13:46

если на сайте есть база картинок (что скорее всего), то не мудрено. достаточно мощного сервака и правильного алгоритма. конечно же картинки не сравниваются целиком. сравниваются их представления.

6 toypaul

гуру

15.04.12

✎

13:49

(4) интересная статья :)

7 Jump

15.04.12

✎

13:52

(0)Ты шутишь - "там за считанную долю секунды обрабатываются миллионы фотографий" ?
Или совсем не разбираешься в IT ?
Как из миллиона записей в информационной базе выбирается одна за долю секунды, если чтение с диска всей базы займет более минуты не знаешь?
Про индексацию и поиск по индексу слышал?

8 miki

15.04.12

✎

13:53

(6)на ещё:
http://phash.org/

9 Jump

15.04.12

✎

13:59

Обычный поисковый робот-индексатор бегает по интернету, ищет картинки, найденные хеширует, и записывает в базу данных хэш и адрес хешированной картинки. Хэш это число, поэтому база данных упорядочивается допустим по возрастанию числового значения хэша.
Когда ты загружаешь свою картинку она хешируется и получившийся хеш ищется в базе данных. Т.е все сводится к поиску числа в упорядоченном списке чисел. Если совпадение находится то тебе выдают ссылку.

10 Еврейчик

15.04.12

✎

14:00

(6)ты сейчас чтото умное попытался сказать? у тебя не получилось. наоборот, ты себя своей недалекостью опустил, показав, что не понял, что я имел ввиду. Конечно же не через интернет он ищет. и ясно дело что база картинок у него проиндексировано. Но как он запрос к базе делает? по каким критериям? Если размер и названия файла совсем иное!

11 Еврейчик

15.04.12

✎

14:01

(9)ну я тоже так подумал. просто удивительно что иногда находит совсем отличающиеся фотки. напрмер Источник - фото актера. Результат в выдече - демотиватор, где слева это фото а справа другая картинка. как он это определил.

12 Еврейчик

15.04.12

✎

14:02

(6) ссори. (6) = (7)

13 opty

15.04.12

✎

14:05

(9) Ну там не совсем хеш , в общеупотребительном смысле , но типа того , цифровой код строится анализу картинки , и поиску ключевых элементов картинки .
Собственно анализ картинки и есть но-хау сервиса

14 opty

15.04.12

✎

14:08

Image Comparer для локальной работы с огромными базами фото по такому же принципу работает , результаты впечатляют

15 Terve-R-

15.04.12

✎

14:08

http://courses.graphicon.ru/files/courses/vision/2011/lectures/cv2011_10_cbir.pdf

16 Jump

15.04.12

✎

14:11

(11),(13) В (9) я описал предельно упрощенный алгоритм работы.
В реале конечно же используются более сложные методики.
Например картинка анализируется например на наличие человеческого лица (есть куча алгоритмов которые позволяют это делать) и хешируют не только картинку, но и отдельно область с лицом, хеш скорее всего не один а несколько, сделанных по разным алгоритмам.

17 opty

15.04.12

✎

14:14

(16) Угу
В общем самое сложное получить числовой код :) Остальное элементарно , собственно база сервиса это таблицы кодов и ссылок , ну и маленьких фоток для предпросмотра

18 Противный

16.04.12

✎

01:43

http://antidupl.narod.ru/russian/index.html

17.10.2003 - Версия 1.15

Первая версия для публичного использования.
....
=================================
почти десять лет назад написана прога...

19 jsmith

16.04.12

✎

02:10

протестировал. гугл круче