- Cell Phones 613
- Editors 252
- Education, Science & Engineering 302
- Games 1661
- Internet 545
- Stock Market 14
- Web Design 90
- Scripts 354
- Miscellaneous 87
- Mobile Software 26
- Multimedia & Graphics 1053
- PC 388
- Programming 346
- Security 1379
- SEO 60
- Utilities 813
Aura SE ParSEr 1.1 серверный многопоточный парсер поисковых систем
Refunds: 1
Uploaded: 09.08.2007
Content: aura_se_parser_1.1.rar 187,77 kB
Product description
Представляю вам серверный многопоточный парсер поисковых систем “Aura” для промышленного сбора результатов выдачи Google, Yahoo и Live!
Функциональные характеристики:
Парсинг результатов выдачи Google, Yahoo, Live, возможность установки глубины просматриваемых страниц
парсинг всех SE по 100 ресурсов на странице
скачивание выдачи SE в gzip (архив, экономит траф)
многопоточность - произвольное число потоков на SE, отдельные списки запросов для каждой SE, параллельный парсинг нескольких SE, возможность установки таймаута потока
прокси - HTTP, установка таймаута соединения, возможность парсинга без прокси
вращение выдачи - буквы, цифры, дополнительные запросы, TLD
макроподстановки в запросах позволят увеличить КПД выходной базы практически до максимума
принудительная задержка потоков (для парсинга без прокси)
postmortem-механизм - продолжение парсинга после ребута/выключения сервера
развернутая статистика по потокам во время парсинга
фильтрация результатов на дубли, выборка из результатов по регулярным выражениям
возможность скачивания результатов парсинга в zip-архиве
Перебор цифрового диапазона в указанных пределах. Например, запрос inurl:”blog/?p=” будет выглядеть как inurl:”blog/?p=#1:100#”, т.е. этот запрос будет представлять собой 100 запросов от inurl:”blog/?p=1″ до inurl:”blog/?p=100″
Макроподстановка
запросы с включенной обработкой макроподстановок принимают вид:
запрос;leave_str;replacement;replacer;paramlist
где запрос - собственно сам запрос Smile;
leave_str - строка, по наличию которой в URL собранный URL остается в списке;
replacement - строка, которую нужно заменить;
replacer - строка, на которую произведется замена;
paramlist - список параметров в URL (через запятую), которые необходимо удалить. Если нужно удалить все параметры, тут нужно поставить символ * (звездочка).
Пример запроса: inurl:”guestbook.php”;guestbook.php;action=view;action=add;sid,page,p
Эта макроподстановка означает, что в SE будет послан запрос inurl:”guestbook.php”, причем будут оставлены лишь те URL, в которых присутствует строка guestbook.php. Далее, во всех URL, выдранных с этого запроса все action=add будут заменены на action=view, и будут удалены параметры с именами sid, page и p.
Cкрипт написан на perl (требуется Perl 5.8.6 и выше)!
Feedback
0Period | |||
1 month | 3 months | 12 months | |
0 | 0 | 0 | |
0 | 0 | 0 |