Nutch
Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, Tika, Hadoop и Gora, адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиаконтента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера.
Apache Nutch | |||
---|---|---|---|
Тип | библиотека Java[вд], библиотека функций и поисковый робот | ||
Разработчик | Apache Software Foundation | ||
Написана на | Java | ||
Операционная система | Кроссплатформенное программное обеспечение | ||
Аппаратная платформа | Java Virtual Machine | ||
Последняя версия |
|
||
Репозиторий | github.com/apache/nutch | ||
| |||
| |||
Состояние | Активный | ||
Лицензия | Apache License 2 | ||
Сайт | nutch.apache.org | ||
Медиафайлы на Викискладе |
Система предоставляет средства для построения высокомасштабных систем индексации, отвлеченных от типа хранилища, что позволяет использовать такие хранилища для больших объемов данных, как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase и HDFS, так и SQL-базы и размещение в памяти NoSQL БД.
Использование
правитьНа базе Nutch 2.0, запущенного поверх 34-узлового Hadoop-кластера, построен поисковый сервис компании Kalooga, в индексе которого находится более миллиарда страниц[2].
На основе Nutch построены поисковые системы:
- Creative Commons Search — запущен в 2004 году, имплементация Nutch заменена в 2006[3][4][5]
- DiscoverEd — прототип поиска по открытым образовательных ресурсам, разрабатывается Creative Commons
- Krugle
- MozDex
- Wikia Search — запущен в 2008 году, закрыт в 2009[6][7]
- search2.net
Примечания
править- ↑ Apache Nutch 1.19 (src-tar, src-zip, bin-tar and bin-zip) — 2022.
- ↑ Релиз поискового движка Apache Nutch 2.0 . Дата обращения: 9 января 2017. Архивировано 14 июля 2012 года.
- ↑ Our Updated Search . Creative Commons (3 сентября 2004). Дата обращения: 9 января 2017. Архивировано 7 сентября 2011 года.
- ↑ Creative Commons Unique Search Tool Now Integrated into Firefox 1.0 . Creative Commons (22 ноября 2004). Архивировано из оригинала 22 июля 2013 года.
- ↑ New CC search UI . Creative Commons (2 августа 2006). Дата обращения: 9 января 2017. Архивировано 7 ноября 2011 года.
- ↑ Where can I get the source code for Wikia Search? Дата обращения: 9 января 2017. Архивировано из оригинала 4 ноября 2011 года.
- ↑ Update on Wikia – doing more of what’s working . Дата обращения: 9 января 2017. Архивировано 3 мая 2009 года.
Ссылки
править- nutch.apache.org — официальный сайт Nutch
- Официальная вики
- Building Nutch: Open Source Search(2004)- ACM Queue vol. 2, no. 2
- Статья о Nutch(2003)- Search Engine Watch
- Еще статья о Nutch(2003)- Tech News World
- Официальная страница проекта Hadoop