StormCrawler

StormCrawler

StormCrawler, Apache Storm ile dağıtılmış web tarayıcıları oluşturmak için açık kaynaklı bir SDK'dır.Proje Apache lisansı v2 altındadır ve çoğunlukla Java ile yazılmış yeniden kullanılabilir kaynak ve bileşenlerden oluşur.StormCrawler'ın amacı şu web tarayıcılarının oluşturulmasına yardımcı olmaktır: ölçeklenebilir esnek düşük gecikme süresi, kibar ama etkili bir şekilde genişletilmesi kolaydır StormCrawler, geliştiricilerin kendi tarayıcılarını oluşturmak için kaldırabilecekleri bir kütüphane ve kaynak koleksiyonudur.İyi haber şu ki, bunu yapmak oldukça basit olabilir.Genellikle, yapmanız gereken tek şey fırtına tarayıcısını bir Maven bağımlılığı olarak ilan etmek, kendi Topoloji sınıfınızı yazmak (ipucu: ConfigurableTopology'yi genişletebilirsiniz), proje tarafından sağlanan bileşenleri yeniden kullanmak ve belki de birkaç özel olanı yazmak olacaktır.kendi gizli sosunuz için.Yapılandırmada biraz ince ayar yapıyorsunuz ve yola koyuluyorsunuz! ... Temel bileşenlerin yanı sıra, projenizde yeniden kullanabileceğiniz bazı harici kaynaklar sağlıyoruz, örneğin Elastik Arama için ağız ve cıvatalarımız veya Apache Tika kullanan bir ParserBoltçeşitli belge biçimlerini ayrıştırma.StormCrawler, getirilecek ve ayrıştırılacak URL'nin akış olarak geldiği durumları kullanmak için mükemmel bir şekilde uygundur, ancak özellikle düşük gecikme süresi gerektiren büyük ölçekli yinelemeli taramalar için de uygun bir çözümdür.Proje, birçok şirket tarafından üretimde kullanılmaktadır ve aktif olarak geliştirilmekte ve sürdürülmektedir.

İnternet sitesi:

Kategoriler

Ücretsiz lisanslı Web için StormCrawler alternatifleri