CommonCrawl - Liens en vrac de sebsauvage

Shaare your links...
32846 links

Liens en vrac de sebsauvage Home Login RSS Feed ATOM Feed Tag cloud Picture wall Daily

Links per page: 20 50 100

page 1 / 1

histoire internet
CommonCrawl

Tiens donc, je ne connaissais pas ce cousin d'Archive.org. Tout comme archive.org, c'est une organisation à but non lucratif.
Archive.org archive la musique, les films, les livres (papier et électroniques) et les pages web. CommonCrawl se limite au web.
Ils viennent juste de publier une petite archive de sites web... si vous avez 102 Téra-octets de libre, vous pouvez la télécharger: http://commoncrawl.org/new-crawl-data-available/
Elle contient environ 2 milliards de pages web.
A noter qu'ils utilisent le même format de stockage qu'Archive.org: WARC (qui est en prime une norme ISO: ISO 28500)
2013-11-28 08:44:47
http://commoncrawl.org/

Links per page: 20 50 100

page 1 / 1