Tiens donc, je ne connaissais pas ce cousin d'Archive.org. Tout comme archive.org, c'est une organisation à but non lucratif.
Archive.org archive la musique, les films, les livres (papier et électroniques) et les pages web. CommonCrawl se limite au web.
Ils viennent juste de publier une petite archive de sites web... si vous avez 102 Téra-octets de libre, vous pouvez la télécharger:
http://commoncrawl.org/new-crawl-data-available/
Elle contient environ 2 milliards de pages web.
A noter qu'ils utilisent le même format de stockage qu'Archive.org: WARC (qui est en prime une norme ISO: ISO 28500)