Shaare your links...
32846 links
Liens en vrac de sebsauvage Home Login RSS Feed ATOM Feed Tag cloud Picture wall Daily
Links per page: 20 50 100
page 1 / 1
  • histoire internet
    CommonCrawl
    Tiens donc, je ne connaissais pas ce cousin d'Archive.org. Tout comme archive.org, c'est une organisation à but non lucratif.
    Archive.org archive la musique, les films, les livres (papier et électroniques) et les pages web.  CommonCrawl se limite au web.
    Ils viennent juste de publier une petite archive de sites web... si vous avez 102 Téra-octets de libre, vous pouvez la télécharger: http://commoncrawl.org/new-crawl-data-available/
    Elle contient environ 2 milliards de pages web.
    A noter qu'ils utilisent le même format de stockage qu'Archive.org: WARC (qui est en prime une norme ISO: ISO 28500)
    2013-11-28 08:44:47
    http://commoncrawl.org/
Links per page: 20 50 100
page 1 / 1
Shaarli 0.0.41 beta modifiée - 2022-08-11 - The personal, minimalist, super-fast, no-database delicious clone. By sebsauvage.net. Theme by idleman.fr. I'm on Mastodon.
shelter.moe