User:StefanoZacchiroli/Content deduplication: Difference between revisions

Revision as of 14:03, 8 January 2018

Some experiments on deduplicating contents at sub-file granularity.

Dataset: linux.git

Rabin fingerprint parameters:

Results:

Dataset: linux.git

Rabin fingerprint parameters:

Results:

Dataset: linux.git

Rabin fingerprint parameters:

Results:

@@ Line 9: / Line 9: @@
 * original size (uncompressed): '''55.89 GB'''
-== Rabin fingerprints ==
+== Rabin fingerprint chunking ==
-* Approach: use [https://en.wikipedia.org/wiki/Rabin_fingerprint Rabin fingerprints]
+* Approach: use [https://en.wikipedia.org/wiki/Rabin_fingerprint Rabin fingerprints] as in LBFS
 * Implementation: [https://forge.softwareheritage.org/source/snippets/browse/master/zack/swh-dedup/ swh-dedup-blocks.py]