Difference between revisions of "User:StefanoZacchiroli/Content deduplication"

Revision as of 10:21, 8 January 2018

Some experiments on deduplicating contents at sub-file granularity.

Dataset: linux.git

Rabin fingerprint parameters:

Results:

Dataset: linux.git

Rabin fingerprint parameters:

Results:

Dataset: linux.git

Rabin fingerprint parameters:

Results:

@@ Line 39: / Line 39: @@
 * average chunk size (effective): 5.07 KB
 * dedup chunk size (uncompressed): 16.19 GB (28.96%)
+=== test 3 ===
+Dataset: linux.git
+Rabin fingerprint parameters:
+* prime: 3
+* window_size: 48 KB
+* chunk size (min/avg/max): 512 B / 1 KB / 8 KB
+Results:
+* average chunk size (effective):
+* dedup chunk size (uncompressed):
 == References ==