User:StefanoZacchiroli/Content deduplication: Difference between revisions

Revision as of 10:20, 8 January 2018

Some experiments on deduplicating contents at sub-file granularity.

Dataset: linux.git

Rabin fingerprint parameters:

Results:

Dataset: linux.git

Rabin fingerprint parameters:

Results:

@@ Line 21: / Line 21: @@
 * prime: 3
 * window_size: 48 KB
-* min_block_size: 2 KB
+* chunk size (min/avg/max): 2 KB / 8 KB / 64 KB
-* avg_block_size: 8 KB
-* max_block_size: 64 KB
 Results:
@@ Line 36: / Line 34: @@
 * prime: 3
 * window_size: 48 KB
-* min_block_size: 512 B
+* chunk size (min/avg/max): 512 B / 2 KB / 8 KB
-* avg_block_size: 2 KB
-* max_block_size: 8 KB
 Results: