maintenance: add loose-objects task
authorDerrick Stolee <redacted>
Fri, 25 Sep 2020 12:33:32 +0000 (12:33 +0000)
committerJunio C Hamano <redacted>
Fri, 25 Sep 2020 17:53:04 +0000 (10:53 -0700)
commit252cfb7cb86a33f7740c799748ee6c586931c7bc
tree448b62e3fa3b920d3da7c4484be34dbc95b56f00
parent28cb5e66ddaed47aa8789fa326fec0339831b80b
maintenance: add loose-objects task

One goal of background maintenance jobs is to allow a user to
disable auto-gc (gc.auto=0) but keep their repository in a clean
state. Without any cleanup, loose objects will clutter the object
database and slow operations. In addition, the loose objects will
take up extra space because they are not stored with deltas against
similar objects.

Create a 'loose-objects' task for the 'git maintenance run' command.
This helps clean up loose objects without disrupting concurrent Git
commands using the following sequence of events:

1. Run 'git prune-packed' to delete any loose objects that exist
   in a pack-file. Concurrent commands will prefer the packed
   version of the object to the loose version. (Of course, there
   are exceptions for commands that specifically care about the
   location of an object. These are rare for a user to run on
   purpose, and we hope a user that has selected background
   maintenance will not be trying to do foreground maintenance.)

2. Run 'git pack-objects' on a batch of loose objects. These
   objects are grouped by scanning the loose object directories in
   lexicographic order until listing all loose objects -or-
   reaching 50,000 objects. This is more than enough if the loose
   objects are created only by a user doing normal development.
   We noticed users with _millions_ of loose objects because VFS
   for Git downloads blobs on-demand when a file read operation
   requires populating a virtual file.

This step is based on a similar step in Scalar [1] and VFS for Git.
[1] https://github.com/microsoft/scalar/blob/master/Scalar.Common/Maintenance/LooseObjectsStep.cs

Signed-off-by: Derrick Stolee <redacted>
Signed-off-by: Junio C Hamano <redacted>
Documentation/git-maintenance.txt
builtin/gc.c
t/t7900-maintenance.sh
git clone https://git.99rst.org/PROJECT