Verwarring in de natuurlijke sorteervolgorde

De meeste grafische bestandsbeheerders sorteren niet strikt lexicografisch, maar gebruiken "natuurlijke" sortering. Cijferblokken in de naam worden geïnterpreteerd als getallen – het grotere blok wint, zelfs als het omgekeerde alfabetisch zou gelden. Het idee achter natuurlijke sortering: wat mensen meestal willen is "9 voor 10", "Hoofdstuk 2 voor Hoofdstuk 10" – zonder dat er voorloopnullen hoeven te worden toegevoegd.


De volgende bestandsparen worden op natuurlijke wijze in oplopende volgorde gesorteerd, als volgt:

  • build-9e2.log
  • build-950.log

Verbazingwekkend, maar verklaarbaar: het eerste cijfer \(9\) is kleiner dan het eerste blok cijfers \(950\) .

  • IMG_12113419_90.jpg
  • IMG_0554363070_90.jpg

Het getal \(12113419\) is kleiner dan \(554363070\) (de voorloop \(0\) is verwijderd).

  • temp_0C.txt
  • temp_2C.txt
  • temp_-3C.txt
  • temp_10C.txt
  • temp_-12C.txt

De vergeleken getallen zijn \(0\) , \(2\) , \(3\) , \(10\) , \(12\) – de “-” wordt niet als onderdeel van het getal beschouwd.

Zelfs "alfabetisch" is niet wereldwijd eenduidig: hoofdlettergebruik, umlauten zoals ä (Duits) of letters met meerdere tekens zoals ch (Tsjechisch) leiden tot legitieme varianten. "Puur alfabetisch" is daarom contextafhankelijk. Windows Verkenner implementeert dit in de functie StrCmpLogicalW . Hoewel de broncode (shlwapi.dll) propriëtair en niet openbaar is, zijn er herimplementaties, bijvoorbeeld van ReactOS.:

{
    TRACE("%s, %s\n", wine_dbgstr_w(str), wine_dbgstr_w(comp));
 
    if (!str || !comp)
        return 0;
 
    while (*str)
    {
        if (!*comp)
            return 1;
        else if (*str >= '0' && *str <= '9')
        {
            int str_value, comp_value;
 
            if (*comp < '0' || *comp > '9')
                return -1;
 
            /* Compare the numbers */
            StrToIntExW(str, 0, &str_value);
            StrToIntExW(comp, 0, &comp_value);
 
            if (str_value < comp_value)
                return -1;
            else if (str_value > comp_value)
                return 1;
 
            /* Skip */
            while (*str >= '0' && *str <= '9') str++;
            while (*comp >= '0' && *comp <= '9') comp++;
        }
        else if (*comp >= '0' && *comp <= '9')
            return 1;
        else
        {
            int diff = ChrCmpIW(*str, *comp);
            if (diff > 0)
                return 1;
            else if (diff < 0)
                return -1;
 
            str++;
            comp++;
        }
    }
 
    if (*comp)
      return -1;
 
    return 0;
}

Google Drive, OneDrive, KDE en andere vertonen een vergelijkbaar sorteergedrag. CLI-tools zoals ls en find Ze sorteren echter anders dan GUI-bestandsbeheerders. De semantiek zit in de bestandsnamen, niet in de API. Als u resultaten zonder verrassingen wilt, definieer dan conventies: consistente scheidingstekens, opgevulde getallen en een duidelijke verwerking van eenheden. Dan wordt "alfabetisch" weer voorspelbaar.

Terug