Verwirrung in der natürlichen Sortierreihenfolge

Die meisten grafischen Dateimanager sortieren nicht streng lexikographisch, sondern per „natürlicher“ Sortierung („natural sort“). Ziffernblöcke im Namen werden dabei als Zahlen interpretiert – der größere Zahlenblock gewinnt, auch wenn rein alphabetisch das Gegenteil herauskäme. Die Idee hinter natürlicher Sortierung: Was Menschen meistens wollen, ist „9 vor 10“, „Kapitel 2 vor Kapitel 10“; ohne führende Nullen nachrüsten zu müssen.


Folgende Dateipaare werden aufsteigend wie folgt natürlich sortiert:

  • build-9e2.log
  • build-950.log

Erstaunlich, aber erklärbar: Der erste Ziffer \(9\) ist kleiner als der erste Ziffernblock \(950\).

  • IMG_12113419_90.jpg
  • IMG_0554363070_90.jpg

Die Zahl \(12113419\) ist kleiner als \(554363070\) (die führende \(0\) wird entfernt).

  • temp_0C.txt
  • temp_2C.txt
  • temp_-3C.txt
  • temp_10C.txt
  • temp_-12C.txt

Verglichen werden \(0\), \(2\), \(3\), \(10\), \(12\) – das „-“ wird nicht als Teil der Zahl gewertet.

Selbst „Alphabetisch“ ist nicht global eindeutig: Groß-/Kleinschreibung, Umlaute wie ä (Deutsch) oder Mehrzeichen-Buchstaben wie ch (Tschechisch) führen zu legitimen Varianten. „Rein alphabetisch“ ist also kontextabhängig. Der Windows-Explorer implementiert das in der Funktion StrCmpLogicalW. Während dessen Quellcode (shlwapi.dll) proprietär und nicht öffentlich ist, gibt es Reimplementierungen, beispielsweise von ReactOS:

{
    TRACE("%s, %s\n", wine_dbgstr_w(str), wine_dbgstr_w(comp));
 
    if (!str || !comp)
        return 0;
 
    while (*str)
    {
        if (!*comp)
            return 1;
        else if (*str >= '0' && *str <= '9')
        {
            int str_value, comp_value;
 
            if (*comp < '0' || *comp > '9')
                return -1;
 
            /* Compare the numbers */
            StrToIntExW(str, 0, &str_value);
            StrToIntExW(comp, 0, &comp_value);
 
            if (str_value < comp_value)
                return -1;
            else if (str_value > comp_value)
                return 1;
 
            /* Skip */
            while (*str >= '0' && *str <= '9') str++;
            while (*comp >= '0' && *comp <= '9') comp++;
        }
        else if (*comp >= '0' && *comp <= '9')
            return 1;
        else
        {
            int diff = ChrCmpIW(*str, *comp);
            if (diff > 0)
                return 1;
            else if (diff < 0)
                return -1;
 
            str++;
            comp++;
        }
    }
 
    if (*comp)
      return -1;
 
    return 0;
}

Google Drive, OneDrive, KDE und co. zeigen ein ähnliches Sortierverhalten. CLI-Tools wie ls und find sortieren hingegen anders als GUI-Dateimanager. Semantik steckt in den Dateinamen, nicht in der API. Wer Ergebnisse ohne Überraschungen will, definiert Konventionen: Konsistente Trennzeichen, gepaddete Zahlen und ein klarer Umgang mit Einheiten. Dann wird „alphabetisch“ wieder berechenbar.

Zurück