Большинство графических файловых менеджеров не сортируют строго лексикографически, а используют «естественную» сортировку. Блоки цифр в именах интерпретируются как числа — выигрывает больший блок цифр, даже если в алфавитном порядке всё было бы наоборот. Идея естественной сортировки: обычно пользователи хотят, чтобы «9 перед 10», «Глава 2 перед главой 10» — без добавления начальных нулей.
Следующие пары файлов естественным образом сортируются в порядке возрастания следующим образом::
build-9e2.logbuild-950.log
Удивительно, но объяснимо: первая цифра \(9\) меньше первого блока цифр \(950\) .
IMG_12113419_90.jpgIMG_0554363070_90.jpg
Число \(12113419\) меньше, чем \(554363070\) (начальный \(0\) удален).
temp_0C.txttemp_2C.txttemp_-3C.txttemp_10C.txttemp_-12C.txt
Сравниваемые числа: \(0\) , \(2\) , \(3\) , \(10\) , \(12\) – знак «-» не считается частью числа.
Даже «алфавитный» не является однозначно глобально: заглавные буквы, умлауты, например, ä (немецкий), или многосимвольные буквы, например, ch (чешский), приводят к допустимым вариантам. Таким образом, «чисто алфавитный» вариант зависит от контекста. Проводник Windows реализует это в функции StrCmpLogicalW . Хотя её исходный код (shlwapi.dll) является проприетарным и не является общедоступным, существуют реализации, например, в ReactOS.:
{
TRACE("%s, %s\n", wine_dbgstr_w(str), wine_dbgstr_w(comp));
if (!str || !comp)
return 0;
while (*str)
{
if (!*comp)
return 1;
else if (*str >= '0' && *str <= '9')
{
int str_value, comp_value;
if (*comp < '0' || *comp > '9')
return -1;
/* Compare the numbers */
StrToIntExW(str, 0, &str_value);
StrToIntExW(comp, 0, &comp_value);
if (str_value < comp_value)
return -1;
else if (str_value > comp_value)
return 1;
/* Skip */
while (*str >= '0' && *str <= '9') str++;
while (*comp >= '0' && *comp <= '9') comp++;
}
else if (*comp >= '0' && *comp <= '9')
return 1;
else
{
int diff = ChrCmpIW(*str, *comp);
if (diff > 0)
return 1;
else if (diff < 0)
return -1;
str++;
comp++;
}
}
if (*comp)
return -1;
return 0;
}
Google Drive, OneDrive, KDE и другие приложения демонстрируют схожий алгоритм сортировки. Инструменты командной строки, такие как ls а также find Однако они сортируют данные иначе, чем графические файловые менеджеры. Семантика заложена в именах файлов, а не в API. Если вы хотите получить результаты без сюрпризов, определите соглашения: единообразные разделители, дополнения и понятную обработку единиц. Тогда «алфавитный» порядок снова станет предсказуемым.