自然なソート順序の混乱

ほとんどのグラフィカルファイルマネージャーは、厳密に辞書式にソートするのではなく、「自然」ソートを使用します。名前に含まれる数字のブロックは数字として解釈され、アルファベット順では逆であっても、数字のブロックが大きい方が優先されます。自然ソートの考え方は、通常、先頭にゼロを付ける必要がない「9が10より前」、「第2章が第10章より前」といった並び順が望ましいということです。


以下のファイルペアは、次のように自然に昇順でソートされます。:

  • build-9e2.log
  • build-950.log

驚くべきことですが、説明可能です。最初の数字\(9\)最初の数字ブロック\(950\)よりも小さいのです。

  • IMG_12113419_90.jpg
  • IMG_0554363070_90.jpg

数値\(12113419\) \(554363070\)より小さいです (先頭の\(0\)は削除されます)。

  • temp_0C.txt
  • temp_2C.txt
  • temp_-3C.txt
  • temp_10C.txt
  • temp_-12C.txt

比較される数字は\(0\)\(2\)\(3\)\(10\)\(12\)です。「-」は数字の一部とはみなされません。

「アルファベット順」であっても、必ずしも一義的ではありません。大文字、ä(ドイツ語)のようなウムラウト、ch(チェコ語)のような複数文字の組み合わせは、様々なバリエーションを生み出します。したがって、「純粋にアルファベット順」とは文脈に依存します。Windowsエクスプローラーは、 StrCmpLogicalW関数でこれを実装しています。そのソースコード(shlwapi.dll)は独自のものであり非公開ですが、 ReactOSなどからの再実装が存在します。:

{
    TRACE("%s, %s\n", wine_dbgstr_w(str), wine_dbgstr_w(comp));
 
    if (!str || !comp)
        return 0;
 
    while (*str)
    {
        if (!*comp)
            return 1;
        else if (*str >= '0' && *str <= '9')
        {
            int str_value, comp_value;
 
            if (*comp < '0' || *comp > '9')
                return -1;
 
            /* Compare the numbers */
            StrToIntExW(str, 0, &str_value);
            StrToIntExW(comp, 0, &comp_value);
 
            if (str_value < comp_value)
                return -1;
            else if (str_value > comp_value)
                return 1;
 
            /* Skip */
            while (*str >= '0' && *str <= '9') str++;
            while (*comp >= '0' && *comp <= '9') comp++;
        }
        else if (*comp >= '0' && *comp <= '9')
            return 1;
        else
        {
            int diff = ChrCmpIW(*str, *comp);
            if (diff > 0)
                return 1;
            else if (diff < 0)
                return -1;
 
            str++;
            comp++;
        }
    }
 
    if (*comp)
      return -1;
 
    return 0;
}

Google Drive、OneDrive、KDEなどでも同様の並び替え動作が見られます。CLIツールでは、 lsfind ただし、GUIファイルマネージャとはソート方法が異なります。意味はファイル名にあり、APIには存在しません。予期せぬ結果を避けたい場合は、一貫性のある区切り文字、パディングされた数値、明確な単位の扱いといった規則を定義してください。そうすれば、「アルファベット順」は再び予測可能になります。

バック