Confusione nell'ordine di smistamento naturale

La maggior parte dei file manager grafici non esegue l'ordinamento rigorosamente lessicografico, ma utilizza piuttosto l'ordinamento "naturale". I blocchi di numeri nei nomi vengono interpretati come numeri: il blocco di numeri più grande vince, anche se il contrario sarebbe vero in ordine alfabetico. L'idea alla base dell'ordinamento naturale: ciò che le persone solitamente desiderano è "9 prima del 10", "Capitolo 2 prima del Capitolo 10", senza dover aggiungere zeri iniziali.


Le seguenti coppie di file sono ordinate naturalmente in ordine crescente come segue:

  • build-9e2.log
  • build-950.log

Incredibile, ma spiegabile: la prima cifra \(9\) è più piccola del primo blocco di cifre \(950\) .

  • IMG_12113419_90.jpg
  • IMG_0554363070_90.jpg

Il numero \(12113419\) è minore di \(554363070\) (lo \(0\) iniziale è stato rimosso).

  • temp_0C.txt
  • temp_2C.txt
  • temp_-3C.txt
  • temp_10C.txt
  • temp_-12C.txt

I numeri confrontati sono \(0\) , \(2\) , \(3\) , \(10\) , \(12\) – il “-” non è considerato parte del numero.

Anche "alfabetico" non è globalmente univoco: l'uso delle maiuscole, delle dieresi come ä (tedesco) o delle lettere multicarattere come ch (ceco) danno origine a varianti legittime. "Pure alfabetico" è quindi dipendente dal contesto. Esplora risorse di Windows implementa questa funzionalità nella funzione StrCmpLogicalW . Sebbene il suo codice sorgente (shlwapi.dll) sia proprietario e non pubblico, esistono reimplementazioni, ad esempio, da ReactOS.:

{
    TRACE("%s, %s\n", wine_dbgstr_w(str), wine_dbgstr_w(comp));
 
    if (!str || !comp)
        return 0;
 
    while (*str)
    {
        if (!*comp)
            return 1;
        else if (*str >= '0' && *str <= '9')
        {
            int str_value, comp_value;
 
            if (*comp < '0' || *comp > '9')
                return -1;
 
            /* Compare the numbers */
            StrToIntExW(str, 0, &str_value);
            StrToIntExW(comp, 0, &comp_value);
 
            if (str_value < comp_value)
                return -1;
            else if (str_value > comp_value)
                return 1;
 
            /* Skip */
            while (*str >= '0' && *str <= '9') str++;
            while (*comp >= '0' && *comp <= '9') comp++;
        }
        else if (*comp >= '0' && *comp <= '9')
            return 1;
        else
        {
            int diff = ChrCmpIW(*str, *comp);
            if (diff > 0)
                return 1;
            else if (diff < 0)
                return -1;
 
            str++;
            comp++;
        }
    }
 
    if (*comp)
      return -1;
 
    return 0;
}

Google Drive, OneDrive, KDE e altri mostrano un comportamento di ordinamento simile. Strumenti CLI come ls e find Tuttavia, ordinano in modo diverso rispetto ai file manager con interfaccia grafica. La semantica risiede nei nomi dei file, non nell'API. Se si desiderano risultati senza sorprese, è necessario definire delle convenzioni: separatori coerenti, numeri riempiti e gestione chiara delle unità. In questo modo, l'ordinamento "alfabetico" torna ad essere prevedibile.

Indietro