Բնական տեսակավորման կարգի խառնաշփոթ

Գրաֆիկական ֆայլերի կառավարիչների մեծ մասը չի տեսակավորում խիստ բառագիտական եղանակով, այլ օգտագործում է «բնական» տեսակավորում: Անուններում թվերի բլոկները մեկնաբանվում են որպես թվեր. թվերի ավելի մեծ բլոկը հաղթում է, նույնիսկ եթե հակառակը ճիշտ կլինի այբբենական կարգով: Բնական տեսակավորման գաղափարը. մարդիկ սովորաբար ցանկանում են «9-ը 10-ից առաջ», «Գլուխ 2-ը 10-ից առաջ»՝ առանց սկզբնական զրոներ ավելացնելու անհրաժեշտության:


Հետևյալ ֆայլերի զույգերը բնականաբար դասավորված են աճման կարգով՝ հետևյալ կերպ:

  • build-9e2.log
  • build-950.log

Զարմանալի է, բայց բացատրելի. առաջին թվանշանը \(9\) փոքր է թվանշանների առաջին բլոկից \(950\) :

  • IMG_12113419_90.jpg
  • IMG_0554363070_90.jpg

\(12113419\) թիվը փոքր է \(554363070\) ից (առաջին \(0\) թիվը հեռացված է):

  • temp_0C.txt
  • temp_2C.txt
  • temp_-3C.txt
  • temp_10C.txt
  • temp_-12C.txt

Համեմատվող թվերն են \(0\) , \(2\) , \(3\) , \(10\) , \(12\) «-»-ը թվի մաս չի համարվում։

Նույնիսկ «այբբենականը» գլոբալ առումով միանշանակ չէ. մեծատառերի օգտագործումը, umlaut-ները, ինչպես օրինակ՝ ä (գերմաներեն), կամ բազմանիշ տառերը, ինչպես օրինակ՝ ch (չեխերեն), հանգեցնում են օրինական տարբերակների: Հետևաբար, «մաքուր այբբենականը» կախված է համատեքստից: Windows Explorer-ը սա իրականացնում է StrCmpLogicalW ֆունկցիայում: Չնայած դրա սկզբնական կոդը (shlwapi.dll) սեփականատիրական է և հանրային չէ, կան վերաիրականացումներ, օրինակ՝ ReactOS-ից::

{
    TRACE("%s, %s\n", wine_dbgstr_w(str), wine_dbgstr_w(comp));
 
    if (!str || !comp)
        return 0;
 
    while (*str)
    {
        if (!*comp)
            return 1;
        else if (*str >= '0' && *str <= '9')
        {
            int str_value, comp_value;
 
            if (*comp < '0' || *comp > '9')
                return -1;
 
            /* Compare the numbers */
            StrToIntExW(str, 0, &str_value);
            StrToIntExW(comp, 0, &comp_value);
 
            if (str_value < comp_value)
                return -1;
            else if (str_value > comp_value)
                return 1;
 
            /* Skip */
            while (*str >= '0' && *str <= '9') str++;
            while (*comp >= '0' && *comp <= '9') comp++;
        }
        else if (*comp >= '0' && *comp <= '9')
            return 1;
        else
        {
            int diff = ChrCmpIW(*str, *comp);
            if (diff > 0)
                return 1;
            else if (diff < 0)
                return -1;
 
            str++;
            comp++;
        }
    }
 
    if (*comp)
      return -1;
 
    return 0;
}

Google Drive-ը, OneDrive-ը, KDE-ն և մյուսները ցուցաբերում են նմանատիպ տեսակավորման վարքագիծ: CLI գործիքները, ինչպիսիք են՝ ls և find Սակայն դրանք տեսակավորում են տարբեր կերպ, քան GUI ֆայլերի կառավարիչները։ Սեմանտիկան ֆայլերի անունների մեջ է, այլ ոչ թե API-ի։ Եթե ցանկանում եք արդյունքներ առանց անակնկալների, սահմանեք կոնվենցիաներ՝ հետևողական բաժանիչներ, լրացված թվեր և միավորների հստակ մշակում։ Այդ դեպքում «այբբենականը» կրկին կանխատեսելի է դառնում։

Վերադառնալ