Obliczanie wskaźnika widzialności SISTRIX

Wraz z Xovi, narzędzie SISTRIX jest najczęściej używanym programem analitycznym w Niemczech w obszarze SEO. Indeks widoczności stał się quasi-standardem widoczności strony w wyszukiwarce Google. Parametry, które są uwzględniane w jego obliczeniach, są na przykład wyjaśnione tutaj i tutaj i tutaj i tutaj i tutaj , ale dokładna formuła obliczeniowa nie jest oficjalnie publikowana. Poniżej znajdują się wyniki moich sześciomiesięcznych osobistych badań, które nie twierdzą, że są kompletne ani poprawne.


Z

  • \(A_l\): Zestaw słów kluczowych SISTRIX (posortowana ilość ściśle określonych słów kluczowych dla konkretnego kraju, zestaw zawiera stałą – w oparciu o ruch w oparciu o średnią z 12 miesięcy – oraz mniejszą, zmienną proporcję)
  • \(\vert A_l \vert\) : Grubość \(A_l\) z \(A_l\) \(\vert A_{DE} \vert = 1.000.000\) (stan: 01.10.2021)
  • \(k \in A_l\): Słowo kluczowe wyłączone \(A_l\)
  • \(u\): URL (interpretowany jako domena, subdomena, katalog, indywidualny adres URL, w zależności od formatu)
  • \(r_{uklgt}\) : Ranking adresu URL \(u\) w organicznych wynikach wyszukiwania wyszukiwarki Google dla słowa kluczowego \(k\) w kraju \(l\) na typ urządzenia \(g\) w czasie \(t\)
  • \(s_{klgt}\) : Liczba wyszukiwań (średnia liczba wyszukiwań miesięcznie z danymi z SISTRIX, nie z Google Keyword Planner , ale według naszego własnego oświadczenia, zgromadzona od kilkunastu głównie zewnętrznych sprzedawców danych) dla słowa kluczowego \(k\) im Kraj \(l\) na typie urządzenia \(g\) w czasie \(t\)
  • \(c_{uklgt}\) : Szacunkowe kliknięcia adresu URL \(u\) dla słowa kluczowego \(k\) w kraju \(l\) na typie urządzenia \(g\) w czasie \(t\)
  • \(l \in L=\{DE;...;JP\}\) : Kraj z \(\vert L \vert=30\) (stan na: 01.06.2021)
  • \(g\in\{D;M\}\): Typ urządzenia (komputer stacjonarny/mobilny)
  • \(t\): Czas (data o godzinie 00:00:00)
  • \(S_{ulgt}\) : Indeks widoczności SISTRIX adresu URL \(u\) kraju \(l\) na typ urządzenia \(g\) w czasie \(t\)
  • \(W_S = \, \mathbb{Q}^{+}_{0}\) wartości \(W_S = \, \mathbb{Q}^{+}_{0}\)

ma zastosowanie

$$S_{ulgt} = \sum_{k=1}^{\vert A_l \vert} f(r_{uklgt}, c_{uklgt})$$

z

$$\begin{multline} \mathbb{N_0} \times \mathbb{Q}^{+}_{0} \to \, \mathbb{Q}^{+}_{0}, f(r, c) = ((1-\text{sgn}(r - 1)^2) \cdot ((1-\text{ceil}(0.5 \cdot \text{sgn}(c-34{,}4796))) \cdot 0{,}0194 + \\ (\text{ceil}(0.5 \cdot \text{sgn}(c-34{,}4796))) \cdot ((1+\text{floor}(0.5 \cdot \text{sgn}(c-378{,}325))) \cdot 0{,}125 - \\ (\text{floor}(0.5 \cdot \text{sgn}(c-378{,}325))) \cdot (0{,}0004 \cdot c + 0{,}0119)))) + (\text{sgn}(r-1)^2 \cdot \\ ((1-\text{sgn}(r - 2)^2) \cdot ((1-\text{ceil}(0.5 \cdot \text{sgn}(c-17{,}418))) \cdot 0{,}0136 + \\ (\text{ceil}(0.5 \cdot \text{sgn}(c-17{,}418))) \cdot ((1+\text{floor}(0.5 \cdot \text{sgn}(c-230{,}6839))) \cdot 0{,}125 - \\ (\text{floor}(0.5 \cdot \text{sgn}(c-230{,}6839))) \cdot (0{,}0006 \cdot c + 0{,}0035)))) + (\text{sgn}(r-2)^2 \cdot \\ ((1-\text{sgn}(r - 3)^2) \cdot ((1-\text{ceil}(0.5 \cdot \text{sgn}(c-11{,}0236))) \cdot 0{,}0098 + \\ (\text{ceil}(0.5 \cdot \text{sgn}(c-11{,}0236))) \cdot ((1+\text{floor}(0.5 \cdot \text{sgn}(c-231{,}3121))) \cdot 0{,}125 - \\ (\text{floor}(0.5 \cdot \text{sgn}(c-231{,}3121))) \cdot (0{,}0006 \cdot c + 0{,}0025)))) + (\text{sgn}(r-3)^2 \cdot \\ ((1-\text{sgn}(r - 4)^2) \cdot ((1-\text{ceil}(0.5 \cdot \text{sgn}(c-8{,}8619))) \cdot 0{,}0077 + \\ (\text{ceil}(0.5 \cdot \text{sgn}(c-8{,}8619))) \cdot ((1+\text{floor}(0.5 \cdot \text{sgn}(c-219{,}6195))) \cdot 0{,}125 - \\ (\text{floor}(0.5 \cdot \text{sgn}(c-219{,}6195))) \cdot (0{,}0006 \cdot c + 0{,}002)))) + (\text{sgn}(r-4)^2 \cdot \\ ((1-\text{sgn}(r - 5)^2) \cdot ((1-\text{ceil}(0.5 \cdot \text{sgn}(c-8{,}0684))) \cdot 0{,}0068 + \\ (\text{ceil}(0.5 \cdot \text{sgn}(c-8{,}0684))) \cdot ((1+\text{floor}(0.5 \cdot \text{sgn}(c-249{,}3706))) \cdot 0{,}125 - \\ (\text{floor}(0.5 \cdot \text{sgn}(c-249{,}3706))) \cdot (0{,}0006 \cdot c + 0{,}0017)))) + (\text{sgn}(r-5)^2 \cdot \\ ((1-\text{sgn}(r - 6)^2) \cdot ((1-\text{ceil}(0.5 \cdot \text{sgn}(c-5{,}357))) \cdot 0{,}0058 + \\ (\text{ceil}(0.5 \cdot \text{sgn}(c-5{,}357))) \cdot ((1+\text{floor}(0.5 \cdot \text{sgn}(c-133{,}2103))) \cdot 0{,}1011 - \\ (\text{floor}(0.5 \cdot \text{sgn}(c-133{,}2103))) \cdot (0{,}0007 \cdot c + 0{,}0015)))) + (\text{sgn}(r-6)^2 \cdot \\ ((1-\text{sgn}(r - 7)^2) \cdot ((1-\text{ceil}(0.5 \cdot \text{sgn}(c-4{,}3643))) \cdot 0{,}0049 + \\ (\text{ceil}(0.5 \cdot \text{sgn}(c-4{,}3643))) \cdot ((1+\text{floor}(0.5 \cdot \text{sgn}(c-90{,}3704))) \cdot 0{,}0727 - \\ (\text{floor}(0.5 \cdot \text{sgn}(c-90{,}3704))) \cdot (0{,}0008 \cdot c + 0{,}0013)))) + (\text{sgn}(r-7)^2 \cdot \\ ((1-\text{sgn}(r - 8)^2) \cdot ((1-\text{ceil}(0.5 \cdot \text{sgn}(c-3{,}3292))) \cdot 0{,}0039 + \\ (\text{ceil}(0.5 \cdot \text{sgn}(c-3{,}3292))) \cdot ((1+\text{floor}(0.5 \cdot \text{sgn}(c-87{,}6123))) \cdot 0{,}0706 - \\ (\text{floor}(0.5 \cdot \text{sgn}(c-87{,}6123))) \cdot (0{,}0008 \cdot c + 0{,}0011)))) + (\text{sgn}(r-8)^2 \cdot \\ ((1-\text{sgn}(r - 9)^2) \cdot ((1-\text{ceil}(0.5 \cdot \text{sgn}(c-2{,}944))) \cdot 0{,}0029 + \\ (\text{ceil}(0.5 \cdot \text{sgn}(c-2{,}944))) \cdot ((1+\text{floor}(0.5 \cdot \text{sgn}(c-75{,}6014))) \cdot 0{,}0515 - \\ (\text{floor}(0.5 \cdot \text{sgn}(c-75{,}6014))) \cdot (0{,}0007 \cdot c + 0{,}0012)))) + (\text{sgn}(r-9)^2 \cdot \\ ((1-\text{sgn}(r - 10)^2) \cdot ((1-\text{ceil}(0.5 \cdot \text{sgn}(c-2{,}4797))) \cdot 0{,}0019 + \\ (\text{ceil}(0.5 \cdot \text{sgn}(c-2{,}4797))) \cdot ((1+\text{floor}(0.5 \cdot \text{sgn}(c-36{,}7911))) \cdot 0{,}0199 - \\ (\text{floor}(0.5 \cdot \text{sgn}(c-36{,}7911))) \cdot (0{,}0005 \cdot c + 0{,}0005)))) + (\text{sgn}(r-10)^2 \cdot 0)))))))))) \end{multline}$$

Ta formuła została uzyskana głównie poprzez inżynierię wsteczną, głównie z pomocą oficjalnego SISTRIX A PI . Podstawowa idea brzmiała: Zredukować problem do prostych przykładów (znajdź adresy URL z pozytywnym indeksem widoczności za pomocą tylko jednego/dwóch/trzech/… słów kluczowych), a następnie spróbuj odtworzyć bardziej złożone przypadki.

Właściwości wskaźnika widoczności:

  • W indeksie widoczności uwzględniane są tylko słowa kluczowe „stałego zestawu słów kluczowych” składającego się z 1 000 000 słów kluczowych, a nie słowa kluczowe stale powiększającej się „kompletnej bazy danych” (dostosowującej się do aktualnych wydarzeń i okoliczności), która obecnie liczy 100 000 000 słów kluczowych (stan na październik 1, 2021). Odpowiednie grupy słów kluczowych można łatwo filtrować, wybierając wartość w polu „Data” lub ustawiając wartość rozszerzoną na 0 w interfejsie API. Dane standardowe lub dane historyczne są stałe i są zbierane co tydzień od 2008 roku, teraz codziennie.
  • Działania AMP nie są uwzględniane w indeksie widoczności.
  • Wskazane jest rozpoczęcie od analizy w niedawno utworzonych krajach, takich jak Rumunia, Chorwacja, Słowenia i Bułgaria lub stworzenie własnego indeksu widoczności . Powodem tego jest to, że SISTRIX niesie ze sobą „balast historyczny” w krajach takich jak Niemcy, co oznacza, że ​​słowa kluczowe, którym kiedyś przypisywano wyższą wagę, są obecnie używane nawet częściej niż można by się spodziewać, pomimo (również od dłuższego czasu) ) mała liczba wyszukiwań. Według poparcia całość powinna być stopniowo dostosowywana i nie jest już widoczna w dłuższej perspektywie.
  • Wbrew moim pierwotnym założeniom, liczba wyszukiwań odgrywa jedynie pośrednią rolę we wskaźniku widoczności. Zamiast tego kluczowe są oczekiwane kliknięcia. Związek między liczbą wyszukiwań a szacowanymi kliknięciami opiera się głównie na szacowanej intencji wyszukiwania , która jest również wskazana. Sam SISTRIX wyraźnie na to wskazuje .
  • Oczekiwane kliknięcia są czynnikiem napędzającym wskaźnik widoczności. Ich wpływ jest ograniczony w górę i w dół, dzięki czemu wskaźnik widoczności zawsze przebiega między górną i dolną granicą oraz liniowo między nimi.
  • Dostęp do kliknięć nie jest możliwy za pośrednictwem oficjalnego interfejsu API, a jedynie przez interfejs sieciowy lub ręczny eksport do pliku CSV. W obu przypadkach wartości są zaokrąglone, ale DOM widoku „Słowa kluczowe” zawiera również wartości oryginalne:
Oprócz wartości zaokrąglonych możesz również znaleźć wartości surowe.

Poniższa formuła może być również używana w Excelu lub Arkuszach Google; Oblicza indeks widoczności dla arkusza, w którym każdy wiersz zawiera słowo kluczowe z jego pozycją w kolumnie A i oczekiwanymi kliknięciami w kolumnie B.:

=SUMME(WENN(A1:A999999=1;WENN(B1:B999999=378,32500379436;0,125;(0,00037306471297181*B1:B999999+0,011944496557952))); WENN(A1:A999999=2;WENN(B1:B999999=230,68394113271;0,125;(0,00055449577110866*B1:B999999+0,0035350976909409))); WENN(A1:A999999=3;WENN(B1:B999999=231,31214231278;0,125;(0,00059715499256153*B1:B999999+0,0025455442270028))); WENN(A1:A999999=4;WENN(B1:B999999=219,61948739302;0,125;(0,00063710437878404*B1:B999999+0,0020405503130787))); WENN(A1:A999999=5;WENN(B1:B999999=249,37064996217;0,125;(0,00058906284391034*B1:B999999+0,0017391721053351))); WENN(A1:A999999=6;WENN(B1:B999999=133,21031841331;0,1011;(0,00074744619531311*B1:B999999+0,0015021940435474))); WENN(A1:A999999=7;WENN(B1:B999999=90,370431493381;0,0727;(0,00078977592541601*B1:B999999+0,0012962057526498))); WENN(A1:A999999=8;WENN(B1:B999999=87,612293584114;0,0706;(0,00079399080394233*B1:B999999+0,0010648385910406))); WENN(A1:A999999=9;WENN(B1:B999999=75,601377547472;0,0515;(0,00066458507066795*B1:B999999+0,0011972721128791))); WENN(A1:A999999=10;WENN(B1:B999999=36,79114711734;0,0199;(0,00052397754322654*B1:B999999+0,00053850952142599))); 0)))))))))))

Pozwala to na uzyskanie następujących wyników::

KrajUrządzenieData\(S_{echt}\)\(S_{berechnet}\)\(\Delta\)\(\Delta_{\%}\)URL / katalog
SIM.29.10.21\( 0{,}1348 \)\( 0{,}1348 \)\( 0{,}0000 \)\( 0{,}00% \)https://support.google.com/youtube/?hl=sl
SIM.29.10.21\( 0{,}2156 \)\( 0{,}2155 \)\( 0{,}0001 \)\( 0{,}05% \)https://Me.twitter.com/youtube
SIM.29.10.21\( 0{,}3746 \)\( 0{,}3740 \)\( 0{,}0006 \)\( 0{,}16% \)https://sl.m.wikipedia.org/wiki/YouTube
SIM.29.10.21\( 0{,}6771 \)\( 0{,}6760 \)\( 0{,}0011 \)\( 0{,}16% \)https://m.facebook.com/youtube/
SIM.29.10.21\( 0{,}6836 \)\( 0{,}6830 \)\( 0{,}0006 \)\( 0{,}09% \)https://x2convert.com/en117/download-youtube-to-mp3-music
SIM.29.10.21\( 0{,}7636 \)\( 0{,}7555 \)\( 0{,}0081 \)\( 1{,}06% \)https://www.youtubekids.com/
SIM.29.10.21\( 0{,}8749 \)\( 0{,}8730 \)\( 0{,}0019 \)\( 0{,}22% \)https://www.4kdownload.com/products/youtubetomp3/6
SIM.29.10.21\( 4{,}0020 \)\( 3{,}9980 \)\( 0{,}0040 \)\( 0{,}10% \)https://ytmp3.cc/en23/
SIM.29.10.21\( 8{,}0520 \)\( 8{,}0520 \)\( 0{,}0000 \)\( 0{,}00% \)https://support.google.com/youtube/
SIM.29.10.21\( 11{,}6600 \)\( 11{,}6100 \)\( 0{,}0500 \)\( 0{,}43% \)https://m.facebook.com/events/
SIM.29.10.21\( 19{,}7000 \)\( 19{,}6890 \)\( 0{,}0110 \)\( 0{,}06% \)https://minecraft.fandom.com/wiki/
SIM.29.10.21\( 32{,}5900 \)\( 32{,}5890 \)\( 0{,}0010 \)\( 0{,}00% \)https://hr.m.wikipedia.org/wiki/
ROM.29.10.21\( 0{,}1516 \)\( 0{,}1516 \)\( 0{,}0000 \)\( 0{,}00% \)https://lol.fandom.com/wiki/LCK/2021_Season/Summer_Season
PANM.29.10.21\( 0{,}2191 \)\( 0{,}2190 \)\( 0{,}0000 \)\( 0{,}00% \)https://starwars.fandom.com/wiki/Mandalorian
BGM.03.11.21\( 0{,}3703 \)\( 0{,}3702 \)\( 0{,}0001 \)\( 0{,}03% \)https://leagueoflegends.fandom.com/wiki/List_of_champions

Różnica między wartościami rzeczywistymi a obliczonymi jest spowodowana błędami zaokrągleń oraz ograniczonym zbiorem danych, na którym opiera się uczenie modelu. Powyższe stwierdzenia mogą służyć jako podstawa do dalszego doprecyzowania formuły i np. obliczenia relacji między liczbą wyszukiwań a oczekiwanymi kliknięciami. Jeśli są Państwo zainteresowani skryptami, które powstały podczas moich badań, zapraszam do kontaktu .

Plecy