Setki potencjalnych klientów szukają dokładnie tego, co oferujesz, ale po prostu Cię nie widzą. Aż do momentu, gdy włączysz Senuto i odkryjesz, jak trafić do nich z precyzją. Z nami zyskasz przewagę w sieci!
Zaoszczędź od 4 do 6 miesięcy:
Dołącz do firm, które podejmują decyzje oparte na danych.
Badanie Machine Learning na próbie 29 514 stron
Przygotowując się do długo już zapowiadanego Festiwalu SEO w październiku tego roku, w ostatniej chwili zmieniłem temat prezentacji na ten dotyczący badania cytowań w odpowiedzi Google Overviews (AIO). To był początek wielogodzinnych, a później wielodniowych przygotowań do niniejszej analizy.
🏆 Moja prezentacja na Festiwalu SEO zajęła pierwsze miejsce, z bardzo wysoką średnią ocen. Do analizy tego, jakie treści są cytowane przez AIO, użyłem inżynierii wstecznej - analizując czynniki mające zwiększać prawdopodobieństwo tych cytowań.
Powtórka tego badania, tylko na znacznie większej ilości danych oraz na dużo większej ilości czynników, dała podobne wnioski, choć różniące się wpływem na obecność w AIO.
W pierwszym badaniu jako główny parametr różnicy między czynnikami zastosowałem separation score, który w dużej mierze opierał się tylko na uśrednionej wartości pomiędzy stronami cytowanymi a niecytowanymi.
W niniejszym raporcie wyniki są bardziej realne, bo oprócz różnicy uwzględniamy też miarę rozproszenia, kumulując wartości w tzw. Cohen's d.
Co to jest Cohen's d?
Odpowiada na pytanie: Czy różnica między grupami jest naprawdę znacząca, czy to tylko przypadek?
Nie patrzy tylko na średnie, ale też na rozrzut!
Cohen's d = Różnica średnich / Rozproszenie danych
Do porównywania brałem pod uwagę strony cytowane przez AIO oraz niecytowane strony z top10 wyników wyszukiwania - odpowiadające słowu kluczowemu (na jakie pojawia się ta odpowiedź AIO).
Zdecydowana większość stron w top10 jest bardzo dobrze zoptymalizowana pod SEO - to są technicznie i contentowo bardzo dobrze dopracowane strony.
Dlatego formułując wnioski, warto brać pod uwagę wartości średnie obu grup (Cited i Not cited), bo w porównaniu ze stronami spoza top10, te wartości mogą robić różnicę (a robią jednocześnie w SEO i w AIO).
Żaden typ danych strukturalnych, które na pierwszy rzut oka są najprostsze do znalezienia w kodzie strony, nie ma znaczenia dla obecności w AIO.
Koniec i kropka!
⚠️ I na koniec - optymalizacja pod cytowanie w AIO wcale nie musi oznaczać sukcesu w SEO i znalezienia się w top10 (i odwrotnie). Najtrudniejsze w tym wszystkim będzie znalezienie złotego środka.
W ramach tego badania przeprowadziliśmy kompleksową analizę Machine Learning na próbie 29 514 stron z polskiej bazy danych Senuto. Celem było zidentyfikowanie kluczowych czynników, które zwiększają lub zmniejszają szanse na cytowanie strony w AI Overviews Google.
Badanie obejmowało 57 różnych czynników podzielonych na 6 kategorii:
| Kategoria | Liczba czynników | Opis i przykłady |
|---|---|---|
| 📋 META | 19 | Metadane techniczne: title, meta description, schema.org |
| 🔤 TEXT | 14 | Charakterystyka tekstu: długość, czytelność, sentyment |
| 🏗️ STRUCTURAL | 10 | Struktura HTML: nagłówki, paragrafy, listy |
| 🧠 SEMANTIC | 10 | Dopasowanie semantyczne: embeddingi, podobieństwo |
| 🚀 ADVANCED | 6 | Zaawansowane: n-gramy, encje, Information Gain |
Każdy czynnik został oceniony pod kątem siły i kierunku wpływu na szanse cytowania w AI Overviews.
W badaniu wykorzystaliśmy zaawansowane metody statystyczne do oceny wpływu każdego czynnika. Poniżej wyjaśniamy kluczowe metryki:
Cohen's d to standaryzowana miara różnicy między dwiema grupami (strony cytowane vs nie-cytowane).
d = (M₁ - M₂) / SDpooled
gdzie: M₁ = średnia dla CITED, M₂ = średnia dla NOT CITED, SDpooled = połączone odchylenie standardowe
Cohen's d mierzy wielkość różnicy w jednostkach odchylenia standardowego. Dzięki temu możemy porównywać czynniki o różnych skalach.
Interpretacja wartości:
Interpretacja znaku: d > 0 = czynnik pozytywny, d < 0 = czynnik negatywny
Pokazuje o ile procent różnią się wartości między grupami. Przykłady:
Średnie wartości danego czynnika dla stron cytowanych (CITED_Avg) i nie-cytowanych (NOTCITED_Avg).
W oryginalnych danych mamy 71,120 stron cytowanych vs 14,757 nie-cytowanych. Losowo wybieramy 14,757 stron z każdej grupy, tworząc zbalansowany dataset 50:50.
Badanie obejmuje wyłącznie mierzalne czynniki techniczne. NIE badamy jakości merytorycznej treści, autorytetu domeny ani wszystkich sygnałów Google. Wyniki pokazują korelacje, nie przyczynowość.
Poniżej znajdziesz szczegółowy opis każdego czynnika z naszego badania, podzielony na kategorie. Tabele zawierają nazwę, kod techniczny (feature), opis oraz wartość Cohen's d.
| Nazwa czynnika | Feature (kod) | Opis | Cohen's d | Typ |
|---|---|---|---|---|
| Kompletność fraz (N-grams) | completeness_score |
Procent 2-3 gramów z AIO znalezionych w treści strony. |
0.16
|
✅ Positive |
| Bezpośredniość odpowiedzi | answer_directness |
Jak szybko pada odpowiedź na pytanie (1.0 = w 1. zdaniu). |
-0.08
|
⚪ nan |
| Pokrycie Encji (Entity Overlap) | entity_overlap_score |
Procent encji z AIO znalezionych na stronie (spaCy NER). |
0.07
|
✅ Positive |
| Subiektywność (TextBlob) | subjectivity_score |
Czy tekst jest obiektywny (0) czy subiektywny (1). |
-0.06
|
⚪ nan |
| Unikalne Encje (Information Gain) | unique_entity_count |
Liczba encji na stronie, których nie ma w AIO. |
-0.03
|
⚪ nan |
| Nazwa czynnika | Feature (kod) | Opis | Cohen's d | Typ |
|---|---|---|---|---|
| Obecność Meta Description | has_meta_description |
Czy strona ma wypełniony meta description (1/0). |
1.30
|
✅ Positive |
| Liczba typów Schema | schema_types_count |
Liczba unikalnych @type w JSON-LD strony. |
-0.56
|
❌ Negative |
| Schema: Person (Autor) | has_schema_person |
Obecność Schema.org typu Person dla autora (1/0). |
-0.37
|
❌ Negative |
| Schema: Article | has_schema_article |
Obecność Schema.org typu Article/NewsArticle/BlogPosting (1/0). |
-0.34
|
❌ Negative |
| Cytowania/Bibliografia | has_citation_links |
Czy treść zawiera odnośniki do źródeł [1], [2] itp. (1/0). |
0.26
|
✅ Positive |
| Pozycja słowa kluczowego w tytule | keyword_in_title_position |
Indeks pierwszego wystąpienia keyworda w tytule (niżej = bliżej początku). |
0.25
|
✅ Positive |
| Schema: Product | has_schema_product |
Obecność Schema.org typu Product (1/0). |
-0.21
|
❌ Negative |
| Słowo kluczowe w domenie (EMD) | is_exact_match_domain |
Czy domena zawiera słowo kluczowe (1/0). |
-0.20
|
❌ Negative |
| Długość Meta Description | meta_desc_length |
Liczba znaków w meta description. |
-0.15
|
⚪ nan |
| Schema: FAQPage | has_schema_faq |
Obecność Schema.org typu FAQPage (1/0). |
-0.11
|
❌ Negative |
| Głębokość URL | url_depth |
Liczba segmentów ścieżki URL (ukośników). |
0.11
|
⚪ nan |
| Długość Title | title_length |
Liczba znaków w tagu <title>. |
0.07
|
⚪ nan |
| Długość URL | url_length |
Całkowita liczba znaków w adresie URL. |
-0.07
|
⚪ nan |
| Sekcja O Autorze | has_author_bio |
Czy w treści wykryto biogram autora (1/0). |
-0.05
|
⚪ nan |
| Jest Wikipedią | is_wikipedia |
Czy źródło to wikipedia.org (1/0). |
0.04
|
⚪ nan |
| Schema: HowTo | has_schema_howto |
Obecność Schema.org typu HowTo (1/0). |
-0.03
|
⚪ nan |
| Tytuł typu Ranking/Top | title_is_listicle |
Czy tytuł sugeruje listę/ranking (1/0). |
0.02
|
⚪ nan |
| Domena Autorytarna (.gov/.edu/.org) | is_authority_tld |
Czy domena to .gov, .edu lub .org (1/0). |
-0.01
|
⚪ nan |
| Nazwa czynnika | Feature (kod) | Opis | Cohen's d | Typ |
|---|---|---|---|---|
| Early Confirmation (Pierwszy akapit) | sem_sim_firstp_keyword |
Cosine similarity między pierwszym akapitem a słowem kluczowym. |
0.30
|
✅ Positive |
| Zgodność Meta Description z AIO | sem_sim_meta_aio |
Cosine similarity między meta description a odpowiedzią AI Overview. |
0.20
|
✅ Positive |
| Zgodność Tytułu z AIO | sem_sim_title_aio |
Cosine similarity między tytułem strony a odpowiedzią AI Overview. |
0.17
|
⚪ MUST HAVE |
| Podobieństwo treści do AIO | sem_sim_content_aio |
Cosine similarity między embeddingiem treści strony a odpowiedzią AI Overview. |
0.12
|
⚪ MUST HAVE |
| Dopasowanie treści do słowa kluczowego | sem_sim_content_keyword |
Cosine similarity między embeddingiem treści a słowem kluczowym. |
0.11
|
⚪ nan |
| Semantyka URL (Slug) | sem_sim_slug_keyword |
Cosine similarity między ścieżką URL a słowem kluczowym. |
0.10
|
⚪ nan |
| Pokrycie struktury nagłówków vs AIO | sem_sim_headings_aio |
Cosine similarity między wszystkimi nagłówkami H2/H3 a odpowiedzią AI Overview. |
-0.05
|
⚪ nan |
| Nasycenie Meta Description słowem kluczowym | sem_sim_meta_keyword |
Cosine similarity między meta description a słowem kluczowym. |
0.05
|
⚪ nan |
| Dopasowanie Tytułu do słowa kluczowego | sem_sim_title_keyword |
Cosine similarity między tytułem a słowem kluczowym. |
-0.03
|
⚪ nan |
| Dopasowanie H1 do słowa kluczowego | sem_sim_h1_keyword |
Cosine similarity między nagłówkiem H1 a słowem kluczowym. |
-0.01
|
⚪ nan |
| Nazwa czynnika | Feature (kod) | Opis | Cohen's d | Typ |
|---|---|---|---|---|
| Liczba paragrafów | count_paragraphs |
Zliczenie tagów <p> - podział tekstu na bloki. |
-0.23
|
❌ Negative |
| Stosunek Treści do Kodu | content_html_ratio |
Proporcja czystego tekstu do całkowitego rozmiaru HTML. |
-0.14
|
✅ Positive |
| Liczba nagłówków H3 | count_h3 |
Zliczenie tagów H3 - podsekcje artykułu. |
-0.11
|
❌ Negative |
| Liczba nagłówków H1 | count_h1 |
Zliczenie tagów H1 (powinien być jeden). |
0.10
|
⚪ nan |
| Rozmiar pobranych danych | html_size_bytes |
Całkowita liczba znaków w content_html (proxy dla wagi strony). |
-0.10
|
❌ Negative |
| Obecność spisu treści | has_toc |
Czy strona zawiera Table of Contents (1/0). |
-0.07
|
❌ Negative |
| Liczba nagłówków H2 | count_h2 |
Zliczenie tagów H2 - główne sekcje artykułu. |
-0.07
|
⚪ nan |
| Liczba pogrubień | count_bold_tags |
Zliczenie tagów <b> i <strong> - wyróżnienia w tekście. |
0.02
|
⚪ nan |
| Hierarchia nagłówków (H2/H3) | h2_to_h3_ratio |
Stosunek liczby H2 do H3 - płaska vs zagnieżdżona struktura. |
-0.02
|
⚪ nan |
| Słowa kluczowe w pogrubieniach | keyword_in_bold_count |
Liczba wystąpień frazy kluczowej w pogrubionym tekście. |
0.00
|
⚪ nan |
| Nazwa czynnika | Feature (kod) | Opis | Cohen's d | Typ |
|---|---|---|---|---|
| Średnia długość słowa | avg_word_length |
Przeciętna liczba znaków w słowie. |
-0.12
|
⚪ nan |
| Subiektywność tekstu | sentiment_subjectivity |
Czy tekst jest obiektywny (0) czy subiektywny/opiniotwórczy (1). |
-0.12
|
❌ Negative |
| Liczba słów | word_count |
Całkowita liczba słów w treści artykułu. |
-0.11
|
❌ Negative |
| Pytania w nagłówkach | count_questions_in_headings |
Liczba nagłówków sformułowanych jako pytania. |
-0.07
|
❌ Negative |
| Bogactwo słownictwa (TTR) | lexical_diversity |
Type-Token Ratio - unikalne słowa / wszystkie słowa. |
-0.07
|
⚪ nan |
| Sentyment (Polaryzacja) | sentiment_polarity |
Emocjonalny wydźwięk tekstu (-1 negatywny do +1 pozytywny). |
-0.04
|
⚪ nan |
| Liczba wystąpień słowa kluczowego | exact_keyword_count |
Ile razy dokładna fraza kluczowa pojawia się w tekście. |
-0.04
|
⚪ nan |
| Czytelność (Flesch Score) | readability_flesch_score |
Wskaźnik czytelności Flesch (0-100, wyżej = łatwiejszy tekst). |
-0.03
|
⚪ nan |
| Zaczyna się od definicji | starts_with_answer |
Czy pierwszy akapit zawiera słowa definicyjne (1/0). |
-0.02
|
⚪ nan |
| Gęstość słowa kluczowego | keyword_density |
Procentowy udział frazy kluczowej w tekście. |
0.02
|
⚪ nan |
| Udział pytań w strukturze | ratio_questions_in_headings |
Procent nagłówków będących pytaniami. |
-0.01
|
⚪ nan |
| Pytanie w H1 | is_question_in_h1 |
Czy główny tytuł jest pytaniem (1/0). |
0.01
|
⚪ nan |
| Średnia długość zdania | avg_sentence_length |
Przeciętna liczba słów w zdaniu. |
0.00
|
⚪ nan |
| Liczba fraz rzeczownikowych | entity_count |
Liczba noun phrases wykrytych przez TextBlob. |
0.00
|
⚪ nan |
Poniżej przedstawiamy najważniejsze wyniki badania w formie wykresów interaktywnych.
| Poz. ⇅ | Czynnik ⇅ | Cohen's d ⇅ | Diff_% ⇅ | CITED Avg ⇅ | NOT CITED ⇅ | Próba ⇅ | Opis |
|---|---|---|---|---|---|---|---|
| #1 |
Obecność Meta Description
META
|
1.30
|
132.00% | 0.91 | 0.39 | 29,514 | Czy strona ma wypełniony meta description (1/0). |
| #2 |
Early Confirmation (Pierwszy akapit)
SEMANTIC
|
0.30
|
5.20% | 0.67 | 0.64 | 12,556 | Cosine similarity między pierwszym akapitem a słowem kluczowym. |
| #3 |
Cytowania/Bibliografia
META
|
0.26
|
57.40% | 0.29 | 0.18 | 10,108 | Czy treść zawiera odnośniki do źródeł [1], [2] itp. (1/0). |
| #4 |
Pozycja słowa kluczowego w tytule
META
|
0.25
|
31.20% | 509.91 | 388.63 | 23,071 | Indeks pierwszego wystąpienia keyworda w tytule (niżej = bliżej początku). |
| #5 |
Zgodność Meta Description z AIO
SEMANTIC
|
0.20
|
2.40% | 0.74 | 0.73 | 8,143 | Cosine similarity między meta description a odpowiedzią AI Overview. |
| #6 |
Zgodność Tytułu z AIO
SEMANTIC
|
0.17
|
1.50% | 0.74 | 0.73 | 14,253 | Cosine similarity między tytułem strony a odpowiedzią AI Overview. |
| #7 |
Kompletność fraz (N-grams)
ADVANCED
|
0.16
|
23.60% | 0.04 | 0.03 | 14,788 | Procent 2-3 gramów z AIO znalezionych w treści strony. |
| #8 |
Podobieństwo treści do AIO
SEMANTIC
|
0.12
|
1.30% | 0.82 | 0.81 | 14,260 | Cosine similarity między embeddingiem treści strony a odpowiedzią AI Overview. |
| #9 |
Dopasowanie treści do słowa kluczowego
SEMANTIC
|
0.11
|
1.20% | 0.69 | 0.68 | 14,229 | Cosine similarity między embeddingiem treści a słowem kluczowym. |
| #10 |
Głębokość URL
META
|
0.11
|
5.60% | 2.19 | 2.07 | 29,514 | Liczba segmentów ścieżki URL (ukośników). |
| #11 |
Liczba nagłówków H1
STRUCTURAL
|
0.10
|
2.80% | 0.95 | 0.92 | 16,440 | Zliczenie tagów H1 (powinien być jeden). |
| #12 |
Semantyka URL (Slug)
SEMANTIC
|
0.10
|
1.40% | 0.75 | 0.74 | 14,233 | Cosine similarity między ścieżką URL a słowem kluczowym. |
| #13 |
Długość Title
META
|
0.07
|
3.00% | 55.82 | 54.21 | 23,071 | Liczba znaków w tagu <title>. |
| #14 |
Pokrycie Encji (Entity Overlap)
ADVANCED
|
0.07
|
11.00% | 0.18 | 0.16 | 14,788 | Procent encji z AIO znalezionych na stronie (spaCy NER). |
| #15 |
Nasycenie Meta Description słowem kluczowym
SEMANTIC
|
0.05
|
0.70% | 0.69 | 0.69 | 8,139 | Cosine similarity między meta description a słowem kluczowym. |
| Poz. ⇅ | Czynnik ⇅ | Cohen's d ⇅ | Diff_% ⇅ | CITED Avg ⇅ | NOT CITED ⇅ | Próba ⇅ | Opis |
|---|---|---|---|---|---|---|---|
| #1 |
Liczba typów Schema
META
|
-0.56
|
-77.10% | 0.52 | 2.28 | 29,514 | Liczba unikalnych @type w JSON-LD strony. |
| #2 |
Schema: Person (Autor)
META
|
-0.37
|
-78.10% | 0.03 | 0.12 | 29,514 | Obecność Schema.org typu Person dla autora (1/0). |
| #3 |
Schema: Article
META
|
-0.34
|
-62.40% | 0.07 | 0.18 | 29,514 | Obecność Schema.org typu Article/NewsArticle/BlogPosting (1/0). |
| #4 |
Liczba paragrafów
STRUCTURAL
|
-0.23
|
-35.40% | 13.19 | 20.41 | 16,440 | Zliczenie tagów <p> - podział tekstu na bloki. |
| #5 |
Schema: Product
META
|
-0.21
|
-89.20% | 0.00 | 0.03 | 29,514 | Obecność Schema.org typu Product (1/0). |
| #6 |
Słowo kluczowe w domenie (EMD)
META
|
-0.20
|
-75.60% | 0.01 | 0.04 | 29,514 | Czy domena zawiera słowo kluczowe (1/0). |
| #7 |
Długość Meta Description
META
|
-0.15
|
-11.30% | 146.07 | 164.66 | 19,307 | Liczba znaków w meta description. |
| #8 |
Stosunek Treści do Kodu
STRUCTURAL
|
-0.14
|
-4.90% | 0.56 | 0.59 | 16,440 | Proporcja czystego tekstu do całkowitego rozmiaru HTML. |
| #9 |
Średnia długość słowa
TEXT
|
-0.12
|
-2.10% | 5.86 | 5.99 | 16,440 | Przeciętna liczba znaków w słowie. |
| #10 |
Subiektywność tekstu
TEXT
|
-0.12
|
-16.20% | 0.15 | 0.18 | 16,440 | Czy tekst jest obiektywny (0) czy subiektywny/opiniotwórczy (1). |
| #11 |
Liczba słów
TEXT
|
-0.11
|
-25.50% | 866.15 | 1162.88 | 16,440 | Całkowita liczba słów w treści artykułu. |
| #12 |
Liczba nagłówków H3
STRUCTURAL
|
-0.11
|
-34.50% | 2.56 | 3.91 | 16,440 | Zliczenie tagów H3 - podsekcje artykułu. |
| #13 |
Schema: FAQPage
META
|
-0.11
|
-73.70% | 0.00 | 0.01 | 29,514 | Obecność Schema.org typu FAQPage (1/0). |
| #14 |
Rozmiar pobranych danych
STRUCTURAL
|
-0.10
|
-28.90% | 8893.72 | 12510.03 | 16,440 | Całkowita liczba znaków w content_html (proxy dla wagi strony). |
| #15 |
Bezpośredniość odpowiedzi
ADVANCED
|
-0.08
|
-6.40% | 0.57 | 0.61 | 14,788 | Jak szybko pada odpowiedź na pytanie (1.0 = w 1. zdaniu). |
Na podstawie analizy wszystkich 57 czynników wyłoniliśmy najważniejsze insights dla twórców treści i specjalistów SEO:
Najsilniejszy sygnał w całym badaniu! Strony cytowane przez AIO prawie zawsze mają meta description (91% vs 39%). Absolutny must-have.
"Paradoks - więcej Schema.org = mniej cytowań. Wygląda na to że strony ""przeoptymalizowane"" technicznie są pomijane. Jakość > ilość znaczników."
Podobnie jak Person - markup Article/BlogPosting działa na niekorzyść. AIO woli strony bez nadmiarowych oznaczeń strukturalnych.
Pierwszy akapit musi od razu odpowiadać na pytanie. Semantyczne dopasowanie pierwszego paragrafu do keyword = wyższe szanse na cytowanie.
Strony które same cytują źródła są częściej cytowane przez AIO. Budowanie wiarygodności przez odnośniki działa.
"Wyższa wartość = keyword dalej od początku = lepiej dla AIO. Naturalne tytuły wygrywają z SEO-zoptymalizowanymi ""Keyword | Brand""."
"Więcej paragrafów = mniej cytowań. AIO preferuje zwięzłe, konkretne odpowiedzi, nie rozwlekłe artykuły."
"Strony produktowe są pomijane przez AIO. Logiczne - AI Overview szuka informacji, nie ofert sprzedażowych."
"Meta description powinien być mini-odpowiedzią na pytanie, nie clickbaitem. Semantyczne dopasowanie do AIO response pomaga."
"EMD (Exact Match Domain) działa na niekorzyść. Era domen typu ""najlepsze-odkurzacze.pl"" się skończyła."
Poznaj statystyki obecności AI Overviews w polskich wynikach wyszukiwania, trendy i analizy branżowe.
← Powrót do raportu głównego