4個數據分析陷阱&如何避免它們
被曲解的數據甚至會誤導我們最好的人。看看數字營銷常見的四種數據分析陷阱,以及如何批判性思考并避免它們的一些敏銳的技巧。
數字營銷是一個自豪的數據驅動的領域。然而,作為SEO,我們經常有這樣的不完整或有問題的數據的工作,我們最終做出錯誤的結論,我們試圖證明我們的論點或量化我們的問題和機會。
在這篇文章中,我將概述4個在我們行業中普遍存在的數據分析陷阱,以及如何避免它們。
1。妄下結論
今年早些時候,我做了一個關于品牌知名度的排名因素研究,我發布了這個警告:
“……域名權威(或品牌搜索量,或其他任何東西)與排名正相關的事實可能表明以下任何一個或全部:
鏈接導致網站排名好
排名好導致網站獲得鏈接
大約第三個因素(例如站點的聲譽或年齡)會導致站點同時獲得鏈接和排名。
我~
但是,我想更深入地研究這個問題,并給你一個分析這些框架的框架,因為它仍然有很多。帶,例如,最近的這項研究由石廟,你可能在這張前10或蘭德的微博看到這篇優秀的文章,或討論SEMRush最近的直接交通研究。說得很清楚,我不是在批評這兩項研究,但我想提請大家注意我們如何解釋它們。
首先,我們會遭受一點確認偏差-我們都太急于喊過“相關性與因果關系的區別é”當我們看到成功的網站,關鍵字,但也同意當我們看到研究的東西我們認為是有效的或是做同樣的事,如鏈接。
第二,我們不能批判性地分析潛在的機制。選擇不只是因果關系或巧合。
在你根據相關性得出結論之前,你必須考慮各種可能性:
完全符合
反向因果關系
共同原因
線性度
廣泛的適用性
如果這些都沒有任何意義,那就夠公平了-它們是行話。讓我們舉一個例子:
我警告你不要吃奶酪,因為你可能會死在你的床單,我不得不檢查它是不是有下列:
完全巧合-有可能這么多數據集進行了比較,有些是必然的相似?為什么,這正是Tyler Vigen所做的事情!是的,這是可能的。
相反的因果關系——我們有可能走錯方向嗎?例如,也許你的親人,在哀悼你的床單相關死亡,吃大量的奶酪來安慰自己?這似乎不大可能,所以讓我們給它一個通行證。不,這是不大可能的。
聯合因果關系-是否有可能在這兩個因素背后有第三個因素?也許增加財富會讓你更健康(所以你不會死于營養不良),也會導致你吃更多的奶酪。這似乎很合理。是的,這是可能的。
線性-我們比較兩個線性趨勢?線性趨勢是一個穩定的增長率或下降率。任何兩個隨時間大致線性的統計數據都會有很好的相關性。在上面的圖表中,我們的統計數據都呈直線上升趨勢。如果用不同的尺度繪制圖,它們可能看起來完全不相關,像這樣,但是因為它們都有穩定的速率,它們仍然是很好的相關性。是的,看起來很有可能。
廣泛的適用性-是否有可能這種關系只存在于某些利基情景中,或者至少在我的利基情景中不存在?也許,例如,奶酪,這對一些人來說,這是足以創造這種相關性,因為很少有床單糾纏死亡呢?是的,這似乎是可能的。
所以我們有4個“是”答案和5個檢查中的一個“不”答案。
如果你的例子沒有從5個檢查中得到5個“不”的答案,那就是失敗,你不能說這項研究已經確立了奶酪消費的排名因素或致命的副作用。
一個相似的過程應該適用于案例研究,這是另一種關聯的形式——你做出改變的關系,以及一些好的(或壞的)。發生。例如,問:
我排除了其他因素(例如外部需求、季節性因素、競爭對手犯錯誤)嗎?
我是不是通過做我想做的事情來增加流量,或者是我同時意外地改善了其他因素?
這樣做是因為特定客戶/項目的特殊情況嗎?
2。失蹤的情況下
如果我告訴你我今天的交通流量是每周20%周,你會說什么?祝賀?
如果去年這個時候上升20%呢?
如果我告訴你,它已經上升了20%年,直到最近呢?
有趣的是,一個小小的環境能完全改變這一點。這是另一個案例研究的問題和他們邪惡的倒雙胞胎,交通下降分析。
如果我們真的想了解是否感到吃驚的事,積極的或消極的,我們需要把它比作我們的期望值,然后計算出我們的預期偏差是什么是“正常的”。如果這開始聽起來像統計,這是因為它是統計-事實上,我寫的關于測量變化早在2015的統計方法。
但是,如果你想偷懶,一個好的經驗法則就是縮小并增加前幾年。如果有人向你展示可疑放大的數據,你可能會想用少量的鹽。
3.相信我們的工具
你會根據你的競爭者隨意操縱的數字做出數百萬美元的商業決定嗎?嗯,你有機會,這個號碼可以在谷歌分析中找到。我已經在其他地方廣泛地討論了這個問題,但是大多數分析平臺都存在一些主要問題:
他們很容易操縱外部
他們如何任意分組進入會話
他們對AD阻滯劑有多么脆弱
他們是如何在抽樣下表現的,他們是多么明顯
例如,你知道谷歌分析API V3可以大量樣本數據,同時告訴你數據取樣,超過一定的交通量(~ 500000在日期范圍)?我也沒有,直到我們遇到它,同時構建蒸餾ODN。
類似的問題存在于許多“搜索分析”工具中。我的同事Sam Nemzer寫了一堆關于這個-你知道最秩跟蹤平臺的報告完全不同的排名?或者是事實上的關鍵詞被谷歌(因此工具像SEMRush和統計,太)是不等價的,不一定有大量引用?
理解我們使用的工具的優點和缺點是很重要的,這樣我們至少可以知道它們何時定向準確(如他們的見解引導你朝正確的方向),即使不是完全準確的。我真的可以在這里推薦的是,他在SEO(或任何其他數字頻道)一定意味著理解在你測量平臺的力學這是為什么所有的新開始在蒸餾結束學習如何分析審計。
對根問題最常見的解決方案之一是合并多個數據源,但是…
4。結合數據源
有許多平臺將“擊敗(未提供)”匯集兩個或更多的數據:
分析
搜索控制臺
關鍵詞廣告
排名跟蹤
這里的問題是,首先,這些平臺沒有相同的定義,第二,具有諷刺意味的是,(沒有提供)往往打破他們。
讓我們先處理定義,舉個例子——讓我們看一個帶通道的登陸頁面:
在搜索控制臺中,這些數據被報告為單擊,并且當多個維度(例如關鍵字和頁面)或過濾器被合并時,可能會受到嚴重的、不可見的采樣的攻擊。
在谷歌分析,這些報告使用最后非直接點擊,這意味著你的有機交通包括一系列直接會話,超時,恢復中間會話,等等,這是沒有進入黑暗的交通,廣告阻斷劑,等等。
在AdWords,大多數報告使用上的AdWords點擊和轉換,可以定義不同的。此外,如以上所述,關鍵字卷被捆綁。
排名跟蹤是特定位置的,并且不一致,如上文所述。
很好,雖然它可能不是精確的,但你至少可以得到一些定向有用的數據,考慮到這些限制。然而,關于“(未提供)”…
大多數的登陸頁面都會得到不止一個關鍵詞的流量。這些關鍵字中的一些很可能比其他關鍵字轉換得更好,尤其是當它們被打上烙印的時候,這意味著即使是最徹底的點擊率模型也不會對你有所幫助。那么你怎么知道哪些關鍵詞是有價值的呢?
最好的答案是,從這些關鍵詞AdWords數據概括,但它是非常不可能的,你有所有這些組合的關鍵詞和網頁數據分析。從本質上講,報告的工具會給出一個非常大膽的假設,即給定頁面對所有關鍵字的轉換是相同的。有些人比其他人更透明。
再說一遍,這并不是說那些工具沒有價值,而是需要仔細地理解。唯一的方法,你可以可靠地填補這些空白所創造的“不提供”將花費大量的付費搜索,以獲得體面的體積,轉換率,并跳出率估計為所有關鍵字,即使如此,你還沒有固定的不一致定義問題。
獎金的事:平均等級
我看得太頻繁了。三個問題:
比起一個高容量查詢(百萬加),你更關心十個非常低容量的查詢(10個月或更少的搜索)失去排名嗎?如果答案不是“是的,我絕對更關心十個低容量查詢”,那么這個度量不適合你,你應該考慮一個基于點擊率估計的可見性度量。
當你開始排名100的關鍵字你沒有排名之前,這是否使你不高興?如果答案不是“是的,我討厭新關鍵字的排名”,那么這個指標不適合你——因為這會降低你的平均排名。當然,你可以把所有非排名關鍵字當做位置100,就像一些工具允許的那樣,但是,2個平均排名位置的下降真的是表示你的1/50個登陸頁面已經被索引的最好方法嗎?同樣,請使用可見性度量。
你喜歡比較你的表現和你的競爭對手嗎?如果答案不是“不,當然不是”,那么這個指標就不適合你——你的競爭對手可能擁有更多或更少的品牌關鍵詞或長尾排名,而這將導致比較的偏差。同樣,使用可見性度量。
結論
希望你發現這個有用。總結的主要結論:
批判性地分析相關和案例研究,看看你是否可以把它們解釋為巧合,如反向因果關系,作為聯合因果關系,通過引用第三個相互關聯的因素,或者通過生態位適用性來解釋。
不要看交通的變化而不看上下文-你會預測這個時期,以及有多少誤差?
請記住,我們使用的工具有局限性,并研究如何影響它們顯示的數字。“這個數字是怎么產生的?“這是一個重要的組成部分,這個數字意味著什么?”“
如果你最終結合了多個工具的數據,記住要弄清楚它們之間的關系——將這些信息視為定向而不是精確。