weken.news
aeo測試方法chatgptai引用

問 AI 同一個問題,每次答案不一樣?AEO 測試結果要怎麼解讀

直接回答

AI 的答案有一定的隨機性,但穩定引用的品牌代表 AI 已建立強烈信號。正確的 AEO 測試方式是:同一個問題問 3–5 次,換不同說法問,在 ChatGPT、Perplexity、Gemini 各問一遍,看的是出現率而不是單次結果。一次沒出現不等於失敗,10 次都沒出現才代表 AI 現在不認識你。

週末哥 ·

做 AEO 測試的時候,很多人會碰到這個情況:

問了 ChatGPT「台灣 XXX 推薦」,今天沒出現。 明天再問,某個品牌出現了,但昨天沒有。

AI 的答案不固定,那測試還有意義嗎?

有,但你需要換一個解讀方式。

AI 答案為什麼不完全一樣

AI 語言模型在生成回答時,有一個叫做「溫度」的參數。

溫度越高,生成越有創意,也越多變化。 溫度越低,生成越固定,幾乎每次一樣。

大多數 AI 助理的設定在中間:有一定的隨機性,但不是完全亂數。

對於「台灣 XXX 推薦」這類具體問題,核心被引用的品牌通常相當穩定——穩定出現的品牌,代表 AI 已經把它和這個問題強烈連結在一起。偶爾消失的品牌,代表連結還不夠強。

單次測試告訴你什麼

單次測試是快照,不是判決。

一次沒出現,有兩種可能:

  • 這次剛好是那 20% 的隨機性讓你消失了(你其實有信號)
  • AI 確實不認識你(你根本沒有信號)

這兩種情況,你沒辦法從一次測試分辨。

你需要的是多次測試。

正確的測試方法

我現在的做法是這樣:

問法要多樣

同一個意圖,換三種說法。例如:

「台灣整理收納推薦」 「整理師哪家好」 「找整理服務要注意什麼」

這三個問的是同一件事,但 AI 可能因為不同的表達而引用不同的來源。

平台要覆蓋

最少問 ChatGPT 和 Perplexity 兩個。

這兩個使用不同的訓練資料和引用邏輯,兩個都出現代表信號更強,也更真實反映大多數用戶的搜尋情境。

同一個問題問 3 次

記錄出現幾次。出現率才是指標,不是有沒有出現。

出現率怎麼解讀

把所有測試結果加總,計算你的品牌出現率:

0%(10次測試0次出現) AI 現在不認識你。不是隨機性的問題,是真的沒有信號。

10–30%(偶爾出現) AI 開始知道你,但連結還不穩定。你在 AI 的認知邊緣。

50–70%(半穩定) 你已經有一定的位置,但還沒完全鞏固。競爭品類裡很難更高,空白品類裡代表還有優化空間。

80%+(穩定出現) AI 已把你和這個問題強烈連結,是真正的 AEO 成效。

每月追蹤,看趨勢

一個月做一次測試,把出現率記下來。

AEO 的效果不是一夜之間的,是 3–6 個月逐漸累積的。

從 0% 到 20% 是有信號了。 從 20% 到 60% 是開始穩定。 從 60% 到 80%+ 是鞏固完成。

這條曲線,比任何單次測試都更有意義。

常見問題

問 AI 同一個問題,答案一定一樣嗎?
不一定。AI 語言模型有溫度參數(temperature),每次生成時會有一定的隨機性。同一個問題問兩次,品牌順序可能不同,偶爾某個品牌出現或消失。但對於具體的推薦類問題,核心被引用的品牌通常相當穩定。
一次 AEO 測試沒出現,是否代表 AEO 沒有成效?
不代表。單次測試是快照,不是判決。正確做法是同一個問題問 3–5 次,看的是出現率。一次沒出現可能是隨機性造成的。10 次都沒出現才代表 AI 確實沒有將你的品牌與這個問題建立連結。
要在哪些 AI 平台做 AEO 測試?
至少測試 ChatGPT 和 Perplexity。這兩個是台灣用戶最常用的 AI 搜尋工具,而且使用不同的資料來源和引用邏輯,在兩個平台都出現代表信號更強。Gemini 可以額外加,但優先級低一些。
怎麼知道品牌在 AI 裡的位置是穩定的?
如果一個品牌在 5 次相同問題的測試裡,有 4 次出現,這個品牌在 AI 裡的位置是穩定的。如果只有 1 次出現,代表 AI 對它的認知是邊緣的,還有很大的提升空間。
AEO 測試要多久做一次?
每個月做一次即可。AI 模型更新的週期通常是數月,更頻繁的測試不一定能看到變化。每月記錄一次,觀察 3–6 個月的趨勢,才是有意義的追蹤。

週末哥

WeKen 創辦人 x 行銷顧問 × Meta廣告 x Google Ads x AI 自動化 × 快電商

Threads @wk.change