如果您的業(yè)務存在因自動化工具(例如腳本、模擬器等)造成網(wǎng)站數(shù)據(jù)被爬取、業(yè)務作弊或欺詐、撞庫或垃圾注冊、惡意秒殺或薅羊毛、短信接口濫刷等情況,您可以開通Web 應用防火墻 WAF(Web Application Firewall)百度云防護 WAF 企業(yè)版,制定有針對性的Bot防護策略,緩解核心數(shù)據(jù)資產泄露和業(yè)務營銷活動風險,降低服務器帶寬費用和負載。
功能介紹
Bot規(guī)則為您提供如下功能,盡可能的幫助您快速識別機器流量,防御爬蟲風險,避免您的業(yè)務數(shù)據(jù)被爬取。
風險識別:
Web應用防火墻(WAF)配備了內建的手機號信譽數(shù)據(jù)庫,旨在防范垃圾賬號注冊、營銷活動作弊等行為。WAF可以根據(jù)配置,在HTTP請求中檢測手機號或其Sha1加密信息,并將其與信譽庫進行對比。如果發(fā)現(xiàn)與異常行為相關的標簽,WAF將采取相應的措施,例如啟動滑塊驗證、觀察、攔截等處置動作
Bot行為識別:
AI智能防護:基于百度搜索等全系場景多年防爬規(guī)則應用,對訪問流量進行分析和自動學習,生成針對性的防護規(guī)則或黑名單。
自定義限速:支持IP和會話自定義限速,可自定義訪問頻率限制條件,有針對性地對訪問頻率過高的爬蟲請求進行過濾,有效緩解Bot攻擊。
自定義Bot策略:
支持自定義多種復雜策略配置,包括 IP地域情報庫、IP動態(tài)情報庫、設備情報庫、Referer、Cookie、User Agent、IP等多種條件Bot策略配置,對多個用戶有多次惡意爬取行為的攻擊源IP進行處置。
Bot特征識別:
支持JavaScript校驗和動態(tài)令牌挑戰(zhàn)。JavaScript校驗在用戶提交表單之前,對輸入的數(shù)據(jù)進行格式檢查、范圍驗證等,從而確保數(shù)據(jù)的準確性和合法性。這有助于減少服務器端的處理負擔,提高應用程序的響應速度和用戶體驗。動態(tài)令牌挑戰(zhàn)通過定期更換令牌或要求用戶輸入一次性令牌來增強系統(tǒng)的安全性。
前提介紹
- 在Web應用防火墻控制臺,購買百度云防護企業(yè)版
- 已在接入配置頁面完成Web業(yè)務接入
Bot規(guī)則配置
1.在Web應用防火墻控制臺左側導航欄,【配置中心】-【Bot規(guī)則】,在規(guī)則列表中,點擊【設置】
2.填寫B(tài)ot生效路徑
生效路徑可以是一個路徑,也可以是一個頁面。
3.配置相關Bot防護能力
4.查看Bot統(tǒng)計報表
風險識別
支持賬戶提取和風險標簽配置。
Bot行為識別
支持AI智能防護和自定義限速配置。
Bot特征識別
支持簡單腳本過濾(JavaScript校驗)和高Bot防御(動態(tài)令牌挑戰(zhàn))

配置項 | 說明 |
---|---|
Web SDK集成 | 自動集成:可在配置網(wǎng)頁防爬場景化的防護場景定義時,選擇自動集成,此時網(wǎng)站HTML頁面由WAF接管,WAF會在頁面請求響應時,向頁面注入組件script標簽,客戶網(wǎng)頁無需進行代碼改造即可完成部署,同時享受線上組件的熱更新。 手動集成:適合于無法滿足自動集成的場景,或者當前站點與組件產生沖突的情況,手動集成必須滿足以下條件: 1.所有依賴配置了防護場景的 API 接口所在的頁面,都必須接入特定組件 2.在頁面使用組件功能之前,必須先完成組件script代碼的注入 |
業(yè)務 安全 | 風險識別:啟用規(guī)則后,配置后可實現(xiàn)針對黃牛等異常手機號的訪問阻斷。 1、賬號提取:最多添加5個條件,條件之間為“或”關系 賬號類型- 手機號,手機號 sha1,默認填寫手機號 賬號位置:Cookie名稱、Query參數(shù)、Body參數(shù),默認填寫Cookie名稱 2、風險標簽:最多添加5個條件,條件之間為“或”關系 詐騙風險:疑似歷史上存在欺詐行為,默認高風險,可選中高、低風險 機器注冊:疑似使用非法工具進行用戶注冊,用于后續(xù)的營銷活動等。默認高風險,可選中高、低風險 營銷作弊:疑似使用非法工具參與營銷活動,如批量注冊領取優(yōu)惠券等。默認高風險,可選中高、低風險。 風險賬號:疑似使用非法工具參與搶票或其他秒殺類活動。默認高風險,可選中高、低風險 |
Bot行為識別 | AI智能防護:勾選AI智能防護后,需要設置識別的Bot行為為觀察、滑塊或回源標記。如果設置為回源標記,您還需要設置回源時標記的Header名稱、Header內容。 勾選后策略將生效,防爬規(guī)則會通過AI智能防護引擎對訪問流量進行分析和自動學習,自動對常見典型的異常爬蟲流量做檢出。 自定義限速:開啟此開關后,可自定義訪問頻率限制條件,有針對性地對訪問頻率過高的爬蟲請求進行過濾,可以按需對特定的請求來源做訪問頻率限制。 IP限速:(默認)在統(tǒng)計時長(秒)內,來自同一IP地址的訪問次數(shù)超過指定閾值(次)時,在限速時間(秒)內,對來自該IP的訪問請求執(zhí)行觀察、滑塊或攔截的限速動作。最多可以設置3個限制規(guī)則,且規(guī)則之間為或關系。 自定義會話限速:在統(tǒng)計時長(秒)內,對指定的會話類型的訪問次數(shù)超過指定閾值(次)時,在限速時間(秒)內,對該會話的請求執(zhí)行觀察、滑塊或攔截的限速動作。最多可以設置3個限制規(guī)則,且規(guī)則之間為或關系。會話類型支持自定義header、自定義參數(shù)、自定義cookie、Session。 |
Bot特征識別 | 簡單腳本過濾(JavaScript校驗):開啟規(guī)則后,對訪問防爬防護目標的客戶端進行JS校驗,過濾不支持JS校驗的來自非瀏覽器類工具的流量,阻斷簡單腳本類攻擊。 高級Bot防御(動態(tài)令牌挑戰(zhàn)):開啟規(guī)則后,對每一次請求數(shù)據(jù)進行簽名驗證,不能通過驗簽的請求將被攔截。可選項: 簽名驗證異常(必選):指未攜帶簽名或者簽名非法時,請求將被攔截。 簽名時間戳異常:指簽名時間戳異常時,請求將被攔截。 WebDriver攻擊:指遭遇WebDriver攻擊時,請求將被攔截。 |
處置 動作 | 選擇當請求命中該規(guī)則時,要執(zhí)行的防護動作??蛇x項: 攔截:表示攔截命中規(guī)則的請求,并向發(fā)起請求的客戶端返回攔截響應頁面。說明WAF默認使用統(tǒng)一的攔截響應頁面,您可以通過自定義響應功能,自定義攔截響應頁面。 觀察:表示不攔截命中規(guī)則的請求,只通過日志記錄請求命中了規(guī)則。您可以通過WAF日志,查詢命中當前規(guī)則的請求,分析規(guī)則的防護效果(例如,是否有誤攔截等)。觀察模式方便您試運行首次配置的規(guī)則,待確認規(guī)則沒有產生誤攔截后,再將規(guī)則設置為攔截模式。 滑塊:表示W(wǎng)AF向客戶端返回滑動驗證頁面。如果客戶端成功執(zhí)行滑動驗證,則WAF在一段時間(默認30分鐘)內放行該客戶端的所有請求(不需要重復驗證),否則攔截請求。 嚴格滑塊:表示W(wǎng)AF向客戶端返回滑動驗證頁面。如果客戶端成功執(zhí)行滑動驗證,則WAF放行本次請求,否則攔截請求。嚴格滑塊驗證模式下,客戶端的每次請求都需要驗證。 回源標記:用戶可以自定義Header及內容,WAF不會直接處理,而是會通過新增Header的方式將命中信息返回給源站,用戶可以與后端風控系統(tǒng)結合做業(yè)務側處理。 |
自定義Bot策略
支持自定義多種復雜BOT高級防護策略配置,包括 IP地域情報庫、IP動態(tài)情報庫、IDC設備情報庫、Referer、Cookie、User Agent、IP等多種復雜條件Bot策略配置,多個用戶有多次惡意爬取行為的攻擊源IP進行處置。
- 情報策略:情報策略支持『IP情報』和『設備情報』。
IP情報:包括 IP地域情報庫 和 IP動態(tài)情報庫。
1)IP地域情報包括:海外IP情報、IDC IP情報、基站IP情報。
2)IP動態(tài)情報包括:高危IP情報、爬蟲IP情報、NAT出口IP情報。設備情報:用戶唯一設備指紋,持續(xù)維護跟蹤。
多條基礎策略的組合,支持語法,支持與或,支持條件嵌套。

匹配條件 | 說明 | 邏輯符 |
---|---|---|
P地域及靜態(tài)情報庫 | 收錄一段時間內在百度云上對多個用戶不同地域多次惡意爬取行為的攻擊源IP,并對其執(zhí)行觀察、攔截、滑塊、嚴格滑塊或回源標記處置。 海外IP:來自海外攻擊源IP 基站IP:來自基站攻擊源IP IDC內IP:來自IDC內部攻擊源IP | 屬于、不屬于 |
IP動態(tài)情報庫 | 公共出口 IP:這些 IP 普遍有較多的正常用戶共享的出口,如小區(qū)運營商、辦公網(wǎng)絡、活躍基站等共享 NAT 或代理的出口。這些 IP 建議站長做一定的多維度策略,防止對正常用戶的打擾。 搜索引擎:搜索引擎的請求來源。如果客戶是希望各搜索引擎來抓取的場景,建議針對此情報命中的請求加白。 高危 IP:根據(jù)歷史行為存在高安全風險的IP地址,這些IP地址可能與惡意活動、網(wǎng)絡攻擊、釣魚網(wǎng)站或其他不安全的行為有關。多數(shù)場景下這些請求來源的流量可以直接做處置 | 屬于、不屬于 |
設備情報 | 對不同時間段的新舊的設備進行異常行為,對其執(zhí)行觀察、攔截、滑塊、嚴格滑塊或回源標記處置。包括: 1小時以內的新設備 1天以上的舊設備 7天以上的舊設備 | 屬于、不屬于 |
IP | 請求的來源IP,即發(fā)起請求的客戶端的IP地址。 匹配內容填寫要求如下: 支持使用IPv4地址(例如,1.XX.XX.1)、IPv6地址(例如,2001:db8:ffff:ffff:ffff:ffff:ffff:ffff)。 支持使用IP網(wǎng)段格式(例如,1.XX.XX.1/16)。 | 屬于、不屬于; 等于、不等于; 包含、不包含; 前綴匹配、后綴匹配 |
Referer | 請求的來源網(wǎng)址,即該請求從哪個頁面跳轉產生。 | 等于、不等于; 包含、不包含; 前綴匹配、后綴匹配 |
User-Agent | 發(fā)起請求的客戶端的瀏覽器標識、渲染引擎標識和版本信息等瀏覽器相關信息。 | 同上 |
Cookie | 請求中的Cookie信息。 | 同上 |
Get Patam | 在編程和軟件開發(fā)中獲取所需參數(shù)的過程或操作 | 同上 |
處置動作 | 選擇當請求命中該規(guī)則時,要執(zhí)行的防護動作??蛇x項: 攔截:表示攔截命中規(guī)則的請求,并向發(fā)起請求的客戶端返回攔截響應頁面。說明WAF默認使用統(tǒng)一的攔截響應頁面,您可以通過自定義響應功能,自定義攔截響應頁面。 觀察:表示不攔截命中規(guī)則的請求,只通過日志記錄請求命中了規(guī)則。您可以通過WAF日志,查詢命中當前規(guī)則的請求,分析規(guī)則的防護效果(例如,是否有誤攔截等)。觀察模式方便您試運行首次配置的規(guī)則,待確認規(guī)則沒有產生誤攔截后,再將規(guī)則設置為攔截模式。 滑塊:表示W(wǎng)AF向客戶端返回滑動驗證頁面。如果客戶端成功執(zhí)行滑動驗證,則WAF在一段時間(默認30分鐘)內放行該客戶端的所有請求(不需要重復驗證),否則攔截請求。 嚴格滑塊:表示W(wǎng)AF向客戶端返回滑動驗證頁面。如果客戶端成功執(zhí)行滑動驗證,則WAF放行本次請求,否則攔截請求。嚴格滑塊驗證模式下,客戶端的每次請求都需要驗證。 回源標記:用戶可以自定義Header及內容,WAF不會直接處理,而是會通過新增Header的方式將命中信息返回給源站,用戶可以與后端風控系統(tǒng)結合做業(yè)務側處理。 | / |
Bot統(tǒng)計報表
1、防護總覽
通過折線圖,展示在指定時間范圍內,Bot管理防護策略中已配置的【規(guī)則動作】和【規(guī)則命中】情況。
單擊具體的規(guī)則動作或規(guī)則,顯示或隱藏該折線圖。將光標放置在折線圖上的某一點,可以查看該時刻的具體數(shù)據(jù)??v軸為次,橫軸為時間可拖動縮放時間線。
規(guī)則動作包括:請求次數(shù)、攔截、觀察、滑塊、嚴格滑塊、回源標記
命中規(guī)則包括:自定義Bot策略、業(yè)務安全、AI智能防護、IP限速、會話限速
2、規(guī)則命中統(tǒng)計
通過列表,展示已配置的防護規(guī)則的規(guī)則ID、防護域名、包含觀察模式的命中次數(shù)情況。 列表每頁最多展示10條,超過翻頁顯示。 通過切換tap展示被攔截、滑塊、嚴格滑塊、回源標的Top 10攻擊源IP及其攻擊次數(shù)。

3、攻擊詳情
通過列表,展示在指定時間范圍內(時間同Bot報表頂部時間保持一致),命中Bot管理防護規(guī)則的IP情況,包括攻擊IP、IP所屬區(qū)域、URL、規(guī)則ID、規(guī)則名稱、規(guī)則動作等信息。
