Teicniúil
How We Built a System That Scans 100,000 Websites for Cookie Consent Violations
GDPR Privacy Monitor Engineering · 2026-04-13 · 7 min léamh
Éisteann seiceáil uathoibrithe comhlíonta toilithe simplí go dtí go ndéanann tú iarracht í a thógáil. Cailleann an cur chuige simplí -- leathanach a fháil, fianáin a sheiceáil, meirge a lorg -- formhór an méid atá tábhachtach. Tá sáruithe toilithe iompraíochta, ní struchtúrtha. Léirítear iad in uainiú feidhmithe scripteanna, i seicheamh iarratas líonra, i bhfreagra eilimintí UI ar idirghníomhú úsáideora, agus i mbuanseasmhacht staide trasna lódálacha leathanach. Ní féidir aon cheann de seo a mheasúnú gan brabhsálaí fíor a rith, idirghníomhú leis an leathanach ar an gcaoi a ndéanfadh duine, agus taifead a dhéanamh ar cad a tharlaíonn dáiríre ar leibhéal an líonra.
Déanann an postáil seo cur síos ar conas a thógamar an t-inneall scanadh taobh thiar de GDPR Monitor, na dúshláin innealtóireachta a chaith formhór ár gcuid ama, na cinntí ailtireachta a rinneamar agus cén fáth, agus na teorainneacha atá ionraic fúthu. Má oibríonn tú ar chomhlíonadh gréasáin, uathoibriú brabhsálaí, nó tomhas gréasáin ar mhórscála, ba cheart go mbeadh rud éigin úsáideach anseo.
Forbhreathnú ar an bPíblíne
Téann gach scanadh trí shé chéim. Is comhthéacs riachtanach é an phíblíne a thuiscint do na dúshláin shonracha a leanann.
Céim 1: Seoladh brabhsálaí agus leithlisiú. Tosaíonn ásc Chromium úr le nialas staide -- gan fianáin, gan localStorage, gan taisce, gan oibrithe seirbhíse. Seo an ráthaíocht seomra glain a dhéanann tomhas réamh-thoilithe bríoch. Cumraímid radharcphort caighdeánach, ceanntásca réalaíocha user-agent agus Accept-Language a mheaitseálann an tír sprice, agus bratacha caighdeánacha brabhsálaí. Faigheann gach scanadh a phróiseas brabhsálaí féin; níl aon sceith staide idir scanadh. Céim 2: Nascleanúint agus grianghraf réamh-thoilithe. Nascleanúnann an scanóir chuig an URL sprice, fanann go sroicheann an leathanach staid sheasmhach (líonra díomhaoin, DOM socraithe), agus gabhann gach rud atá tar éis tarlú: fianáin socraithe, iarratais líonra déanta (le URL iomlán, uainiú, agus meiteashonraí freagartha), fearainn tríú páirtí ar cuireadh teagmháil leo, agus grianghraf lánleathanaigh. Freagraíonn an grianghraf seo an cheist bhunúsach: cad a rinne an suíomh gréasáin seo sula raibh aon deis ag an úsáideoir toiliú a thabhairt? Céim 3: Braiteachán CMP agus aithint meirge. Déanann an scanóir iarracht an t-ardán bainistíochta toilithe a aithint agus an mheirge toilithe, an cnaipe glactha, agus an cnaipe diúltaithe a aimsiú. Úsáideann sé seo córas braite sraitheach a ndéantar cur síos mionsonraithe air thíos. Céim 4: Idirghníomhú toilithe. Idirghníomhaíonn an scanóir leis an meirge -- ag cliceáil glacadh don ghnáthshruth, ag cliceáil diúltú don tástáil sreabhadh diúltaithe. Fanann sé go socrófar an leathanach tar éis an idirghníomhaithe, ag cur san áireamh beochana, ath-mheastóireacht scripteanna, agus scaoileadh clibeanna moillithe. Céim 5: Grianghraf iar-thoilithe agus anailís dhifreálach. Gabhann an dara grianghraf iomlán an staid tar éis idirghníomhú toilithe. Nochtann comparáid na ngrianghraf réamh-thoilithe agus iar-thoilithe cad a d'athraigh: fianáin nua, iarratais rianaithe nua, staid toilithe in API an CMP. Céim 6: Anailís, aicmiú, agus giniúint tuarascála. Cothaíonn na sonraí amha modúil anailíse: aicmiú fianán in aghaidh ár mbunachar sonraí, meaitseáil rianairí in aghaidh patrún aitheanta, meastóireacht ar shaolré fianáin, iniúchadh inrochtaineachta ar an meirge, bailíochtú Google Consent Mode, braiteachán comharthaí méarloirge, agus scóráil riosca. Is tuarascáil struchtúrtha an t-aschur le torthaí, déantáin fianaise, agus scór riosca comhdhéanta.Táirgeann gach céim fianaise le stampa ama a stóráiltear go buan. Is féidir aon toradh a rianú siar go dtí iarratais líonra shonracha, iontrálacha fianáin, nó grianghraif.
Dúshlán 1: Braiteachán CMP -- 45 Ardán, Athruithe Gan Teorainn
Níl bainistíocht toilithe caighdeánaithe. Níl aon tréith HTML uilíoch, aon API JavaScript éigeantach, aon struchtúr DOM comhsheasmhach a deir "is meirge toilithe é seo." Tá 45 CMP ar leith inár leabharlann braite, gach ceann le struchtúr DOM, sínithe scripteanna, athróga domhanda JavaScript, agus patrúin idirghníomhaithe ar leith. Thar na cinn sin, bhí 34.7% de na meirgeanna a bhraitheamar inár staidéar 97,304-suíomh ginearálta nó neamhaitheanta -- feidhmithe saincheaptha, soláthraithe réigiúnacha, nó réitigh íosta nach meaitseálann aon síniú CMP aitheanta.
Úsáideann ár mbraiteachán cur chuige sraitheach bunaithe ar mhuinín:
Sraith 1: Braiteachán síniú scripteanna
Seiceálann an scanóir ar scripteanna CMP aitheanta de réir patrún URL agus athróga domhanda JavaScript. Lódálann Cookiebot, mar shampla, ó `consent.cookiebot.com` agus nochtann `window.Cookiebot`. Lódálann OneTrust ó `cdn.cookielaw.org` agus nochtann `window.OneTrust`. Tá patrúin lódála tréitheacha ag gach CMP is féidir a bhrath sula scrúdaítear an DOM.
Tá an tsraith seo tapa agus ard-mhuiníneach nuair a mheaitseálann sí. Ach tá srian criticiúil aici: insíonn sí duit cén CMP atá ar an leathanach, ní gá gurb é an CMP atá freagrach as an meirge toilithe. D'fhéadfadh suíomh PiwikPRO a lódáil le haghaidh anailísíochta (a chuimsíonn comhpháirt CMP) agus tarteaucitron a úsáid le haghaidh bainistíochta toilithe iarbhír. Tá sé éasca an dá script a bhrath; is deacra a fháil amach cé acu a rialaíonn an mheirge.
Sraith 2: Meaitseáil roghnóirí fíoraithe
I gcás gach CMP aitheanta, coinníonn muid sraith choimeádta roghnóirí CSS a aithníonn an coimeádán meirge, an cnaipe glactha, agus an cnaipe diúltaithe go hiontaofa. Is roghnóirí iad seo atá bailíochtaithe againn trasna leaganacha agus cumraíochtaí iolracha de gach CMP. Nuair a bhraitear CMP i Sraith 1 agus nuair a mheaitseálann a roghnóirí fíoraithe eilimintí sa DOM, tá muinín ard againn as aithint an CMP agus as spriocanna idirghníomhaithe na meirge.
Sraith 3: Meaitseáil roghnóirí comhoiriúnacha
Sraith níos leithne roghnóirí a oibríonn trasna go leor leaganacha de CMP ach atá níos lú cruinn. Láimhseálann siad seo cásanna inar cuireadh CMP in oiriúint, le téama, nó ina bhfuil leagan nach bhfuil clúdaithe ag ár roghnóirí fíoraithe á rith aige. Malartaíonn siad cruinneas ar chlúdach.
Sraith 4: Heiristici ginearálta
Don 34.7% de mheirgeanna nach bhfuil bainteach le CMP aitheanta, fillimid ar bhraiteachán heiristiúil. Lorgaíonn an scanóir:
- Eilimintí suíomh seasta nó greamaitheach gar do bhun nó do bharr an radharcphoirt
- Eilimintí ina bhfuil eochairfhocail toilithe i dteangacha iolracha ("cookies," "consent," "privacy," "akzeptieren," "accepter," "aceptar," srl.)
- Cnaipí le lipéid ghnímh toilithe coitianta ("Accept All," "Reject All," "Manage Preferences," agus a gcomhionanna)
- Patrúin struchtúrtha tipiciúla de dhialóga toilithe: cúlraí forleagan, coimeádáin mhódacha, cnaipí dícheadaithe
Gabhann an tsraith seo go leor feidhmithe saincheaptha ach tá sí níos lú iontaofa go hinbheirthe. Is féidir le meirge bolscaireachta suíomh seasta nó clárú nuachtlitreach a bheith cosúil go struchtúrtha le dialóg toilithe.
Sraith 5: Fiosrú API CMP
Nochtann roinnt CMPanna APIanna JavaScript -- go háirithe API IAB Transparency and Consent Framework (TCF) trí `__tcfapi`. Fiosraímid na APIanna seo chun braiteachán CMP a fhíorú agus chun an staid toilithe ríomhchláir a léamh, a chuirimid i gcomparáid níos déanaí le hiompar brabhsálaí breathnaithe.
An tsamhail mhuiníne
Seachas caitheamh le braiteachán mar dhénártha (aimsithe/neamhaimsithe), sannaimid scóir mhuiníne bunaithe ar na sraitheanna a mheaitseáil agus cé chomh láidir. Faigheann suíomh a mbrathmid script CMP air, a mheaitseálann roghnóirí fíoraithe, agus a n-aimisímid API TCF air muinín ard. Faigheann suíomh nach ndearna ach heiristici ginearálta gníomhachtú muinín níos ísle. Cothaíonn an scór muiníne seo isteach inár n-aicmiú riosca -- ciallaíonn muinín braite níos ísle go bhfuil torthaí níos dóchúla a bheith aicmithe mar neamhchinnte seachas deifnídeach.
Is é an tsamhail mhuiníne an fáth nach gclaonann mí-aithint CMP, cé go dtarlaíonn sé, ár dtorthaí go córasach. Nuair atá braiteachán débhríoch, deir muid amhlaidh, seachas aicmiú a bhrú.
Dúshlán 2: An Sreabhadh Diúltaithe -- Cén Fáth go bhfuil "Cliceáil agus Seiceáil" Deacair go Háirithe
Éisteann tástáil cnaipe diúltaithe simplí: aimsigh é, cliceáil é, seiceáil an bhfuil fianáin imithe. Go praiticiúil, tá gach céim lán le fadhbanna uainithe, iompar neamhshioncrónach, agus saíleachtaí ardáin-shonracha.
An cnaipe diúltaithe a aimsiú. Ní deirtear "Diúltaigh" le gach cnaipe diúltaithe. D'fhéadfadh siad a rá "Decline All," "Refuse," "Only necessary cookies," "Manage settings" (ag dul go dtí dara sraith ina bhfuil diúltú indéanta), nó a gcomhionanna in aon cheann de na scórtha teangacha. Cuireann roinnt CMPanna an rogha diúltaithe i suíomh amhairc difriúil, ag méid difriúil, nó i ndath difriúil ón rogha glactha. Cuireann cuid acu i bhfolach é taobh thiar de nasc "More options" nó "Customize". Coinníonn ár scanóir sraith ilteangach de phatrúin gníomhaithe diúltaithe agus braitheann sé freisin roghanna diúltaithe dara sraithe nuair nach dtairgeann an chéad sraith ach glacadh agus saincheapadh. Fanacht go dtí an nóiméad ceart. Tar éis diúltú a chliceáil, d'fhéadfadh athruithe suntasacha a theacht ar an leathanach: imíonn an mheirge (go minic le beochan), scaoileann an CMP aisghlaonna staid toilithe, ath-mheasúnaíonn bainisteoirí clibeanna a gcuid rialacha, agus d'fhéadfaí scripteanna a lódáil nó a dhí-lódáil. Má sheiceáiltear fianáin ró-luath, gabhtar an staid meán-aistrithe. Má sheiceáiltear ró-dhéanach, cailltear rianú gearrthéarmach a scaoileann agus a chríochnaíonn go tapa. Úsáidimid fanacht il-chomhartha: líonra díomhaoin, cobhsaíocht DOM, agus urlár moille íosta, tiúnáilte ó thástáil eimpíreach trasna na gcéadta cumraíocht CMP. An tástáil athlódála agus athsceithdhúiseacht toilithe. Is í an chéim athlódála a nocht athsceithdhúiseacht toilithe mar fheiniméan. Ní raibh sé ar intinn againn é a aimsiú -- ní raibh seiceáilte ag ár dtástáil sreabhadh diúltaithe bunaidh ach an staid díreach iar-dhiúltaithe. Ach le linn forbartha, thugamar faoi deara suíomhanna a d'fhéach glan tar éis diúltú ach a raibh fianáin rianaithe acu nuair a sheiceálamar arís tar éis athlódáil leathanaigh. Ghlac an dífhabhtú tosaigh leis go raibh fadhb uainithe ag an scanóir. Dhearbhaigh imscrúdú breise go raibh sé fíor: scripteanna tríú páirtí ag athshocrú fianán ar lódáil leathanaigh beag beann ar staid toilithe.Chuireamar braiteachán sainráite athsceithdhúiseachta leis an bpíblíne: tar éis an tsreabhadh diúltaithe, athlódálann an scanóir an leathanach, fanann go cobhsaíonn sé, agus cuireann an fhardal fianán i gcomparáid leis an ngrianghraf iar-dhiúltaithe. Marcáiltear aon fhianán a baineadh trí dhiúltú agus a thagann ar ais tar éis athlódáil mar athsceithdhúiseacht. Ghabh sé seo 1,642 suíomh le 4,932 fianán athsceithdhúiseachta -- toradh a bheadh dofheicthe gan an chéim athlódála.
An poll `waitForScriptIdentifiedCMP`. Lódálann roinnt CMPanna go neamhshioncrónach agus ní rindreálann a meirge go dtí roinnt soicindí tar éis lódáil tosaigh an leathanaigh. Má théann an scanóir ar aghaidh go dtí an chéim diúltaithe sula bhfuil an CMP tosaíthe, cailleann sé an mheirge ar fad nó idirghníomhaíonn sé le UI atá lódáilte go páirteach. Chuireamar meicníocht vótáilte i bhfeidhm a fhanann go mbeidh API JavaScript an CMP ar fáil (m.sh., `__tcfapi` do CMPanna bunaithe ar TCF, an domhanda `Cookiebot` do Cookiebot) sula dtéitear ar aghaidh. Cuireann sé seo moill in aghaidh an scanaidh ach laghdaíonn sé go suntasach diúltuithe bréagacha ó lódáil CMP neamhshioncrónach.Dúshlán 3: Sáithiú Píblíne ar Scála
Ní post meaisín amháin é 97,304 suíomh gréasáin a scanadh. Seolann gach scanadh próiseas Chromium, nascleanúnann chuig suíomh gréasáin, idirghabhann agus aicmíonn na céadta iarratas líonra, tógann grianghraif iolracha, agus ritheann modúil anailíse. Tógann scanadh aonair 30-90 soicind ag brath ar chastacht an tsuímh. Ag 15 scanadh comhthráthach in aghaidh an oibrí, éiríonn bainistíocht acmhainní mar an phríomh-imní innealtóireachta.
An ailtireacht siomafóir
Úsáidimid samhail comhthráthachta bunaithe ar shiomafóir chun líon na bpróiseas Chromium comhuaineach in aghaidh an oibrí a theorannú. Tá siomafóir seasta ag gach oibrí (15 shliotán inár gcumraíocht táirgthe). Faigheann scanadh sliotán sula seolann sé a bhrabhsálaí agus scaoileann ar chríochnú é. Coisceann sé seo ídiú cuimhne -- ídíonn 15 ásc Chromium le hidircheapadh iarratais iomlán RAM suntasach cheana féin -- agus soláthraíonn sé cúlbhrú in aghaidh an chiú Redis.
An díolúine iarratais doiciméid
Go luath san fhorbairt, tháinig fadhb tréchurtha chun cinn: bhí ár loighic idirghabhála iarratais (a iniúchann gach iarratas le haghaidh sábháilteachta SSRF -- ag blocáil iarratais chuig raonta IP príobháideacha, líonraí inmheánacha, agus spriocanna eile a d'fhéadfadh a bheith contúirteach) ag cur moille le gach lódáil acmhainne, lena n-áirítear an príomhiarratas doiciméid. Ós rud é go bhfuil an URL doiciméid bailíochtaithe cheana féin sula dtosaíonn an scanadh, chuireamar seachbhealach mearthreochta isteach: sáraíonn iarratais de chineál doiciméid chuig an URL sprice réamhbhailithe an píblíne idirghabhála iomlán. Bhí tionchar suntasach ag an optamú seo ar an tréchur iomlán mar go mblocálann an t-iarratas doiciméid gach rud eile.
Réamhthéamh DNS
Cuireann an chéad iarratas chuig fearann nua cuardach DNS ar fáil, a d'fhéadfadh 50-200ms in aghaidh an fhearainn a chur leis ar ár mbonneagar. Nuair a théann an meánsuíomh i dteagmháil le 10.4 fearann tríú páirtí (agus suas le 171 ag roinnt díobh), charnaigh am réitigh DNS go suntasach. Chuireamar réamhthéamh DNS i bhfeidhm ag baint úsáide as taisce réititheora Unbound áitiúil: roimh gach scanadh, réitímid an fearann sprice agus téimid an taisce. Freastalaíonn an ásc Unbound freagraí taiscthe do chuardaigh ina dhiaidh sin laistigh den scanadh, ag laghdú forchostais DNS in aghaidh an fhearainn go faoi bhun milleasoicind.
Sábháilteacht SSRF ar scála
Seiceáiltear gach iarratas a idirghabhann an scanóir in aghaidh sraith rialacha sábháilteachta sula gceadaítear dul ar aghaidh. Blocáiltear iarratais chuig raonta IP príobháideacha (RFC 1918, RFC 4193, nasc-áitiúil, lúb-ar-ais). Coisceann sé seo suíomh sprice mailíseach ón scanóir a úsáid mar veicteoir SSRF chun líonraí inmheánacha a fhiosrú.
Ba é an dúshlán ar scála ná idirdhealú a dhéanamh idir blocanna SSRF fíora agus sáithiú siomafóir. Nuair atá gach ceann de na 15 shliotán siomafóir in úsáid agus nach féidir le scanadh sliotán a fháil, tá cuma ar an am istigh mar thoradh cosúil le hiarratas a bhlocáiltear ar chúiseanna sábháilteachta. Chuireamar catagóiriú earráidí sainráite isteach chun "blocáilte toisc go raibh IP príobháideach ag an sprioc" a idirdhealú ó "blocáilte toisc go bhfuil an scanóir ag lántoilleadh." Bhí sé seo riachtanach le haghaidh monatóireachta oibríochtúla agus le haghaidh aicmiú cruinn teipe scanadh.
Dúshlán 4: Braiteachán Seachanta Bot
Le linn an staidéir, d'aithin muid 137 suíomh gréasáin ar cosúil go bhfolónn siad a meirge toilithe go d'aon ghnó ó scanóirí uathoibrithe. Cuirtear an mheirge ar fáil do chuairteoirí daonna ach coiscítear í nuair a bhraitheann an suíomh tréithe brabhsála uathoibrithe.
Is é an mheicníocht is coitianta a d'aithin muid ná rogha cumraíochta `isAcceptAllForBots` na breiseáin WordPress RCB (Real Cookie Banner). Nuair atá sí cumasaithe, braitheann an socrú seo brabhsálaithe uathoibrithe (trí `navigator.webdriver`, heiristici gníomhaire úsáideora, nó comharthaí iompraíochta) agus glacann go huathoibríoch le toiliú ar a son nó cuireann an mheirge i bhfolach go hiomlán. Is é an aidhm, mar atá doiciméadaithe ag an mbreiseán, cuairteoirí uathoibrithe a chosc ó dhialóg toilithe a bheith acu nach féidir leo idirghníomhú go bríoch léi. Is é an éifeacht ná nach bhfeiceann scanóirí comhlíonta -- agus iniúchóirí rialála a úsáideann uirlisí uathoibrithe -- ach suíomh nach bhfuil meicníocht toilithe ar bith le feiceáil air, nuair a fheiceann cuairteoirí daonna meirge toilithe iomlán.
Is fadhb thrédhearcachta é seo. Mura bhfuil meicníocht toilithe suíomh gréasáin infheicthe ach do chuairteoirí daonna, ní féidir í a iniúchadh ar scála. Marcálaimid na suíomhanna seo ar leithligh inár dtorthaí toisc go bhfuil an toradh ar chaighdeán difriúil ó "níor braitheadh meirge." Tá meirge ag an suíomh; tá sé ag roghnú gan í a thaispeáint dúinne.
Brathaimid seachaint bot trí mheascán comharthaí: cumraíocht bhraiteachán bot aitheanta i socruithe CMP (inrochtana trí iniúchadh JavaScript), easaontais idir a thaispeánann an DOM agus a thuairiscíonn API an CMP, agus i gcásanna áirithe trí thorthaí scanadh uathoibrithe a chur i gcomparáid le fíorú láimhe.
Is míchuntas cinnte é an figiúr 137. Ní féidir linn seachaint bot a bhrath ach amháin nuair is féidir linn an mheicníocht a aithint. D'fhéadfadh suíomhanna a úsáideann braiteachán bot níos sofaisticiúla nó saincheaptha ár scanóir agus ár mbraiteachán seachanta araon a shárú go rathúil.
Dúshlán 5: Mí-aithint CMP
Is féidir le suíomh scripteanna iolracha a lódáil a fhéachann cosúil le hardáin bhainistíochta toilithe. Áiríonn PiwikPRO comhpháirt CMP ach is sraith anailísíochta go príomha é. Lódálann roinnt suíomhanna WordPress Complianz in éineacht le breiseán anailísíochta ar leithligh a bhfuil gnéithe CMP-cosúla aige. D'fhéadfadh iarsmaí CMP roimhe seo a bheith fós ag lódáil ar shuíomhanna fiontair in éineacht leis an gceann reatha.
Táirgeann braiteachán simplí -- "má fheicimid an script, is é an CMP é" -- mí-aithintí a chasacadóireachtaí isteach in idirghníomhú meirge mícheart. Má aithníonn an scanóir PiwikPRO mar an CMP agus má dhéanann sé iarracht roghnóirí meirge PiwikPRO a úsáid, d'fhéadfadh sé meirge tarteaucitron iarbhír a rialaíonn toiliú ar an suíomh a chailleadh.
Láimhseálann ár gcur chuige muiníne-bunaithe é seo trí iarrthóirí CMP a rangú. Nuair a bhraitear CMPanna féideartha iolracha:
1. Seiceálaimid cé acu a bhfuil meirge infheicthe sa DOM aige (script i láthair ach gan mheirge ag cialliú gur neamhghníomhach nó gan a bheith ina úsáid CMP é is dócha).
2. Seiceálaimid cé acu a nochtann API CMP gníomhach (m.sh., `__tcfapi` feidhmiúil nó a chomhionann).
3. Tugaimid tosaíocht don CMP a mheaitseálann a roghnóirí fíoraithe eilimintí DOM infheicthe thar an gceann nach mbraitear ach trí URL scripte.
Níl an heiristiúil seo foirfe, ach réitíonn sí na cásanna mí-aitheantais is coitianta a casadh orainn le linn forbartha agus tástála.
Teorainneacha
Ní mhacasamhlaíonn aon scanóir uathoibrithe gach taithí brabhsála daonna go foirfe. Seo na teorainneacha aitheanta:
Meirgeanna ag brath ar GeoIP. Cuireann roinnt CMPanna, go háirithe CookieYes, taithí toilithe difriúla ar fáil bunaithe ar gheolocation IP an chuairteora. Eascraíonn ár scanadh ó shuíomhanna líonra sonracha san Eoraip. Taispeánfaidh suíomh a thaispeánann meirge toilithe do chuairteoirí ón bhFrainc ach ní do chuairteoirí lasmuigh den AE torthaí difriúla ag brath ar thionscnamh an scanadh. Ní scanaimid gach suíomh ó gach tír AE faoi láthair. Shadow DOM dúnta. Rindreálann roinnt CMPanna a meirge laistigh de shadow DOM dúnta, atá dorochtana do ghnáthcheisteanna DOM trí `document.querySelector`. Úsáideann CMP Transcend an cur chuige seo. Is féidir lenár scanóir an eilimint óstach shadow a bhrath ach ní féidir leis a n-ábhar a iniúchadh chun cnaipí glactha/diúltaithe a aimsiú. Is minic a bhíonn na suíomhanna seo neamhchinnte inár dtorthaí. Ainmneacha ranga dinimiciúla agus doiléiriú. Úsáideann roinnt CMPanna, go háirithe Admiral, ainmneacha ranga a ghintear go dinimiciúil a athraíonn ar gach lódáil leathanaigh. Teipeann ar bhraiteachán bunaithe ar roghnóirí dóibh seo toisc nach bhfuil na roghnóirí cobhsaí trasna cuairteanna. Fillimid ar heiristici ginearálta, ach tá muinín níos ísle. Feidhmchláir aon-leathanaigh. Tá sé níos deacra measúnú a dhéanamh ar SPAnna a bhainistíonn staid toilithe go hiomlán i JavaScript taobh an chliaint agus a lódálann an mheicníocht toilithe tar éis athruithe bealach tosaigh (seachas ar lódáil tosaigh an leathanaigh). Nascleanúnann ár scanóir chuig an URL agus fanann go socróidh an leathanach, ach ní ionsamhlaíonn sé nascleanúint laistigh den fheidhmchlár. D'fhéadfaí meirge toilithe nach dtaispeántar ach tar éis don úsáideoir nascleanúint laistigh den SPA a chailleadh. Clúdach teanga. Úsáideann ár mbraiteachán cnaipe diúltaithe meaitseáil téacs trasna sraith teangacha a dtacaítear leo, ach ní chlúdaímid gach teanga AE go cothrom. D'fhéadfadh lipéid cnaipe diúltaithe a bheith ag meirge i Máltais nó Eastóinis nach n-aithníonn ár meaitseáil téacs, rud a fhágann go gcailltear tástáil sreabhadh diúltaithe (cé go bhféadfaí an mheirge féin a bhrath fós le heiristici struchtúrtha). Cásanna imeallchríche uainithe. Caillfidh scanadh a fhanann 15 soicind le haghaidh líonra díomhaoin script a scaoileann 30 soicind tar éis lódáil leathanaigh. Úsáidimid teorainneacha ama flaithiúla, ach tá eireaball fada an iompair neamhshioncrónach deacair a ghabháil go hiomlán go hinbheirthe.Cuireann na teorainneacha seo lenár ráta neamhchinnte 14.9%.
An Bonneagar
Is éard atá sa bhonneagar scanadh táirgthe:
- Inneall scanóra: Feidhmchlár Go ag úsáid chromedp mar chliant CDP le haghaidh uathoibriú Chromium. Roghnaíodh Go dá shamhail comhthráthachta (mapálann goroutines agus cainéil go nádúrtha ar chomhordú scanadh comhthreomhar), a thréithe feidhmíochta, agus a shimpliúlacht imscartha (dénártha statach amháin).
- Am rite brabhsálaí: Chromium gan cheann seolta in aghaidh an scanaidh trí CDP. Faigheann gach scanadh próiseas brabhsálaí úr le nialas staid roinnte.
- Ciú: Ciú oibre le tacaíocht Redis ag dáileadh URLanna ar oibrithe scanóra. Láimhseálann Redis dáileadh post, rianú dul chun cinn, agus ráta-theorannú.
- Bunachar sonraí: PostgreSQL le haghaidh torthaí scanadh buan, torthaí, meiteashonraí fianaise, agus gach sonra struchtúrtha. Stóráiltear scanadh, torthaí, fianáin, iarratais, agus aschuir anailíse go coibhneasta.
- Taisce DNS: Réititheoir Unbound áitiúil a sholáthraíonn cuardaigh DNS taiscthe agus réiteach SSRF-sábháilte.
- Stóráil fianaise: Stóráiltear grianghraif, comhaid HAR, agus tuarascálacha PDF mar dhéantáin bhuana nasctha le taifid scanadh.
Don staidéar 97,304-suíomh, phróiseálamar 114,748 URL iarrthóra (97,304 a críochnaíodh go rathúil) thar thart ar 2.5 lá ag baint úsáide as 3 ásc freastalaí ag rith oibrithe scanóra go comhthreomhar. Rith gach freastalaí próisis oibrithe iolracha le 15 shliotán scanadh comhthráthach an ceann. Bhí an buaic-tréchur thart ar 25-30 scanadh críochnaithe in aghaidh an nóiméid in aghaidh an fhreastalaí.
Ní raibh an CPU ná an chuimhne mar an bpríomh-scrogall ach an líonra: gineann gach scanadh na céadta iarratas amach (chuig an suíomh sprice agus a acmhainní tríú páirtí), agus shásaigh an bandaleithead comhiomlán agus líon na nasc trasna gach scanadh comhthráthach an toilleadh líonra atá ar fáil sula raibh acmhainní eile ídithe.
Dúshláin Oscailte agus Obair Amach Anseo
Tá roinnt fadhbanna gan réiteach nó réitithe go páirteach:
Logánú meirge toilithe. Clúdaíonn ár meaitseáil téacs príomhtheangacha AE ach tá sí neamhiomlán do phobail teanga níos lú. Éilíonn an clúdach a leathnú ní hamháin aistriúcháin a chur leis ach bailíochtú go n-oibríonn na roghnóirí agus patrúin idirghníomhaithe i gceart le leaganacha logánaithe CMP. Monatóireacht fadaimseartha. Tá ár n-ailtireacht reatha optamaithe le haghaidh scanadh pointe-in-am. Éilíonn athruithe in iompar toilithe a bhrath thar am -- ar fheabhsaigh suíomh tar éis forfheidhmithe? ar réitigh nuashonrú CMP rang teipeanna sreabhadh diúltaithe? -- scanadh athráite le hanailís dhifreálach, atá éagsúil ó thaobh ailtireachta ó mheasúnú aonuaire. Tagarmharcáil comhlíonta CMP. Tá na sonraí againn chun rátaí comhlíonta in aghaidh an CMP a mheasúnú (an bhfuil comhlíonadh níos fearr ag Cookiebot ná ag OneTrust?), ach tá sé casta ó thaobh modheolaíochta cáilíocht CMP a scaradh ó cháilíocht cumraíochta oibreora an tsuímh. Breathnóidh CMP a imscarann fiontair mhóra le foirne príobháideachais tiomnaithe níos minice níos fearr san iomlán fiú mura bhfuil an uirlis féin níos comhlíontaí. Fíorú staid toilithe fíor-ama. Oibríonn an scanóir reatha i mód baisce. Éilíonn comhtháthú fíorú toilithe i bpíblínte CI/CD nó monatóireacht fíor-ama modh scanadh níos tapúla, níos éadroime a íobraíonn roinnt doimhneachta fianaise ar mhaithe le luas. Táimid ag fiosrú é seo.An API
Tá an t-inneall scanadh céanna a ndéantar cur síos air sa phostáil seo ar fáil trí API poiblí GDPR Monitor. Is féidir leat iarratais scanadh a chur isteach go ríomhchláraithe, vótáil ar thorthaí, agus torthaí agus déantáin fianaise struchtúrtha a aisghabháil. Seolann an API na sonraí céanna a thaispeánann ár UI ar ais: grianghraif réamh-thoilithe, fardail fianáin, torthaí braite CMP, torthaí sreabhadh diúltaithe, scóir riosca, agus slabhraí fianaise iomlána.
Má tá tú ag tógáil uirlisí comhlíonta, ag comhtháthú seiceálacha príobháideachais i bpíblínte CI/CD, ag déanamh do thaighde féin, nó ag tógáil monatóireachta isteach i gclár príobháideachais, soláthraíonn an API rochtain ar anailís iompraíochta toilithe gan gá le do bhonneagar uathoibrithe Chromium féin a thógáil agus a chothabháil.
Bain triail as tú féin. Tá doiciméadú API ar fáil ag gdprprivacymonitor.eu/developers/api. Cuir URL amháin isteach nó comhtháthaigh monatóireacht uathoibrithe príobháideachais i do shreabhadh oibre.
Seiceáil do shuíomh gréasáin
Rith scanadh comhlíonta GDPR saor in aisce — níl clárú ag teastáil.
Scan do shuíomh gréasáin saor in aisce