Gradient boosting based estimates for trigger efficiency in the CMS experiment
Harkki, Meeri (2024-08-15)
Gradient boosting based estimates for trigger efficiency in the CMS experiment
Harkki, Meeri
(15.08.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024081965428
https://urn.fi/URN:NBN:fi-fe2024081965428
Tiivistelmä
The Standard Model of particle physics describes the nature of fundamental physics, and it is so far the most precise theory regarding this topic. All the particles predicted by this theory have been experimentally discovered, with the Higgs boson being the latest in 2012. The Standard Model, however, cannot explain some of the known phenomena, such as the dark matter or the asymmetry between matter and antimatter, and therefore studies regarding extended versions of the Standard Model are being conducted.
The European Organization for Nuclear Physics (CERN) operates the world's leading particle physics laboratory. This thesis is conducted in the context of the Compact Muon Solenoid (CMS) experiment, which is one of the four main experiments in CERN's Large Hadron Collider (LHC). The particle beams accelerated in the LHC collide inside the CMS nearly 40 million times per second, meaning that the amount of data these collisions produce would be impossible to save in its entirety. This is why the CMS implements a trigger system, which is used to discard the majority of the collision events, while still keeping the most interesting ones.
In this thesis, a new method for measuring the trigger efficiency using a gradient boosting algorithm is presented. Trigger efficiency measures how well the trigger is able to select the events it is supposed to select, and it is defined as the ratio between the events the trigger accepted and all of the events it is supposed to accept. In many ongoing analyses in the CMS, a combination of several trigger algorithms is used, and this may cause complicated relationships between the variables, which the efficiency can be dependent on. These dependencies are difficult to estimate using traditional trigger efficiency measurement methods, so this new method targets these cases, where the efficiency can depend on several partially correlated variables. This method is developed using data and simulation samples from two ongoing analyses in the CMS: a boosted Higgs boson pair production analysis, and a charged Higgs boson search. Hiukkasfysiikan standardimalli kuvaa perusvuorovaikutusten ja alkeishiukkasten luonnetta, ja se on toistaiseksi tarkin teoria kyseisestä aiheesta. Kaikki standardimallin ennustamat hiukkaset on havaittu kokeellisesti, viimeisimpänä Higgsin bosoni vuonna 2012. Standardimalli ei kuitenkaan kykene selittämään joitakin tunnettuja ilmiöitä, kuten pimeää ainetta tai epätasapainoa aineen ja antiaineen välillä, ja tästä syystä tutkitaan myös laajennettuja versioita standardimallista.
European Organization for Nuclear Physics (CERN) on maailman johtava hiukkasfysiikan tutkimuslaitos. Tämä tutkielma on toteutettu CMS-koeaseman (engl. Compact Muon Solenoid) kontekstissa. CMS on yksi CERNin suuren hadronitörmäyttimen (engl. Large Hadron Collider, LHC) pääkokeista. LHC-törmäyttimessä kiihdytetyt hiukkaset törmäävät CMS-hiukkasilmaisimessa lähes 40 miljoonaa kertaa sekunnissa johtaen siihen, että näiden törmäysten tuottama datamäärä olisi mahdotonta tallentaa kokonaisuudessaan. Tämän vuoksi CMS-koeasema hyödyntää liipaisujärjestelmää (engl. trigger system), jota käytetään hylkäämään suurin osa törmäystapahtumista säilyttäen silti kaikista kiinnostavimmat tapahtumat.
Tässä tutkielmassa esitellään uusi tapa mitata liipaisutehokkuutta (engl. trigger efficiency) käyttämällä gradienttitehostuspohjaista (engl. gradient boosting) algoritmia. Liipaisutehokkuudella mitataan liipaisimen kykyä valita niitä törmäystapahtumia, joita sen on tarkoitus valita, ja liipaisutehokkuus määritellään liipaisimen valitsemien törmäystapahtumien ja kaikkien törmäystapahtumien suhteena. Monissa CMS-koeaseman analyyseissä käytetään useiden liipaisinalgoritmien yhdistelmiä, mikä voi aiheuttaa monimutkaisia suhteita muuttujien välillä, joista myös liipaisutehokkuus voi olla riippuvainen. Nämä riippuvuudet ovat vaikeita arvioida käyttäen perinteisiä liipaisutehokkuuden arviointimenetelmiä, joten tässä tutkielmassa esitelty uusi menetelmä kohdistuu erityisesti näihin tilanteisiin, joissa liipaisutehokkuus voi riippua useista osittain keskenään korreloivista muuttujista. Tämä menetelmä on kehitetty käyttäen dataa ja simulaatiota kahdesta eri CMS-kokeessa käynnissä olevasta analyysistä: kahden korkean liikemäärän Higgsin bosonin tuotannon analyysistä, sekä sähköisesti varatun Higgsin bosonin etsinnästä.
The European Organization for Nuclear Physics (CERN) operates the world's leading particle physics laboratory. This thesis is conducted in the context of the Compact Muon Solenoid (CMS) experiment, which is one of the four main experiments in CERN's Large Hadron Collider (LHC). The particle beams accelerated in the LHC collide inside the CMS nearly 40 million times per second, meaning that the amount of data these collisions produce would be impossible to save in its entirety. This is why the CMS implements a trigger system, which is used to discard the majority of the collision events, while still keeping the most interesting ones.
In this thesis, a new method for measuring the trigger efficiency using a gradient boosting algorithm is presented. Trigger efficiency measures how well the trigger is able to select the events it is supposed to select, and it is defined as the ratio between the events the trigger accepted and all of the events it is supposed to accept. In many ongoing analyses in the CMS, a combination of several trigger algorithms is used, and this may cause complicated relationships between the variables, which the efficiency can be dependent on. These dependencies are difficult to estimate using traditional trigger efficiency measurement methods, so this new method targets these cases, where the efficiency can depend on several partially correlated variables. This method is developed using data and simulation samples from two ongoing analyses in the CMS: a boosted Higgs boson pair production analysis, and a charged Higgs boson search.
European Organization for Nuclear Physics (CERN) on maailman johtava hiukkasfysiikan tutkimuslaitos. Tämä tutkielma on toteutettu CMS-koeaseman (engl. Compact Muon Solenoid) kontekstissa. CMS on yksi CERNin suuren hadronitörmäyttimen (engl. Large Hadron Collider, LHC) pääkokeista. LHC-törmäyttimessä kiihdytetyt hiukkaset törmäävät CMS-hiukkasilmaisimessa lähes 40 miljoonaa kertaa sekunnissa johtaen siihen, että näiden törmäysten tuottama datamäärä olisi mahdotonta tallentaa kokonaisuudessaan. Tämän vuoksi CMS-koeasema hyödyntää liipaisujärjestelmää (engl. trigger system), jota käytetään hylkäämään suurin osa törmäystapahtumista säilyttäen silti kaikista kiinnostavimmat tapahtumat.
Tässä tutkielmassa esitellään uusi tapa mitata liipaisutehokkuutta (engl. trigger efficiency) käyttämällä gradienttitehostuspohjaista (engl. gradient boosting) algoritmia. Liipaisutehokkuudella mitataan liipaisimen kykyä valita niitä törmäystapahtumia, joita sen on tarkoitus valita, ja liipaisutehokkuus määritellään liipaisimen valitsemien törmäystapahtumien ja kaikkien törmäystapahtumien suhteena. Monissa CMS-koeaseman analyyseissä käytetään useiden liipaisinalgoritmien yhdistelmiä, mikä voi aiheuttaa monimutkaisia suhteita muuttujien välillä, joista myös liipaisutehokkuus voi olla riippuvainen. Nämä riippuvuudet ovat vaikeita arvioida käyttäen perinteisiä liipaisutehokkuuden arviointimenetelmiä, joten tässä tutkielmassa esitelty uusi menetelmä kohdistuu erityisesti näihin tilanteisiin, joissa liipaisutehokkuus voi riippua useista osittain keskenään korreloivista muuttujista. Tämä menetelmä on kehitetty käyttäen dataa ja simulaatiota kahdesta eri CMS-kokeessa käynnissä olevasta analyysistä: kahden korkean liikemäärän Higgsin bosonin tuotannon analyysistä, sekä sähköisesti varatun Higgsin bosonin etsinnästä.