Analyse syntaxique et lexicale des conflits dans les discussions de la Wikipédia francophone
Dekker, Marko (2017-12-04)
Analyse syntaxique et lexicale des conflits dans les discussions de la Wikipédia francophone
Dekker, Marko
(04.12.2017)
Tätä artikkelia/julkaisua ei ole tallennettu UTUPubiin. Julkaisun tiedoissa voi kuitenkin olla linkki toisaalle tallennettuun artikkeliin / julkaisuun.
Turun yliopisto
Tiivistelmä
Les conflits sur les pages de discussion de Wikipédia constituent un problème important pour l’encyclopédie. Nous analysons les traits syntaxiques et lexicaux des conflits afin de fournir des résultats qui pourraient servir comme base pour des donnés d’entrainement permettant une détection automatique des conflits. Notre corpus consiste en environ 1700 messages sur cinq thèmes controversés au domaine des sciences et des techniques, rassemblé dans le cadre du projet Wikiconflicts. Nous analysons la syntaxe par la méthode de l’analyse de constituants immédiats à l’aide de l’outil d’analyse automatique XIP. Dans l’analyse lexicale, nous nous concentrons surtout sur la polarité des mots. Pour déterminer la polarité des mots, nous nous appuyons sur la liste de polarités FEEL, consistant en plus de 141 000 mots. Parce qu’il existe peu de recherche antérieure dans ce cadre, nous appliquons aussi des résultats obtenus par l’analyse de discours.
Plus spécifiquement, nous visons à établir une différence entre un désaccord et un conflit et à classifier les messages conflictuels selon les tours de parole mise en question, attaque et défense. Il est important de pouvoir distinguer un conflit d’un désaccord parce que le but des espaces de discussion est d’aider à résoudre les désaccords. Nous prenons en compte les traits suivants : l’interaction entre les parties, la polarité des mots, les exclamations, les interrogations et les négations. Notre analyse montre qu’un conflit et un désaccord peuvent manifester les mêmes traits, mais ils sont présents d’une manière plus importante dans les conflits. Par exemple, si une phrase d’un message dans notre corpus contient au moins deux mots à polarité négative et une référence à l’autre partie, il s’agit d’une mise en question ou attaque. Par contre, si dans la phrase, référence est faite au pronom je et au moins un mot à polarité positive est utilisé, le message peut être classifié comme une défense. La répétition d’un même trait sert également à distinguer un conflit dans le cas des exclamations et interrogations : si une phrase contient un enchainement d’au moins deux phrases interrogatives ou exclamatives, la phrase est conflictuelle dans notre corpus. En ce qui concerne les négations, elles sont plus fréquentes dans les conflits que dans les discussions neutres, mais seules les négations ne distinguent pas un conflit. Les négations sont pourtant importantes à considérer en analysant la polarité des mots, car elles inversent leur polarité.
Comparé à la recherche antérieure, nous avons pu identifier plusieurs nouvelles façons de repérer des conflits dans la Wikipédia francophone. Dans la recherche ultérieure, la liste de polarités pourrait être adaptée au contexte de Wikipédia et du langage courant dans l’informatique parce que plusieurs mots sur la liste ont une autre connotation dans ce contexte.
Plus spécifiquement, nous visons à établir une différence entre un désaccord et un conflit et à classifier les messages conflictuels selon les tours de parole mise en question, attaque et défense. Il est important de pouvoir distinguer un conflit d’un désaccord parce que le but des espaces de discussion est d’aider à résoudre les désaccords. Nous prenons en compte les traits suivants : l’interaction entre les parties, la polarité des mots, les exclamations, les interrogations et les négations. Notre analyse montre qu’un conflit et un désaccord peuvent manifester les mêmes traits, mais ils sont présents d’une manière plus importante dans les conflits. Par exemple, si une phrase d’un message dans notre corpus contient au moins deux mots à polarité négative et une référence à l’autre partie, il s’agit d’une mise en question ou attaque. Par contre, si dans la phrase, référence est faite au pronom je et au moins un mot à polarité positive est utilisé, le message peut être classifié comme une défense. La répétition d’un même trait sert également à distinguer un conflit dans le cas des exclamations et interrogations : si une phrase contient un enchainement d’au moins deux phrases interrogatives ou exclamatives, la phrase est conflictuelle dans notre corpus. En ce qui concerne les négations, elles sont plus fréquentes dans les conflits que dans les discussions neutres, mais seules les négations ne distinguent pas un conflit. Les négations sont pourtant importantes à considérer en analysant la polarité des mots, car elles inversent leur polarité.
Comparé à la recherche antérieure, nous avons pu identifier plusieurs nouvelles façons de repérer des conflits dans la Wikipédia francophone. Dans la recherche ultérieure, la liste de polarités pourrait être adaptée au contexte de Wikipédia et du langage courant dans l’informatique parce que plusieurs mots sur la liste ont une autre connotation dans ce contexte.