Der neue Yahoo-Algorithmus kann Online-Missbrauch im Kontext erkennen, nicht nur Inhalte - Rechnen - 2019

Anonim

Es gibt eine Menge Müll im Internet, und während Menschen vielleicht nicht die emotionale Fähigkeit haben, alles durchzukämmen, gibt es einen neuen Algorithmus von Yahoo. Das ist richtig - es ist viel einfacher geworden, Online-Missbrauch zu erkennen, und das alles dank einer "maschinell lernenden Methode zur Erkennung von Hassreden auf Online-Benutzerkommentare". Verspornt, "einen State-of-the-Art-Deep-Learning-Ansatz zu übertreffen" Dieser neue Algorithmus ist in der Lage, missbräuchliche Nachrichten mit einer Genauigkeit von etwa 90 Prozent zu erkennen.

Wie haben die das getan? Es begann mit einem neuartigen Datensatz, den Yahoo selbst erstellte, der sich aus hasserfüllten oder anderweitig anstößigen Artikelkommentaren zusammensetzte, die zuvor von Yahoo-Redakteuren (ja, Menschen) notiert worden waren. Dann wandte das Team einen Prozess an, der als "Worteinbettung" bekannt ist und es ihnen ermöglichte, Wörter in Strings zu untersuchen. Das bedeutet, dass, selbst wenn ein einzelnes Wort nicht von Natur aus beleidigend ist, der Algorithmus in der Lage ist zu bestimmen, ob der Ausdruck, der diese Wörter umfasst, letztlich verletzend ist. Dies unterscheidet sich von den meisten anderen verfügbaren Systemen, die im Allgemeinen nach Schlüsselwörtern Ausschau halten, aber möglicherweise verfeinerte Arten von Hassreden oder beleidigenden Inhalten vermissen.

"Die automatische Erkennung von Missbrauch ist überraschend schwierig", sagte der Forscher Alex Krasodomski-Jones vom britischen Zentrum für Analyse von Social Media dem MIT Technology Review. "Die Sprache des Missbrauchs ist amorph - verändert sich häufig und wird oft in einer Weise verwendet, die keinen Missbrauch bedeutet, etwa wenn rassistisch oder sexuell aufgeladene Begriffe von den Gruppen, die sie einmal verunglimpft haben, angeeignet werden."

Er fuhr fort: "Bei zehn Tweets wird sich eine Gruppe von Menschen nur selten darüber einigen, welche als missbräuchlich eingestuft werden sollten. Sie können sich also vorstellen, wie schwierig es für einen Computer wäre."

Dennoch scheint die Unterstützung einer Maschine in diesem Prozess ein hilfreicher Schritt vorwärts zu sein, vor allem angesichts der Fülle an Inhalten, die jetzt im Internet verfügbar sind.