Определение имени в тексте/элементе

Они пытаются понять смысл предложение. Думаю это не то что тебе нужно.

1 лайк

Что получилось в итоге:

Собрал себе базу из популярных имен. По ховеру на любые два слова написанные с большой буквы и разделенные пробелом шлется сообщение из контент скриптов расширения в бекграунд скрипты, где лежит база и все остальные проверки.

В результате главная проблема точности, это качество и размер загруженной базы имен. Улучшить можно алгоритм поиска по базе, но пока она не большая и это все микрооптимизации

Остались проблемы:
Для разных языков нужны разные базы
Есть имена в 3-4 слова, встречаются всякие дифисы и все такое.
Короче в итоге точность так себе, хотелось больше)

Я думал над идеей, может проверять слова наоборот? Типа что-то, что не является “обычным” словом, наверняка имя или что-то в этом роде)

Может кому-то стало интересно и есть какие-то идеи?)

1 лайк

Если проблема только в этом то высылать можно целиком предложение или слово + окружающие слова. Не знаю на сколько это изменит точность.

Еще вариант - с помощью http://compromise.cool/ узнавать существительные, и уже их отправлять для анализа. Вопрос для разных языков остается открытым.

Возможно делать этот парсинг на сервере. Но тогда становится вопрос privacy.

Думаю не влетит. Любая ошибка в понимании того что слово “необычное” (а сюда попадут все разговорные формы, например) будет давать false-positive срабатывания.


Возвращаясь к вопросу из поста “стоит ли оно того” предположу что не стоит. Задача звучит простой пока не начинаешь копать сколько работы скрывается за ней.

1 лайк