Обработка естественного языка, пожалуй, наиболее обсуждаемая область науки о данных. Это интересно, многообещающе и может изменить то, как мы видим современные технологии. Не только технологии, но и способ изменить то, как мы воспринимаем человеческие языки.
Обработка естественного языка привлекает слишком много внимания и внимания как со стороны исследователей, так и со стороны промышленности, потому что это сочетание человеческих языков и технологий. С тех пор, как были созданы компьютеры, люди мечтали о создании компьютерных программ, способных понимать человеческие языки.
Достижения в области машинного обучения и искусственного интеллекта стимулировали появление и постоянный интерес к обработке естественного языка. Этот интерес будет только расти, особенно теперь, когда мы видим, как обработка естественного языка может облегчить нашу жизнь. Об этом говорят такие технологии, как Alexa, Siri и автоматические переводчики.
По правде говоря, именно обработка естественного языка - это причина, по которой я занялся наукой о данных. Я всегда был очарован языками и тем, как они развиваются на основе человеческого опыта и времени. Я хотел знать, как мы можем научить компьютеры понимать наши языки, и не только это, но как мы можем сделать их способными использовать их для общения и понимания нас.
В этой статье я рассмотрю 6 основных методов обработки естественного языка, которые вам следует знать, если вы серьезно относитесь к этой области.
Лемматизация и стемминг
Стемминг и лемматизация, вероятно, являются первыми двумя шагами для создания проекта НЛП - вы часто используете один из двух. Они представляют собой основные концепции данной области и часто являются первыми методами, которые вы будете применять на своем пути к тому, чтобы стать мастером НЛП.
Часто новички путают эти две техники. Хотя у них есть общие черты, они совершенно разные.
Stemming: Stemming - это набор алгоритмов, которые работают путем отсечения конца начала слова, чтобы достичь его инфинитивной формы. Эти алгоритмы делают это, учитывая общие префиксы и суффиксы анализируемого языка. Вырезание слов может привести к правильной форме инфинитива, но это не всегда так. Есть много алгоритмов выполнения стемминга; наиболее распространенным в английском языке является стеммер Портера. Этот алгоритм состоит из 5 этапов, которые работают последовательно для получения корня слова.
Лемматизация: чтобы преодолеть недостатки стемминга, были разработаны алгоритмы лемматизации. В этих типах алгоритмов некоторые лингвистические и грамматические знания должны быть переданы алгоритму, чтобы принимать лучшие решения при извлечении инфинитивной формы слова. Чтобы алгоритмы лемматизации работали точно, им необходимо извлечь правильную лемму из каждого слова. Поэтому им часто требуется словарь языка, чтобы правильно классифицировать каждое слово.
Image by the author, made using Canva
Основываясь на этих определениях, вы можете представить, что создание лемматизатора сложнее и требует больше времени, чем создание стеммера. Однако он более точен и приведет к меньшему шуму в окончательных результатах анализа.
Извлечение ключевых слов
Извлечение ключевых слов - иногда называемое обнаружением ключевых слов или анализом ключевых слов - это метод НЛП, используемый для анализа текста. Основная цель этого метода - автоматическое извлечение наиболее часто встречающихся слов и выражений из основного текста. Его часто используют в качестве первого шага для обобщения основных идей текста и передачи ключевых идей, представленных в тексте.
В основе алгоритмов извлечения ключевых слов лежит мощь машинного обучения и искусственного интеллекта. Они используются для извлечения и упрощения данного текста, чтобы он был понятен компьютеру. Алгоритм можно адаптировать и применять к любому типу контекста, от академического текста до разговорного текста, используемого в сообщениях в социальных сетях.
Извлечение ключевых слов имеет множество применений в современном мире, включая мониторинг социальных сетей, обслуживание клиентов / обратную связь, анализ продуктов и поисковую оптимизацию.
Распознавание именованных сущностей (NER)
Как и стемминг и лемматизация, распознавание именованных сущностей или NER, основные и основные методы НЛП. NER - это метод, используемый для извлечения сущностей из тела текста, используемый для определения основных понятий в тексте, таких как имена людей, места, даты и т. д.
Алгоритм NER в основном состоит из двух шагов. Во-первых, ему необходимо обнаружить сущность в тексте, а затем отнести ее к одной установленной категории. Производительность NER сильно зависит от обучающих данных, используемых для разработки модели. Чем больше данные обучения соответствуют фактическим данным, тем точнее будут результаты.
Еще одним фактором, влияющим на точность модели NER, являются лингвистические знания, используемые при построении модели. При этом существуют открытые платформы NER, которые предварительно обучены и готовы к использованию.
NER можно использовать в различных областях, таких как создание систем рекомендаций, в здравоохранении, чтобы предоставлять более качественные услуги пациентам, и в академических кругах, чтобы помочь студентам получить материалы, соответствующие их объему обучения.
Тематическое моделирование
Вы можете использовать методы извлечения ключевых слов, чтобы сузить большой объем текста до нескольких основных ключевых слов и идей. Из чего вы, вероятно, сможете извлечь основную тему текста.
Еще один, более продвинутый метод определения темы текста - это тематическое моделирование - топ-моделирование, основанное на неконтролируемом машинном обучении, которое не требует помеченных данных для обучения.
Для моделирования темы текста можно использовать несколько алгоритмов, таких как модель коррелированной темы, скрытое распределение Дирихле и анализ скрытых настроений. Наиболее часто используемый подход - это скрытый метод Дирихле. Этот подход анализирует текст, разбивает его на слова и утверждения, а затем извлекает из этих слов и утверждений различные темы. Все, что вам нужно сделать, это скормить алгоритму текст, и он будет его брать оттуда.
Обобщение
Одним из полезных и многообещающих приложений НЛП является реферирование текста. Это сокращает большой объем текста до меньшего размера, содержащего основное сообщение текста. Этот метод часто используется в длинных новостных статьях и для обобщения исследовательских работ.
Резюмирование текста - это продвинутая техника, в которой для определения целей используются другие методы, о которых мы только что упомянули, например моделирование тем и извлечение ключевых слов. Это устанавливается в два этапа: извлечение и затем абстракция.
На этапе извлечения алгоритмы создают резюме, извлекая важные части текста в зависимости от их частоты. После этого алгоритм генерирует еще одно резюме, на этот раз путем создания совершенно нового текста, который передает то же сообщение, что и исходный текст. Существует множество алгоритмов реферирования текста, например LexRank и TextRank.
В LexRank алгоритм классифицирует предложения в тексте с помощью модели ранжирования. Ранги основаны на сходстве предложений; чем ближе предложение к остальному тексту, тем выше его рейтинг.
Анализ настроений
Самая известная, широко известная и используемая техника НЛП - это, без сомнения, анализ сантиментов. Основная функция этого метода - извлекать тональность, скрывающуюся за телом текста, путем анализа содержащихся слов.
Самые простые результаты этого метода лежат в шкале с 3 областями: отрицательным, положительным и нейтральным. Алгоритм может быть более сложным и продвинутым; однако в этом случае результаты будут числовыми. Если результатом является отрицательное число, тогда тональность, стоящая за текстом, имеет отрицательный тон, а если положительная - то некоторая положительность в тексте.
Анализ настроений - одно из самых широких применений методов машинного обучения. Это может быть реализовано с использованием контролируемых или неконтролируемых методов. Возможно, наиболее распространенный контролируемый метод анализа настроений - это наивный байесовский алгоритм. Другие контролируемые алгоритмы машинного обучения, которые можно использовать, - это повышение градиента и случайный лес.
Выводы
Желание людей, чтобы компьютеры понимали их и общались с ними, используя разговорные языки, - это идея, столь же стара, как и сами компьютеры. Благодаря быстрому развитию технологий и алгоритмов машинного обучения эта идея больше не является идеей. Это реальность, которую мы можем видеть и испытывать в повседневной жизни. Эта идея - основная подводная сила обработки естественного языка.
Обработка естественного языка - одна из актуальных тем, привлекающих таланты. Компании и исследовательские институты соревнуются за создание компьютерных программ, которые полностью понимают и используют человеческие языки. Виртуальные агенты и переводчики быстро улучшились с момента их появления в 1960-х годах.
Несмотря на различные задачи, которые может выполнять обработка естественного языка, чтобы приступить к работе и начать создавать свои собственные проекты, вам необходимо полностью освоить шесть основных основных методов обработки естественного языка.
Эти методы являются основными строительными блоками большинства, если не всех, алгоритмов обработки естественного языка. Итак, если вы понимаете эти техники и когда их использовать, ничто не сможет вас остановить.
Перевод статьи с сайта: https://towardsdatascience.com/
Обработка естественного языка привлекает слишком много внимания и внимания как со стороны исследователей, так и со стороны промышленности, потому что это сочетание человеческих языков и технологий. С тех пор, как были созданы компьютеры, люди мечтали о создании компьютерных программ, способных понимать человеческие языки.
Достижения в области машинного обучения и искусственного интеллекта стимулировали появление и постоянный интерес к обработке естественного языка. Этот интерес будет только расти, особенно теперь, когда мы видим, как обработка естественного языка может облегчить нашу жизнь. Об этом говорят такие технологии, как Alexa, Siri и автоматические переводчики.
По правде говоря, именно обработка естественного языка - это причина, по которой я занялся наукой о данных. Я всегда был очарован языками и тем, как они развиваются на основе человеческого опыта и времени. Я хотел знать, как мы можем научить компьютеры понимать наши языки, и не только это, но как мы можем сделать их способными использовать их для общения и понимания нас.
В этой статье я рассмотрю 6 основных методов обработки естественного языка, которые вам следует знать, если вы серьезно относитесь к этой области.
Лемматизация и стемминг
Стемминг и лемматизация, вероятно, являются первыми двумя шагами для создания проекта НЛП - вы часто используете один из двух. Они представляют собой основные концепции данной области и часто являются первыми методами, которые вы будете применять на своем пути к тому, чтобы стать мастером НЛП.
Часто новички путают эти две техники. Хотя у них есть общие черты, они совершенно разные.
Stemming: Stemming - это набор алгоритмов, которые работают путем отсечения конца начала слова, чтобы достичь его инфинитивной формы. Эти алгоритмы делают это, учитывая общие префиксы и суффиксы анализируемого языка. Вырезание слов может привести к правильной форме инфинитива, но это не всегда так. Есть много алгоритмов выполнения стемминга; наиболее распространенным в английском языке является стеммер Портера. Этот алгоритм состоит из 5 этапов, которые работают последовательно для получения корня слова.
Лемматизация: чтобы преодолеть недостатки стемминга, были разработаны алгоритмы лемматизации. В этих типах алгоритмов некоторые лингвистические и грамматические знания должны быть переданы алгоритму, чтобы принимать лучшие решения при извлечении инфинитивной формы слова. Чтобы алгоритмы лемматизации работали точно, им необходимо извлечь правильную лемму из каждого слова. Поэтому им часто требуется словарь языка, чтобы правильно классифицировать каждое слово.
Image by the author, made using Canva
Основываясь на этих определениях, вы можете представить, что создание лемматизатора сложнее и требует больше времени, чем создание стеммера. Однако он более точен и приведет к меньшему шуму в окончательных результатах анализа.
Извлечение ключевых слов
Извлечение ключевых слов - иногда называемое обнаружением ключевых слов или анализом ключевых слов - это метод НЛП, используемый для анализа текста. Основная цель этого метода - автоматическое извлечение наиболее часто встречающихся слов и выражений из основного текста. Его часто используют в качестве первого шага для обобщения основных идей текста и передачи ключевых идей, представленных в тексте.
В основе алгоритмов извлечения ключевых слов лежит мощь машинного обучения и искусственного интеллекта. Они используются для извлечения и упрощения данного текста, чтобы он был понятен компьютеру. Алгоритм можно адаптировать и применять к любому типу контекста, от академического текста до разговорного текста, используемого в сообщениях в социальных сетях.
Извлечение ключевых слов имеет множество применений в современном мире, включая мониторинг социальных сетей, обслуживание клиентов / обратную связь, анализ продуктов и поисковую оптимизацию.
Распознавание именованных сущностей (NER)
Как и стемминг и лемматизация, распознавание именованных сущностей или NER, основные и основные методы НЛП. NER - это метод, используемый для извлечения сущностей из тела текста, используемый для определения основных понятий в тексте, таких как имена людей, места, даты и т. д.
Алгоритм NER в основном состоит из двух шагов. Во-первых, ему необходимо обнаружить сущность в тексте, а затем отнести ее к одной установленной категории. Производительность NER сильно зависит от обучающих данных, используемых для разработки модели. Чем больше данные обучения соответствуют фактическим данным, тем точнее будут результаты.
Еще одним фактором, влияющим на точность модели NER, являются лингвистические знания, используемые при построении модели. При этом существуют открытые платформы NER, которые предварительно обучены и готовы к использованию.
NER можно использовать в различных областях, таких как создание систем рекомендаций, в здравоохранении, чтобы предоставлять более качественные услуги пациентам, и в академических кругах, чтобы помочь студентам получить материалы, соответствующие их объему обучения.
Тематическое моделирование
Вы можете использовать методы извлечения ключевых слов, чтобы сузить большой объем текста до нескольких основных ключевых слов и идей. Из чего вы, вероятно, сможете извлечь основную тему текста.
Еще один, более продвинутый метод определения темы текста - это тематическое моделирование - топ-моделирование, основанное на неконтролируемом машинном обучении, которое не требует помеченных данных для обучения.
Для моделирования темы текста можно использовать несколько алгоритмов, таких как модель коррелированной темы, скрытое распределение Дирихле и анализ скрытых настроений. Наиболее часто используемый подход - это скрытый метод Дирихле. Этот подход анализирует текст, разбивает его на слова и утверждения, а затем извлекает из этих слов и утверждений различные темы. Все, что вам нужно сделать, это скормить алгоритму текст, и он будет его брать оттуда.
Обобщение
Одним из полезных и многообещающих приложений НЛП является реферирование текста. Это сокращает большой объем текста до меньшего размера, содержащего основное сообщение текста. Этот метод часто используется в длинных новостных статьях и для обобщения исследовательских работ.
Резюмирование текста - это продвинутая техника, в которой для определения целей используются другие методы, о которых мы только что упомянули, например моделирование тем и извлечение ключевых слов. Это устанавливается в два этапа: извлечение и затем абстракция.
На этапе извлечения алгоритмы создают резюме, извлекая важные части текста в зависимости от их частоты. После этого алгоритм генерирует еще одно резюме, на этот раз путем создания совершенно нового текста, который передает то же сообщение, что и исходный текст. Существует множество алгоритмов реферирования текста, например LexRank и TextRank.
В LexRank алгоритм классифицирует предложения в тексте с помощью модели ранжирования. Ранги основаны на сходстве предложений; чем ближе предложение к остальному тексту, тем выше его рейтинг.
Анализ настроений
Самая известная, широко известная и используемая техника НЛП - это, без сомнения, анализ сантиментов. Основная функция этого метода - извлекать тональность, скрывающуюся за телом текста, путем анализа содержащихся слов.
Самые простые результаты этого метода лежат в шкале с 3 областями: отрицательным, положительным и нейтральным. Алгоритм может быть более сложным и продвинутым; однако в этом случае результаты будут числовыми. Если результатом является отрицательное число, тогда тональность, стоящая за текстом, имеет отрицательный тон, а если положительная - то некоторая положительность в тексте.
Анализ настроений - одно из самых широких применений методов машинного обучения. Это может быть реализовано с использованием контролируемых или неконтролируемых методов. Возможно, наиболее распространенный контролируемый метод анализа настроений - это наивный байесовский алгоритм. Другие контролируемые алгоритмы машинного обучения, которые можно использовать, - это повышение градиента и случайный лес.
Выводы
Желание людей, чтобы компьютеры понимали их и общались с ними, используя разговорные языки, - это идея, столь же стара, как и сами компьютеры. Благодаря быстрому развитию технологий и алгоритмов машинного обучения эта идея больше не является идеей. Это реальность, которую мы можем видеть и испытывать в повседневной жизни. Эта идея - основная подводная сила обработки естественного языка.
Обработка естественного языка - одна из актуальных тем, привлекающих таланты. Компании и исследовательские институты соревнуются за создание компьютерных программ, которые полностью понимают и используют человеческие языки. Виртуальные агенты и переводчики быстро улучшились с момента их появления в 1960-х годах.
Несмотря на различные задачи, которые может выполнять обработка естественного языка, чтобы приступить к работе и начать создавать свои собственные проекты, вам необходимо полностью освоить шесть основных основных методов обработки естественного языка.
Эти методы являются основными строительными блоками большинства, если не всех, алгоритмов обработки естественного языка. Итак, если вы понимаете эти техники и когда их использовать, ничто не сможет вас остановить.
Перевод статьи с сайта: https://towardsdatascience.com/