Задание по квантитативной лингвистике - shikardos.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Задание по квантитативной лингвистике - страница №1/1

Задание по квантитативной лингвистике

С.Ю.Толдова: toldova@yandex.ru

Практические задания по квантитативной лингвистике к зачету1


Для сдачи зачета необходимо выполнить:

задание 1

задание 2 (кроме группы, у которой проект по выделению устойчивых словосочетаний)

задание 5 или 6 (на выбор) для группы, которая выполняет проект по устойчивым словосочетаниям


Задания можно выполнять группами 2-3 человека.
  1. Задание 1. Частотные характеристики текста


Задание 1. (для группы из 2 человек)

Каждый из членов группы выбирает одну из группы текстов или один из типов единиц подсчета в том же типе текстов, что и другой член группы. Общий объем анализируемого текста для каждого должен быть не менее 500 тыс. словоупотреблений.



Задание 1.1.

Составить частотные словари для текстов объемом (приблизительно): 5000, 10000, 50000, 100000, 200000, 500000 словоупотреблений.


Комментарий: Можете воспользоваться программой Bykba, конкордансером AntConc http://www.antlab.sci.waseda.ac.jp/software.html, kfNgram http://www.kwicfinder.com/kfNgram/kfNgramHelp.html). Можете также воспользоваться любым другим конкордансером или своей собственной программой.


NB: Сами словари для сдачи на зачете не нужны.
Задание 1.2.

Для каждой из групп текстов для текстов объемом:



  • 5000

  • 10000

  • 100000

  • 500000 словоупотреблений

привести:

    • 50 самых частотных слов,

    • 50 любых слов из середины частотного списка

    • 50 любых слов, различающихся по своим лексико-грамматическим, семантическим характеристикам, а также различающихся по длине в морфемах и в буквах, встретившихся по 1 разу в тексте

Сравнить данные о 50 самых частотных слов по группам текстов и с данными одного из частотных словарей (На выбор: новый частотный словарь русского языка на основе данных Национального корпуса русского языка, http://dict.ruslang.ru/freq.php, словарь Засориной, частотный список Шарова, Google n-grams http://storage.googleapis.com/books/ngrams/books/datasetsv2.html)

Определите частоту выбранных Вами слов, встретившихся 1 раз в тексте объемом 5000 словоупотреблений и 500000 словоупотреблений, по частотному словарю (для русского языка Новый частотный словарь русского языка или список Шарова



Пояснение:

вначале обработать текст объемом 5000, затем к нему добавить текст до 10000 словоупотреблений и т.д.2



Задание 1.3.

Построить таблицу и график зависимости (или диаграмму зависимости) в логарифмических координатах объема словаря от объема текста (в лексемах или словоформах) (разбив весь анализируемый корпус на подкорпуса по 25000)3.



Задание 1.4.

Для корпусов 5000, 10000, 100000, 500000 определить процент покрытия текста 50 самыми частотными словами. Определить процент покрытия текста словами, встретившимися 1 раз.


Задание 1.5. Выбрать 6 единиц (лексем) из частотного словаря: 2 общеупотребительные лексемы из верхней части списка, 4 из средней по частоте части списка – по 2 слова с одинаковой частотой (в каждой паре 1 – общеупотребительное, второе – «тематическое»). Для каждой лексемы определить ее тематический вес в 2-х фрагментах корпуса объемом 20 тыс. (считать каждый фрагмент корпуса в 20 тыс. словоупотреблений отдельным текстом). Построить соответствующую диаграмму распределения в корпусе для каждой из выбранных единиц, разбив анализируемый корпус на подкорпусы по 20000 (по оси У – частота соответствующей единицы на 20000). Для каждой из лексем определить среднюю частоту в корпусе, среднее отклонение и коэффициент вариации.

Пояснение:

Построить по текстам матрицу Термин - Текст с указанием частоты словоформы (лексемы) для каждого текста. Вычислить tf.idf.


Список текстов к заданию 1


Типы текстов и типы учитываемых при подсчете единиц:

а) Несколько больщих художественных произведений

б) Корпус новостных текстов (можно получить у меня)

в) Специальный корпус текстов "Фармпрепарат и медицинская техника"

г) научные тексты

д) корпус газетных текстов Reuters (для английского языка)


Примечание Для получение данных по леммам, а не по словоформам можно воспользоваться программой MyStem - (русский морфологический анализатор Яндекса - свободный для некоммерческого использования (консультацию по его применению можно получить у Мишы Кудинова или Руслана Идрисова))
Типы единиц подсчета:

а) лексемы

б) словоформы

  1. Задание 2. Квантитативные методы в корпусной лексикографии (одно из заданий на выбор)


    1. Прочитайте главу 5. Manning Collocations (или русский перевод) http://nlp.stanford.edu/fsnlp/promo/colloc.pdf

Manning C., Schutze H. Collocations // Manning C., Schutze H.Foundations of Statictical Natural Language Processing, 2002



Для задания 2 можно воспользоваться:

Для русского языка:

Национальным корпусом русского языка со снятой омонимией

Можно также воспользоваться любым удобным для Вас конкордансером, корпусом или собственной программой, но объем корпуса должен быть не менее 500000 словоупотреблений, частота исследуемой лексемы (лексем) должна быть не менее 100, кроме случаев, где в задании указана другая частота для лексемы.



Задание 2. Вариант 1. Выделение устойчивых словосочетаний в языке

2.1.


2.1.1. Получить информацию о частоте для группы слов из списка к заданию 2 по своему собственному корпусу.

2.1.2. Из исходного списка выбрать 2 лексемы.

2.1.3. Привести 20 коллокаций для каждой из них из интернет-корпуса Шарова по адресу http://corpus.leeds.ac.uk/ruscorpora, полученных t-score, 20 коллокаций, полученных совместной информации, мерой LogLikelihood и Dice. Сравнить результаты.

Задание 2.2.

Для выбранных лексем составить соответствующий конкорданс



Задание 2.3.

2-мя любыми статистическими методами выделения устойчивых словосочетаний выделить биграммы, образующие устойчивые словосочетания, в собственном корпусе (объемом не менее 500 тыс. словоупотреблений). Примеры исходных параметров для выделения устойчивых словосочетаний см. Таблица 1.



Задание 2.4. Сравнить результаты применения этих двух методов между собой, а также с результатами, полученными по корпусам из п. 2.1.3 и данными словарей (например, словаря сочетаемости непредметных имен http://dict.ruslang.ru/abstr_noun.php, МАС http://feb-web.ru/feb/mas/mas-abc/default.asp или др.). Для этого:

2.4.1. Проанализировать словарные толкования исследуемых лексем, выделить коллокации лексем по данным словарей.

2.4.2. определить:


  • в какой степени совпадают данные о сочетаемости, полученные по словарям и по корпусу для данных лексем, в какой степени "показательны" данные словарей и данные корпуса;

  • совпадают ли гипотезы о значениях лексем, построенные на основе словаря и на основе Ваших данных, в какой степени совпадают коллокации, "извлеченные" из словаря, и коллокации полученные статистическим методом;

  • каков процент «правильно» выделенных коллокаций;

  • какие типы коллокаций удалось выделить данным методом;

  • какие биграммы, с Вашей точки зрения, не являются коллокациями;

  • почему данные «неколлокации» попали в верхнюю часть списка;

  • в чем преимущество и недостатки каждого из методов.


Задание 2. Вариант 2. Используя t-score, развести 2 близких синонима из выбранной Вами группы или развести 2 значения одной лексемы

2.1.1. Получить информацию о частоте для группы слов из списка к заданию 2.1.

2.1.2. Выбрать 2 лексемы из списка

2.1.3. Составить конкорданс для этой группы слов

2.1.3. Привести 20 коллокаций для данной лексемы в http://corpus.leeds.ac.uk/internet.html или

http://corpus.leeds.ac.uk/ruscorpora.
2.2. Используя t-score, развести 2 близких синонима из выбранной Вами группы. Примеры исходных параметров для выделения устойчивых словосочетаний см. Таблица 1.

2.3. Проанализировать результаты. Определить:

2.4.1. сравнить словарные толкования исследуемых лексем, определить различия в значениях и употреблениях (ожидаемой сочетаемости) лексем по данным словарей.

2.4.2. на основе данных словарей и полученных из корпуса данных о коллокациях сформулировать гипотезу о различиях в значениях и в сочетаемости.

2.4.3. определить:


  • в какой степени совпадают данные о сочетаемости, полученные по словарям и по корпусу для данных лексем, в какой степени "показательны" данные словарей и данные корпуса;

  • совпадают ли гипотезы о различиях в значениях синонимов, построенных на основе словаря и на основе Ваших данных;



  • каков процент «правильно» выделенных коллокаций

  • какие типы коллокаций удалось выделить данным методом

  • какие биграмы, с Вашей точки зрения, не являются коллокациями

  • почему данные «неколлокации» попали в верхнюю часть списка

  • каковы те диагностические лексемы, которые позволяют разводить синонимы

2.4. На основе полученных Вами результатов построить гипотезу о семантическом различии исследуемых синонимов


Задание 2. Вариант 3. Построить любой классификатор для разведения 2-х значений лексемы.

Список русских лексем к заданию 2.





Группа лексем

Фамилии выполняющих задание






большой, великий, громадный









возвратное местоимение себя




рассмотреть пары глагол + местоимене



разбивать, ломать









Слово, реплика, речь









сказать, говорить, рассказывать









Можно, необходимо









решить-решать, постановить









Система, язык









новый, последний, актуальный









друг, товарищ









Время, период









просить, требовать, умолять, клянчить









твердый, жесткий









гореть, светиться, пылать в переносном значении с сущ., выражающими эмоции







Таблица 3.

Возможные ограничения на контекст

+3

в пределах именой группы

сочетаемость с глаголами (в пределах предложения)

-3

в пределах глагольной группы

на ваше усмотрение

окно 6




Можно исследовать любые другие лексемы и другие ограничения на контекст

-3 – 3 предыдущих слова

+3 – следующих слова

NB: можно выполнить задание на материале любого другого языка (например, см. испанский корпус), на материале других лексем.

Возможно заменить задание 2 на другое задание по применению статистических методов для автоматического анализа текста после соответствующего обсуждения задачи со мной.



Задание 5. Рубрикация текстов с применением одного из классификаторов или латентно-семантического анализа.

Задание 6. Кластеризация текстов. Для кластеризации можно взять (а) тексты из корпуса Reuters, (б) тексты из корпуса "Фармпрепарат и медицинская техника", (в) тексты тезисов конференции. Не менее 500 текстов.

Задание 4.2. Кластеризация
Построить иерархическую кластеризацию двумя методами (single-link vs. complete-link). Задать 2 пороговых расстояния - (а) небольшое (так, чтобы в кластер входило не более 5-10 текстов), (б) большое расстояние (так, чтобы оно задавало не более 5-10 кластеров). Для каждого из пороговых расстояний проанализировать 2 произвольных кластера - насколько результат кластеризации соответствует вашему представлению о составе данного кластера: действительно ли попавшие в кластер тексты относятся к некоторой общей теме, присутствует ли в кластере "шум" (случайным образом попавшие в кластер тексты) и т.п.

Пояснение:

Построить по текстам матрицу Термин - Текст с указанием частоты словоформы (лексемы) для каждого текста. Удалить стоп-слова (либо верхняя часть частотного списка, либо список, полученный "экспертным" путем - списки по частям речи - предлоги, союзы, местоимения и т.п.). Удалить слова с общей частотой в корпусе меньше некоторого порога (порог установите сами4). Для оставшихся слов посчитать tf.idf. Выбрать n слов с tf.idf выше некоторого порога (например, 100 слов с самым высоким tf.idf). Вычислить попарные расстояния между текстами, используя любую меру для расстояний (например, косинусную меру)

Приложения


Приложение Список ссылок Internet для выполнения задания

1.1. тексты для анализа


можно скачать со следующих сайтов –

  • литературных произведений на русском языке –

http://lib.ru/ - библиотека Максима Мошкова,

http://www.klassika.ru/

www.russiantext.com

  • Научные тексты -

http://www.mccme.ru/ling/referat/ebooks.html

http://l3-msk.boom.ru/part_16.htm

http://www.dialog-21.ru/ (см. архив)

1.2. Частотные списки и конкордансеры on-line


Новый частотный словарь русского языка http://dict.ruslang.ru/freq.php, http://corpus.leeds.ac.uk/serge/frqlist/

частотный список Шарова, http://www.artint.ru/projects/frqlist/frqlist-en.php



http://corpus.leeds.ac.uk/internet.html

http://corpus.leeds.ac.uk/ruscorpora.
Bykba –

AntConc - http://www.antlab.sci.waseda.ac.jp/software.html



Google n-grams http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

1 Возникшие вопросы по поводу выполнения заданий можно уточнить по электронной почте toldova@yandex.ru

NB: просьба – при выявлении ошибок и ляпов в hand-out-ах сообщить о них мне


2 В конкордансер надо загружать папку. Заводите папку, режете тексты на фрагменты соответствующего объема, по очереди переносите тексты нужного объема в папку

3 см. общую статистику в Bykba

4 например, если частота лексемы во всем корпусе из 10000 текстов - 1, то оно никак не может служить "хорошим" признаком даже для объединения 2-х текстов в кластер.