Author Topic: Сколько надо знать слов, чтобы понимать текст?  (Read 2442 times)

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Интересная статья
https://www.lextutor.ca/cover/papers/schmitt_etal_2011.pdf

Кажется, что для адекватного понимания надо всё-таки знать 98% слов в тексте, т.е. словарный запас в 8-9 тыс. корней (13-15 тыс. слов). Я и в других статьях читал, что понимание слов из контекста включается только на 98% общего понимания, 95% слишком мало для этого.
« Last Edit: 03 October 2020, 21:16:50 by Gaeilgeoir »

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Данные из статьи Лауфер (все расчеты по Британскому национальному корпусу):

1000 корней — понимание 79.5% токенов (уровень А2)
2000 — 88%
3000 — 92% (В1)
5000 — 95% (В2)
9000 — 97% (С1)

+ в каждом тексте 2-4% составляют имена собственные, так что 5000 корней реально дают около 98% того, что нужно. А с 9000 вы будете богом, так как понимание на уровне 99%.
« Last Edit: 03 October 2020, 20:58:46 by Gaeilgeoir »

Offline Владимир

  • Гуру форума
  • Трижды герой
  • *****
  • Posts: 28354
  • Карма: +4181/-77
    • View Profile
У меня ссылка не открывается. Если не затруднит, то как обоснуется «словарный запас в 8-9 тыс. корней (13-15 тыс. слов)»?

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
У меня ссылка не открывается. Если не затруднит, то как обоснуется «словарный запас в 8-9 тыс. корней (13-15 тыс. слов)»?
обосновывается тем, что достигается понимание 98% слов текста, которые при тестировании выливаются в 70% успешность теста на понятие прочитанного.

Все это прекрасно, но автор этой статьи опирался на статью Лауфер и Ху и Нейшн (данные я процитировал во втором посте), и похоже сделал это невнимательно, так как не учел, что в каждом тексте 2-4% составляют имена собственные. Поэтому для достижения 98% (общего) понимания хватает понимать 95% нарицательных слов, т.е. по факту хватает 5000 корней.

P.s. ссылку починил, должно открываться
« Last Edit: 03 October 2020, 21:17:43 by Gaeilgeoir »

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Вот ещё, шокирующее рядом:
Quote
. In two studies by Webb and Rodgers (2009a, 2009b), it was determined that knowledge of the most frequent 3,000-word families gives a little over 95% coverage in a range of television programs and movies. Although this coverage may offer a reasonable level of comprehension, there remains about 4% to 5% of unknown words, which account for around 3.9 unknown vocabulary items per minute
:o

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Это они намекают, что по тв говорят со скоростью 100 слов/ мин?  :o

Offline Владимир

  • Гуру форума
  • Трижды герой
  • *****
  • Posts: 28354
  • Карма: +4181/-77
    • View Profile
для достижения 98% (общего) понимания хватает понимать 95% нарицательных слов, т.е. по факту хватает 5000 корней.
Тогда у автора странное на мой взгляд понимание словообразования. В эсперанто (если говорить о фундаменто) ~ 900 корней (непроизводных лексем), в расширенных пиджинах — 700-900. И этого хватает, чтобы охватить все сферы коммуникации. Я говорю именно о соотношении непроизводных и производных слов, процент «узнанных» слов и понимание текста оставим на совести автора :)

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Тогда у автора странное на мой взгляд понимание словообразования. В эсперанто (если говорить о фундаменто) ~ 900 корней (непроизводных лексем), в расширенных пиджинах — 700-900. И этого хватает, чтобы охватить все сферы коммуникации. Я говорю именно о соотношении непроизводных и производных слов, процент «узнанных» слов и понимание текста оставим на совести автора :)
вы неправильно понимаете суть их исследования. Речь идет не об аутпуте ('выразить себя'), для этого среднему Пупкину и 100 корней хватит. Речь идет об инпуте — вам дается какой-то произвольный микс из современной прозы (газеты, худлит, титры к популярным программам и т.д.) и вы тупо подчеркиваете все слова, которые вы не знаете. Если не знаете каждое 20 слово, то ваше понимание токенов — 95%. По Национальному корпусу легко определить, что вы знаете 3000 корней + имена собственные.

Всё это прекрасно, только английский — очень специфичный язык с точки зрения морфологии. Средняя продуктивность английского корня всего 1.6 (под продуктивностью понимается словообразование, т.е. от do - это doable, но не does/ did). Очевидно же, что у других языков коэффициент продуктивности намного выше. Т.е. 5 тыс англ. корней = 8 тыс. лексем, но сколько это, например, португальских корней? Явно, что меньше, так как по крайней мере в глаголах многие англ. корни соответствуют романским приставкам.
« Last Edit: 04 October 2020, 00:39:20 by Gaeilgeoir »

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Вся эта дискуссия имеет очень важное прикладное значение: она отвечает на вопрос, сколько надо выучить слов в языке Х для комфортного потребления аудио/ видео и печатной продукции на этом языке. Вопрос о том, сколько надо слов, чтобы выразить себя — это немного другое и даже не очень коррелирует. Мы говорим сейчас об активном словаре носителей и как к нему подобраться. Чтобы понимать носителей, их активный словарь (т.е. около 8 тыс слов) должен быть как минимум нашим пассивным, иначе потребление контента будет невозможно.
« Last Edit: 03 October 2020, 21:54:34 by Gaeilgeoir »

Offline bvs

  • Герой
  • *
  • Posts: 2867
  • Карма: +230/-8
    • View Profile
У меня кажется на последнем прохождении теста, который тут выкладывали, было 11300 (отвечал честно, если сомневался в значении - ставил "не знаю"). Но с аудио-видео продукцией все гораздо сложнее, потому что членить речь на слова и опознавать их - намного труднее чем в тексте. Тут нужна большая практика аудирования. А что касается активного владения, то тут еще хуже, потому что вспомнить слово в контексте - это одно, а вспомнить слово-эквивалент родного без контекста - совсем другое. Неноситель языка тем и отличается, что активный словарь у него довольно бедный.

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
У меня кажется на последнем прохождении теста, который тут выкладывали, было 11300 (отвечал честно, если сомневался в значении - ставил "не знаю"). Но с аудио-видео продукцией все гораздо сложнее, потому что членить речь на слова и опознавать их - намного труднее чем в тексте.
это понятно, но вопрос навыков аудирования — это немного другое. Понятно же, что вопрос «что надо, чтобы свободно и непринужденно понимать всё на языке Х» — очень сложный и многоплановый, есть очень много разных факторов.

Однако возвращаясь именно к нашей теме: я читал и статью Шмитта (мой первый пост) и Лауфер (второй пост), и они оба обильно ссылались на Ху и Нейшн, так что вполне недвусмысленно во всех трёх случаях эксперименты проводились с печатными текстами, и все результаты касаются их. Никто из этой тройки вопросы аудирования не прорабатывал.