Ознакомьтесь с Условиями пребывания на сайте Форнит Игнорирование означет безусловное согласие. СОГЛАСЕН
ВХОД
 
 
Короткий адрес страницы: fornit.ru/2204 
Содержание журнала Достижения науки, техники и культуры
Ссылка на первоисточник статьи: http://lenta.ru/news/2010/12/17/books/.

Эволюция языка за двести лет

Ученые приспособили поисковый сервис Google для проведения масштабных лингвистических исследований. С его помощью специалисты, используя 5 миллионов отсканированных книг, смогли проследить эволюцию языка в последние 200 лет. Статья специалистов опубликована в журнале Science, а коротко о работе пишет New Scientist.

До сих пор у лингвистов не было инструмента, при помощи которого можно было бы проанализировать значительное количество текстов. Авторы нового исследования работали с книгами, которые были переведены в цифровой формат к настоящему моменту - всего их насчитывается около 15 миллионов. Ученые выбрали из них треть текстов (5,2 миллиона книг, написанных на английском, французском, испанском, немецком, китайском и русском языках) и составили базу всех использованных в них слов - их получилось около 500 миллиардов. Базу слов Ngrams можно найти здесь - поиск по словам осуществляется на базе алгоритмов Google.

Проанализировав полученные данные, авторы смогли сделать большое количество разнообразных выводов. В частности, они установили, что за последние сто лет число часто используемых слов возросло вдвое - если в 1900 году использовалось около 544 тысяч слов, то в 2000 году это число возросло до одного миллиона, причем 52 процента новых слов стало активно употребляться после 1950-х годов.

Кроме того, специалисты изучили, как сказывалась на использовании тех или иных слов цензура. Ученые установили, что после 1989 года словосочетание "площадь Тяньаньмень" практически перестало встречаться в литературе, изданной в Китае. То же самое произошло с именем Лев Троцкий в СССР в 1940-е годы и с именами голливудских актеров, уличенных в связях с Советским Союзом в США.

Авторы и их коллеги полагают, что новый инструмент позволит ученым исследовать слова и лингвистические тенденции, используя те же подходы и методы, что и специалисты по естественным наукам.


Обсуждение Сообщений: 2. Последнее - 22.12.2010г. 13:02:54




Оценить статью >> пока еще нет оценок, ваша может стать первой :)

   
Архив новостей
Анонсы новостей    http://www.scorcher.ru/xml/news.rss - что это?
Трилогия Основы фундаментальной теории сознания
Трилогия: Основы фундаментальной теории сознания.
11-08-2024г.

Практическая теория сознания опубликована в научном журнале
Практическая теория сознания опубликована в научном журнале: Принципы фундаментальной теории сознания на основе модели МВАП.
15-07-2024г.

Книга Субъективность
Книга о сознании, о сути субъективного опыта (квалиа): Субъективность.
07-06-2024г.

Путь решения проблемы сознания
Схемотехника адаптивных систем - Путь решения проблемы сознания.
07-02-2024г.

Развитие квалиа в онтогенезе или как именно мы все ощущаем
Последовательность формирования субъективных абстракций в механизмах произвольности выбора: Развитие квалиа в онтогенезе или как именно мы все ощущаем.
20-12-2023г.

Факторы деструктивного влияния в обществе: политика, реклама, соцсети, биржи, религия
Политические элиты все в большей степени паразитируют на обществе: Факторы деструктивного влияния в обществе: политика, реклама, соцсети, биржи, религия.
13-11-2023г.

Система децентрализованного управления обществом
Какой может быть эффективная система децентрализованного управления обществом: Система децентрализованного управления обществом.
08-09-2023г.

Принципиальные элементы фундаментальной теории сознания
Для верификации: Принципиальные элементы фундаментальной теории сознания.
07-08-2023г.

Коротко и ясно про мозг человека
Организации механизмов мозга человека: Коротко и ясно про мозг человека.
08-07-2023г.

Проблемы восприятия программной реализации искусственного разума
Анонсирование Beast: Проблемы восприятия программной реализации искусственного разума.
06-02-2023г.

 посетителейзаходов
сегодня:00
вчера:00
Всего:44284744