Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета

[ Версия для печати ]
Добавить в Telegram Добавить в Twitter Добавить в Вконтакте Добавить в Одноклассники
Страницы: (2) [1] 2   К последнему непрочитанному [ ОТВЕТИТЬ ] [ НОВАЯ ТЕМА ]
Jus
23.05.2024 - 11:23
Статус: Offline


Скарификатор перикарда

Регистрация: 30.05.06
Сообщений: 375976
29
Интернет представляет собой невообразимо большое хранилище данных, насчитывающее сотни миллиардов проиндексированных веб-страниц. Можно подумать, что веб-пространство с годами только расширяется, но на деле это не совсем так. Новое исследование Pew Research Center наглядно показывает, насколько непродолжительный период времени существует веб-контент.

5 картинок via

Аналитики подсчитали, что четверть от общего числа веб-страниц, которые существовали в период с 2013 года по 2023 годы, по состоянию на октябрь 2023 года уже недоступны. В большинстве случаев это связано с тем, что с течением времени страницы сайтов радикально корректируются или же попросту удаляются. Для более старого контента эта тенденция также актуальна. Около 38 % веб-страниц, существовавших в 2013 году, недоступны в настоящее время. Если же рассматривать веб-страницы, существовавшие в 2023 году, то показатель недоступных в настоящее время составит 8 %.

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета
 
[^]
Jus
23.05.2024 - 11:23
Статус: Offline


Скарификатор перикарда

Регистрация: 30.05.06
Сообщений: 375976
Специалисты Pew Research Center изучили ссылки, которые появляются на правительственных и новостных сайтах, а также в разделе «Ссылки» на страницах Википедии по состоянии на весну этого года. Анализ показал, что 23 % новостных веб-страниц содержат хотя бы одну нерабочую ссылку, как и 21 % веб-страниц правительственных сайтов. Особенно часто неработающие ссылки встречаются на страницах сайтов местных органов власти (городских администраций). При этом 54 % страниц Википедии содержат в разделе «Ссылки» хотя бы один URL-адрес уже не существующей страницы.

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета
 
[^]
Jus
23.05.2024 - 11:24
Статус: Offline


Скарификатор перикарда

Регистрация: 30.05.06
Сообщений: 375976
Страницы в социальных сетях

Чтобы проследить, как исчезают страницы в социальных сетях, аналитики собрали на платформе X выборку твитов в режиме онлайн весной 2023 года и следили за ними в течение трёх месяцев. В результате было установлено, что почти каждый пятый пост в соцсети перестаёт быть общедоступным спустя несколько месяцев после публикации. В 60 % случаев аккаунт, опубликовавший твит первоначально, за этот же период становится приватным, его действие приостанавливается или же учётная запись удаляется с платформы. В остальных 40 % случаев владелец аккаунта сам удаляет твит, но его учётная запись продолжает существовать. Отмечается, что более 40 % твитов на турецком или арабском языках исчезают с сайта в течение трёх месяцев с момента публикации.

Веб-страницы за последнее десятилетие

Для проведения этой части анализа специалисты собрали случайную выборку из чуть менее 1 млн веб-страниц из архивов Common Crawl. Аналитики отбирали страницы из архивов Common Crawl за каждый год, начиная с 2013 года (примерно 90 тыс. страниц за каждый год), и проверяли, существуют ли они в настоящее время.

Было установлено, что 25 % собранных веб-страниц в октябре 2023 года уже были недоступны. Это значение складывается из двух показателей: 16 % приходится на отдельно недоступные страницы на действующих сайтах, а ещё 9 % страниц недоступны, потому что перестал существовать весь сайт. Вполне логично, что большая часть недоступных сейчас ресурсов приходится на более старые версии архивов (38 % отобранных страниц, существовавших в 2013 году, перестали функционировать к октябрю 2023 года).

Ссылки на правительственных сайтах

Для анализа этого сегмента онлайн-пространства было выбрано около 500 тыс. страниц с правительственных веб-сайтов из архива Common Crawl за март-апрель 2023 года. В общей сложности на отобранных страницах размещалось 42 млн ссылок (86 % внутренних ссылок). Примерно три четверти веб-страниц из выборки содержали хотя бы одну ссылку, а в среднем на странице находилось 50 ссылок. В общей сложности 21 % исследованных страниц на правительственных сайтах содержали хотя бы одну неработающую ссылку.

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета
 
[^]
Jus
23.05.2024 - 11:24
Статус: Offline


Скарификатор перикарда

Регистрация: 30.05.06
Сообщений: 375976
Ссылки на новостных порталах

В этой категории анализировались 500 тыс. страниц с 2063 сайтов, которые компания comScore отнесла к категории «Новости и информация». Страницы собирались из архива Common Crawl за март-апрель 2023 года. В общей сложности на отобранных страницах содержалось 14 млн ссылок (в среднем 20 ссылок на страницу). После проверки оказалось, что 5 % всех ссылок из выборки уже не работают и на 23 % страниц из выборки содержится хотя бы одна ссылка на не существующий ресурс. Около 25 % страниц новостных сайтов из топ-20 по посещаемости имеют хотя бы одну нерабочую ссылку.

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета
 
[^]
Jus
23.05.2024 - 11:25
Статус: Offline


Скарификатор перикарда

Регистрация: 30.05.06
Сообщений: 375976
Справочные ссылки в Википедии

Аналитики выбрали 50 тыс. страниц Википедии на английском языке и изучили ссылки, которые содержались на них в разделе «Ссылки». Около 82 % страниц содержали хотя бы одну нерабочую внешнюю ссылку. В общей сложности на всех страницах из выборки содержится более 1 млн ссылок, причём 11 % из них больше недоступны.

Посты в соцсети X

В исследовании участвовали 5 млн твитов, опубликованных с 8 марта по 27 апреля 2023 года в соцсети X, которая на тот момент называлась Twitter. Далее исследователи следили за этими постами до 15 июня того же года и ежедневно проверяли их на предмет доступности. К концу исследования 18 % от начальной базы твитов уже не были доступны для просмотра на платформе. В большинстве случаев это стало следствием того, что учётная запись автора заблокирована или полностью удалена.

Отмечается, что большая часть твитов удаляется из X в течение месяца. При этом 1 % постов исчезает в течение часа после публикации, 3 % — в течение дня, 10 % — в течение недели, 15 % — в течение месяца. Другими словами, около половины твитов, которые исчезают с платформы, становятся недоступны в течение первых шести дней с момента публикации и 90 % таких твитов исчезают за 46 дней.

Источник:

Pew Research Center

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета
 
[^]
bobbax
23.05.2024 - 11:26
1
Статус: Offline


НемАсквич

Регистрация: 14.11.15
Сообщений: 15556
Все уже придумано

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета
 
[^]
Rezistons
23.05.2024 - 11:27
9
Статус: Offline


Приколист

Регистрация: 1.06.14
Сообщений: 222
А ещё говорят "Интернет помнит всё"...
 
[^]
GreatKukuruz
23.05.2024 - 11:27
5
Статус: Offline


Юморист

Регистрация: 25.03.15
Сообщений: 478
Надо срочно проверить не пропали ли весь мой бред что я написал тут за этот переод. Это важно!

Размещено через приложение ЯПлакалъ
 
[^]
dimkey
23.05.2024 - 11:28
11
Статус: Offline


Ярила

Регистрация: 28.03.12
Сообщений: 1100
Потому что меньше надо скачивать оттуда.Так скоро совсем страниц не останется

Размещено через приложение ЯПлакалъ

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета
 
[^]
marsello
23.05.2024 - 11:29
11
Статус: Offline


ЯПовский социопат

Регистрация: 4.10.11
Сообщений: 3595
Вот почему баяны на ЯП иногда найти нельзя. Сидишь и гадаешь: приступ эффекта Манделлы или просто у ЯПа посты педрят lol.gif

Это сообщение отредактировал marsello - 23.05.2024 - 11:30

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета
 
[^]
adnnin
23.05.2024 - 11:33
8
Статус: Offline


Юморист

Регистрация: 25.07.19
Сообщений: 482
Движки сайтов изменились и страницы генерируются автоматически для каждого пользователя. Т.е. нет тех классических Html страниц, что были вчера.
Базы данных не видны в качестве N-го количества страниц.
Вскоре делать копии интернета будет бесполезно - так как любая копия буде полна мертвых ссылок на все внешние ресурсы .

Однажды меня забанили на одном ресурсе и потерли все мои посты за несколько лет. В наше неспокойное время, когда стали наказывать даже за репосты - это плюс!)

Современный Интернет "убьет" всю хранящуюся информацию при крупном сбое - рассыплется систем DNS и ФСЕ станет недоступно!

Это сообщение отредактировал adnnin - 23.05.2024 - 11:39
 
[^]
MrRIP
23.05.2024 - 11:38
1
Статус: Offline


Ярила

Регистрация: 1.04.12
Сообщений: 3128
Цитата (bobbax @ 23.05.2024 - 11:26)
Все уже придумано

не поможет - слишком редкая "выборка" как по сайтам так и по времени "сохранения".
 
[^]
odd74Rus
23.05.2024 - 12:02
0
Статус: Offline


Юморист

Регистрация: 20.02.13
Сообщений: 408
Цитата
четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета

Не всякий хлам достоин сохранения.
 
[^]
Cybеrdyne
23.05.2024 - 12:09
0
Статус: Offline


Ярила

Регистрация: 2.12.15
Сообщений: 3231
Так и есть. То можно найти, то нихрена.

Размещено через приложение ЯПлакалъ
 
[^]
DimaUxus
23.05.2024 - 13:50
1
Статус: Offline


Приколист

Регистрация: 19.08.16
Сообщений: 386
То есть, интернет таки помнит не всë.

Размещено через приложение ЯПлакалъ
 
[^]
anikifya
23.05.2024 - 14:35
4
Статус: Offline


Ярила

Регистрация: 20.04.10
Сообщений: 6981
хорошо хоть есть ценности, которые удалил сразу и их нет.
Но они есть.
Но не в тырнете.

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета
 
[^]
Kit30
23.05.2024 - 14:48
2
Статус: Offline


Юморист

Регистрация: 23.10.13
Сообщений: 522
Те 90% говенного контента, что генеряться сейчас ни капли не жалко, а вот что касается, хотя бы, образовательной и научной информации, то нехер это удалать вообще никогда.
 
[^]
cromagnonman
23.05.2024 - 14:59
4
Статус: Offline


Ярила

Регистрация: 20.03.14
Сообщений: 1128
Помню времена, когда башорг и каких-то ещё пару сайтов скачивал целиком какой-то прогой, для оффлайн просмотра).
 
[^]
VoltOL
23.05.2024 - 15:00
6
Статус: Offline


Ярила

Регистрация: 17.04.18
Сообщений: 8735
А вот то, что надо бы удалить никак не удаляется. Например, сайт РКН. Желательно вместе с самим РКН
 
[^]
mouse282
23.05.2024 - 15:02
2
Статус: Offline


Ярила

Регистрация: 14.03.15
Сообщений: 1626
Цитата (Rezistons @ 23.05.2024 - 11:27)
А ещё говорят "Интернет помнит всё"...

Что написано топором, не зачеркнёшь пером
 
[^]
Анатолий1967
23.05.2024 - 19:09
0
Статус: Offline


Ярила

Регистрация: 10.01.15
Сообщений: 7971
Таким исследованием, наверное можно "выйти на" какого-нибудь амбициозного перфекциониста, который загодя "стелет соломку" или "готовит сани летом" для карьерного прорыва...
 
[^]
popuasik
25.05.2024 - 22:12
2
Статус: Offline


Шутник

Регистрация: 20.01.24
Сообщений: 97
ЯП не удаляй старые темы, там ностальгия и история всего мирового интернета.

Pew Research Center: с 2013 года из интернета исчезла треть всех веб-страниц.

Согласно исследованию Pew Research Center, больше трети всех веб-страниц, существовавших в период с 2013 по 2023 год, по состоянию на прошлую осень были недоступны. Это опровергает заблуждение мнение о том, что все, что попадает в интернет, сохраняется в нем навсегда.

Более того, данные показывают, что тенденция к «цифровому упадку» особенно очевидна для более старых страниц. Более трети (38%) страниц, существовавших в 2013 году, недоступны спустя десятилетие. А за неполный текущий год из сети пропало 8% страниц, существовавших в 2023 году.

Это явление затронуло самые разные пространства интернета. Например, из анализа следует, что примерно четверть (23%) новостных страниц, включая 21% веб-страниц правительственных сайтов, содержат хотя бы одну неработающую ссылку. Неработающие ссылки встречаются как на популярных, так и на менее посещаемых сайтах, но наиболее часто они встречаются на страницах местных органов власти.

Кроме того, половина (54%) страниц Wikipedia содержат хотя бы одну ссылку, которая указывает на страницу, которая более не существует.

Исследователи также обнаружили, что почти каждое пятое сообщение в X (Twitter) удаляется спустя несколько месяцев после публикации. При этом в 60% случаев это происходит из-за недоступности аккаунта, а в остальных 40% случаях отдельный пост удаляет владелец профиля. Более 40% твитов, написанных на турецком или арабском языках, перестают показываться на сайте в течение трех месяцев после публикации. Особенно часто исчезают сообщения с аккаунтов с настройками профиля по умолчанию.

Ранее соцсети заполонили опасные и смешные ответы нейросети Google.

https://www.gazeta.ru/tech/news/2024/05/25/23094385.shtml

Покойся с миром, сладкий принц (интернет).

Это сообщение отредактировал popuasik - 25.05.2024 - 22:15
 
[^]
stasmel
25.05.2024 - 22:16
2
Статус: Offline


Шутник

Регистрация: 13.03.14
Сообщений: 31
Согласно исследованию Pew Research Center....

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета
 
[^]
PavliK1033
25.05.2024 - 22:17
1
Статус: Offline


Приколист

Регистрация: 25.12.13
Сообщений: 243
Надо срочно начать скачивать инторнет на флешку

Размещено через приложение ЯПлакалъ
 
[^]
невеган
25.05.2024 - 22:17
-1
Статус: Offline


Ярила

Регистрация: 17.09.16
Сообщений: 1509
Я руку сломал и дрочить не могу .
А вы тут хуйню всякую пишете...

Продолжайте...

Размещено через приложение ЯПлакалъ
 
[^]
Понравился пост? Еще больше интересного в Телеграм-канале ЯПлакалъ!
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии. Авторизуйтесь, пожалуйста, или зарегистрируйтесь, если не зарегистрированы.
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) Просмотры темы: 3757
0 Пользователей:
Страницы: (2) [1] 2  [ ОТВЕТИТЬ ] [ НОВАЯ ТЕМА ]


 
 



Активные темы






Наверх