Нове дослідження стану загнивання посилань показує, що дискета може мати кращі шанси вижити наступне десятиліття з неушкодженою інформацією, ніж веб-сторінка, опублікована сьогодні.

Дослідницький центр Pew виявив, що 38% сторінок, які збереглися в 2013 році, були недоступні в жовтні 2023 року, а чверть сторінок, які були в Інтернеті в певний момент протягом цього періоду, тепер зникли.

Дослідження Pew, засноване на вибірці з майже мільйона сторінок, записаних некомерційним архівом Common Crawl, також документує, як цей «цифровий розпад» підриває корисність новинних і державних сайтів, а також Вікіпедії, і посилання в цих місцях все частіше служать лише 404 повідомлення про помилку.

У вибірці з 500 000 державних сайтів 21% цих сторінок містили принаймні одне непрацююче посилання. Серед 2063 новинних сайтів ця частка становила 23%. А серед 50 000 відібраних англомовних сторінок Вікіпедії 54% містили принаймні одне закрите посилання у своєму розділі.

Твіттер ще гірший

Окрім Інтернету, дослідники Pew досліджували X, який на момент опитування все ще називався Twitter, і це ще більш ефемерне. З 4,8 мільйона твітів, зібраних Pew з 8 березня по 27 квітня минулого року за допомогою API платформи, 18% перестали бути загальнодоступними до 15 червня.

Трохи більше 60% цих твітів зникли через те, що облікові записи, що стояли за ними, також зникли з поля зору громадськості (у звіті не вказано, скільки з них було встановлено приватними чи видалено їхніми власниками, а скільки призупинено платформою), а решта зникла. твіти надходять з облікових записів, які залишаються доступними.

Твіти певними мовами мали коротший період напіврозпаду, ніж інші: 49% турецьких твітів і 42% арабських твітів зникли протягом періоду дослідження. І твіти з облікових записів із замовчуванням у біографіях або фотографіях профілів також, швидше за все, ставали дурними протягом тих тижнів.

Але у звіті Pew також виявилося, що 6% зібраних твітів спочатку зникли, а потім повернулися у загальний доступ через те, що власник облікового запису змінив обліковий запис із загальнодоступного на приватний і знову на загальнодоступний, або через те, що сам Twitter відновив обліковий запис.

Чому це відбувається?

У короткому звіті Pew не досліджується, чому стільки вмісту так швидко зникає, але я бачив, як величезна частина моєї власної онлайн-роботи пропадає з двох поширених причин: видання переходить на нову систему керування вмістом, не зберігаючи створених посилань. під старим CMS, або саме видання припиняє роботу.

Іноді за крахом новинного сайту відразу або протягом кількох годин його власник видаляє сайт, що є останнім актом корпоративного вандалізму, який змушує нещодавно безробітних журналістів намагатися поділитися своїми останніми роботами з можливими майбутніми роботодавцями.

Однак веб-архіви, такі як Common Crawl та Internet Archive, часто можуть служити копією видаленої сторінки (останній також має вражаючу колекцію оцифрованих копій аналогових носіїв, що включає найстаріші друковані видання цього видання). Багато статей у Вікіпедії вказують як на оригінальні посилання, так і на їх копії в Інтернет-архіві, що є однією з багатьох здорових практик на цьому спільно підтримуваному довідковому сайті.