هوش مصنوعی جنگی بر سر خزیدن در وب ایجاد کرده است.

## بحران داده در هوش مصنوعی: آیا دوران طلایی داده به پایان رسیده است؟

اکثر افراد تصور می‌کنند که هوش مصنوعی مولد (Generative AI) به طور مداوم پیشرفت خواهد کرد. این روند تا به امروز ادامه داشته است و به نظر می‌رسد که این مسیر ادامه خواهد یافت. اما چیزی که بسیاری متوجه آن نیستند این است که مدل‌های هوش مصنوعی مولد به اندازه مجموعه‌های داده‌ای عظیمی که بر روی آن آموزش می‌بینند، کارآمد هستند. این مجموعه‌ها از داده‌های اختصاصی شرکت‌های پیشرو در هوش مصنوعی مانند OpenAI و Anthropic ساخته نشده‌اند. در عوض، آنها از داده‌های عمومی ساخته شده‌اند که توسط همه ما ایجاد شده‌اند، هر کسی که تا به حال یک پست وبلاگ نوشته، ویدیویی را منتشر کرده، در یک موضوع Reddit نظر داده یا اساساً هر کار دیگری را به صورت آنلاین انجام داده است.

یک گزارش جدید از “ابتکار داده‌های مبدأ” (Data Provenance Initiative) که یک گروه داوطلبانه از محققین هوش مصنوعی است، به آنچه که با این داده‌ها در حال اتفاق افتادن است، نور می‌تاباند. این گزارش با عنوان “رضایت در بحران: کاهش سریع مشترکات داده‌های هوش مصنوعی” (Consent in Crisis: The Rapid Decline of the AI Data Commons) به این موضوع اشاره می‌کند که تعداد قابل توجهی از سازمان‌ها که خود را در معرض تهدید هوش مصنوعی مولد می‌بینند، اقدامات لازم برای مسدود کردن داده‌های خود را انجام می‌دهند. مجله IEEE Spectrum با Shayne Longpre، محقق اصلی “ابتکار داده‌های مبدأ” در مورد این گزارش و پیامدهای آن برای شرکت‌های هوش مصنوعی گفتگو کرد.

**Shayne Longpre در مورد:**

* **محدود کردن دسترسی خزنده‌ها به وبسایت‌ها و دلایل آن**
* **داده‌های ناپدید شونده و پیامدهای آن برای شرکت‌های هوش مصنوعی**
* **داده‌های مصنوعی، اوج داده و اتفاقات بعدی**

**تکنولوژی که وبسایت‌ها برای محدود کردن خزنده‌ها (Crawler) از آن استفاده می‌کنند، جدید نیست. پروتکل حذف ربات (Robots.txt)** **در سال 1995 ارائه شد. آیا می‌توانید توضیح دهید که این پروتکل چیست و چرا در عصر هوش مصنوعی مولد ناگهان اهمیت زیادی پیدا کرده است؟**

**Shayne Longpre:** Robots.txt یک فایل قابل خواندن توسط ماشین است که خزنده‌ها – ربات‌هایی که در وب حرکت می‌کنند و آنچه را که می‌بینند، ثبت می‌کنند – از آن استفاده می‌کنند تا تعیین کنند که آیا باید بخش‌های خاصی از یک وبسایت را خزیده کنند یا خیر. این پروتکل در عصری که وبسایت‌ها عمدتاً برای هدایت جستجوگر وب از آن استفاده می‌کردند، به یک استاندارد واقعی تبدیل شد. بنابراین، به Bing یا جستجوی Google فکر کنید. آنها می‌خواستند این اطلاعات را ثبت کنند تا بتوانند تجربه ناوبری کاربران در وب را بهبود بخشند. این یک رابطه کاملاً متقابل بود زیرا جستجوگر وب با ارسال ترافیک به وبسایت‌ها کار می‌کند و وبسایت‌ها به این ترافیک نیاز دارند. به طور کلی، اکثر وبسایت‌ها با اکثر خزنده‌ها به خوبی تعامل داشتند.

اجازه دهید در ادامه در مورد زنجیره‌ای از ادعاها صحبت کنم که برای درک این موضوع مهم هستند. مدل‌های هوش مصنوعی با کاربرد عمومی و قابلیت‌های بسیار چشمگیر آنها به مقیاس داده‌ها و محاسباتی که برای آموزش آنها استفاده شده است، بستگی دارند. مقیاس و داده‌ها واقعاً مهم هستند و منابع کمی وجود دارند که مقیاس عمومی مانند وب را ارائه می‌دهند. بنابراین، بسیاری از مدل‌های بنیادی (Foundation Models) بر روی مجموعه‌های داده‌هایی آموزش دیده‌اند که از خزیدن در وب تشکیل شده‌اند. این مجموعه‌های داده‌های محبوب و مهم در واقع فقط شامل وبسایت‌ها و زیرساخت‌های خزیدن هستند که برای جمع‌آوری، بسته‌بندی و پردازش این داده‌ها استفاده می‌شوند. مطالعه ما نه تنها به مجموعه‌های داده‌ها، بلکه به سیگنال‌های ترجیحی از وبسایت‌های اصلی نگاه می‌کند. این زنجیره تأمین داده‌ها است.

اما در سال گذشته، بسیاری از وبسایت‌ها شروع به استفاده از robots.txt برای محدود کردن ربات‌ها کرده‌اند، به ویژه وبسایت‌هایی که از طریق تبلیغات و دیوارهای پرداخت (Paywall) درآمدزایی می‌کنند – مانند اخبار و هنرمندان. آنها به شدت نگران هستند، و شاید هم به درستی، که هوش مصنوعی مولد ممکن است به معیشت آنها آسیب برساند. بنابراین، آنها اقداماتی برای محافظت از داده‌های خود انجام می‌دهند.

**وقتی یک وبسایت محدودیت‌های robots.txt را اعمال می‌کند، مانند نصب یک تابلو “ورود ممنوع” است، درست است؟ این امر قابل اجرا نیست. باید به خزنده‌ها اعتماد کنیم که به آن احترام بگذارند.**

**Longpre:** فاجعه این است که robots.txt قابل خواندن توسط ماشین است، اما ظاهراً از نظر قانونی قابل اجرا نیست. در حالی که شرایط استفاده (Terms of Service) ممکن است از نظر قانونی قابل اجرا باشد، اما قابل خواندن توسط ماشین نیست. آنها می‌توانند در شرایط استفاده، ترجیحات خود را برای استفاده از داده‌ها به زبان طبیعی بیان کنند. بنابراین، آنها می‌توانند چیزهایی مانند “می‌توانید از این داده‌ها استفاده کنید، اما نه به صورت تجاری” را بیان کنند. اما در robots.txt، باید به طور جداگانه خزنده‌ها را مشخص کنید و سپس بگویید که کدام قسمت از وبسایت را برای آنها مجاز یا ممنوع می‌کنید. این امر وبسایت‌ها را تحت فشار قرار می‌دهد تا از میان هزاران خزنده مختلف، خزنده‌هایی را که با استفاده‌های مورد نظر آنها مطابقت دارند و خزنده‌هایی را که با آن مطابقت ندارند، تشخیص دهند.

**آیا می‌دانیم که خزنده‌ها به طور کلی به محدودیت‌های robots.txt احترام می‌گذارند؟**

**Longpre:** بسیاری از شرکت‌های بزرگ اسنادی دارند که به طور صریح نحوه عمل یا رویه‌های خود را مشخص می‌کند. به عنوان مثال، در مورد Anthropic، آنها می‌گویند که به robots.txt برای ClaudeBot احترام می‌گذارند. با این حال، بسیاری از این شرکت‌ها به تازگی در خبرها بوده‌اند زیرا آنها متهم به **عدم احترام به robots.txt** و خزیدن در وبسایت‌ها بدون توجه به آن هستند. از دیدگاه بیرونی مشخص نیست که چرا بین آنچه که شرکت‌های هوش مصنوعی می‌گویند انجام می‌دهند و آنچه که متهم به انجام آن هستند، اختلاف وجود دارد. اما بسیاری از گروه‌های پیشرو در زمینه اجتماعی که از خزیدن استفاده می‌کنند – استارتاپ‌های کوچک، دانشگاهیان، سازمان‌های غیرانتفاعی، روزنامه‌نگاران – تمایل دارند به robots.txt احترام بگذارند. آنها هدف مورد نظر این محدودیت‌ها نیستند، اما توسط آنها مسدود می‌شوند.

**در گزارش، شما به سه مجموعه داده آموزشی که اغلب برای آموزش سیستم‌های هوش مصنوعی مولد استفاده می‌شوند، نگاه کردید که همه آنها از خزیدن در وب در سال‌های گذشته ایجاد شده‌اند. شما دریافتید که از سال 2023 تا 2024، افزایش بسیار قابل توجهی در تعداد دامنه‌های خزیده شده وجود داشته است که از آن زمان محدود شده‌اند. آیا می‌توانید در مورد این یافته‌ها صحبت کنید؟**

**Longpre:** آنچه که ما دریافتیم این است که اگر به یک مجموعه داده خاص نگاه کنید، مثلاً C4 را در نظر بگیرید، که بسیار محبوب است و در سال 2019 ایجاد شده است – در کمتر از یک سال، حدود 5 درصد از داده‌های آن در صورت احترام یا رعایت ترجیحات وبسایت‌های اصلی، محدود شده است. حالا 5 درصد ممکن است زیاد به نظر نرسد، اما وقتی متوجه می‌شوید که این بخش از داده‌ها عمدتاً مربوط به داده‌های باکیفیت‌ترین، نگهداری شده‌ترین و جدیدترین داده‌ها است، این موضوع اهمیت پیدا می‌کند. وقتی به 2000 وبسایت برتر در این مجموعه داده C4 نگاه کردیم – اینها 2000 وبسایت برتر از نظر اندازه هستند و عمدتاً شامل اخبار، سایت‌های علمی بزرگ، رسانه‌های اجتماعی و وبسایت‌های باکیفیت و نگهداری شده – 25 درصد از داده‌های این 2000 وبسایت برتر از آن زمان محدود شده است. این بدان معناست که توزیع داده‌های آموزشی برای مدل‌هایی که به robots.txt احترام می‌گذارند، به سرعت از اخبار باکیفیت، وبسایت‌های علمی، انجمن‌ها و رسانه‌های اجتماعی به سمت وبسایت‌های سازمانی و شخصی، تجارت الکترونیکی و وبلاگ‌ها تغییر می‌کند.

**به نظر می‌رسد که این موضوع می‌تواند یک مشکل باشد اگر از یک نسخه آینده ChatGPT یا Perplexity بخواهیم سوالات پیچیده را پاسخ دهد و این سیستم اطلاعات را از وبلاگ‌های شخصی و سایت‌های خرید آنلاین دریافت می‌کند.**

**Longpre:** دقیقا. اندازه‌گیری این موضوع که این امر چگونه بر مدل‌ها تأثیر خواهد گذاشت، دشوار است، اما ما حدس می‌زنیم که شکافی بین عملکرد مدل‌هایی که به robots.txt احترام می‌گذارند و عملکرد مدل‌هایی که این داده‌ها را قبلاً بدست آورده‌اند و مایل به آموزش بر روی آنها هستند، وجود خواهد داشت.

**اما مجموعه‌های داده‌های قدیمی‌تر هنوز دست نخورده هستند. آیا شرکت‌های هوش مصنوعی می‌توانند فقط از مجموعه‌های داده‌های قدیمی‌تر استفاده کنند؟ معایب این کار چیست؟**

**Longpre:** خب، تازگی پیوسته داده‌ها واقعاً مهم است. همچنین مشخص نیست که آیا robots.txt به طور پس‌گرایانه (Retroactively) قابل اجرا است یا خیر. ناشران احتمالاً استدلال می‌کنند که این امر قابل اجرا است. بنابراین، به “اشتهای” شما برای دعواهای حقوقی یا به جایی که فکر می‌کنید روندها به ویژه در ایالات متحده با دعواهای حقوقی در حال انجام پیرامون استفاده منصفانه از داده‌ها، جهت خواهد گرفت، بستگی دارد. واضح‌ترین مثال، البته New York Times در برابر OpenAI و مایکروسافت است، اما اکنون انواع مختلفی از این دعواها وجود دارد. عدم اطمینان زیادی در مورد مسیر آینده این روند وجود دارد.

**این گزارش با نام “رضایت در بحران” نامگذاری شده است. چرا این موضوع را یک بحران می‌دانید؟**

**Longpre:** فکر می‌کنم این یک بحران برای ایجادکنندگان داده‌ها است، به دلیل مشکل در بیان آنچه که آنها از طریق پروتکل‌های موجود می‌خواهند. همچنین برای برخی از توسعه دهندگان که غیرتجاری هستند و شاید حتی با هوش مصنوعی مرتبط نیستند – دانشگاهیان و محققان متوجه شده‌اند که دسترسی به این داده‌ها دشوارتر می‌شود. و فکر می‌کنم این موضوع یک بحران است زیرا بسیار آشفته است. این زیرساخت برای رسیدگی به همه این موارد همزمان طراحی نشده بود. و این موضوع در نهایت به دلیل برخورد این صنایع عظیم با یکدیگر، مانند هوش مصنوعی مولد در برابر ایجادکنندگان اخبار و دیگران، به یک مشکل تبدیل شده است.

**اگر این روند ادامه یابد و داده‌های بیشتری محدود شوند، شرکت‌های هوش مصنوعی چه کاری می‌توانند انجام دهند؟ برای ادامه آموزش مدل‌های عظیم، آنها چه اقداماتی را انجام خواهند داد؟**

**Longpre:** شرکت‌های بزرگ داده‌ها را به طور مستقیم مجوز خواهند داد. اگر بخش زیادی از این داده‌ها مسدود شده باشد یا جمع‌آوری آنها دشوار باشد، این ممکن است برای برخی از شرکت‌های بزرگ یک نتیجه بد نباشد، فقط نیاز به سرمایه بیشتری برای ورود به این زمینه وجود خواهد داشت. فکر می‌کنم شرکت‌های بزرگ بیشتر در خط لوله جمع‌آوری داده‌ها و بدست آوردن دسترسی پیوسته به منابع داده‌ای ارزشمند که توسط کاربران تولید شده‌اند، مانند YouTube و GitHub و Reddit، سرمایه گذاری خواهند کرد. بدست آوردن دسترسی انحصاری به این سایت‌ها احتمالاً یک بازی هوشمندانه در بازار است، اما از نظر ضد انحصار یک موضوع مشکل‌ساز است. من به ویژه نگران رابطه‌های انحصاری در زمینه بدست آوردن داده‌ها هستم که ممکن است از این موضوع به وجود بیاید.

**آیا فکر می‌کنید که داده‌های مصنوعی می‌توانند این شکاف را پر کنند؟**

**Longpre:** شرکت‌های بزرگ در حال حاضر از داده‌های مصنوعی در مقدار زیاد استفاده می‌کنند. هر دو نگرانی و فرصت هایی در زمینه داده‌های مصنوعی وجود دارد. از یک طرف، سری از کارها وجود دارد که پتانسیل “فروپاشی مدل” (Model Collapse) را نشان می‌دهد، که تخریب یک مدل به دلیل آموزش بر روی داده‌های مصنوعی ضعیف است که با رهاسازی ربات‌های مولد بیشتر و بیشتر ممکن است در وب بیشتر دیده شود. با این حال، فکر می‌کنم بعید است که مدل‌های بزرگ زیاد در این زمینه آسیب ببینند زیرا آنها فیلترهای کیفیت دارند، بنابراین محتوای بی کیفیت یا تکراری قابل جداسازی است. و فرصت‌های داده‌های مصنوعی هنگامی است که این داده‌ها در یک محیط آزمایشگاهی برای ایجاد کیفیت بسیار بالا ساخته می‌شوند و هدف آنها به ویژه دامنه‌هایی است که توسعه نیافته هستند.

**آیا شما به این ایده اعتقاد دارید که ممکن است ما در اوج داده (Peak Data) باشیم؟ یا فکر می‌کنید این یک نگرانی مبالغه آمیز است؟**

**Longpre:** داده‌های نامحدودی در خارج وجود دارد. اما نکته جالب این است که بخش زیادی از آن در پشت PDFs پنهان شده است، بنابراین شما نیاز به OCR (تشخیص نویسه نوری) دارید. بسیاری از داده‌ها در دولت‌ها، کانال‌های اختصاصی، قالب‌های بدون ساختار یا قالب‌های دشوار برای استخراج مانند PDFs قفل شده است. فکر می‌کنم سرمایه‌گذاری بسیار بیشتری برای یافتن نحوه استخراج این داده‌ها انجام خواهد شد. من فکر می‌کنم از نظر داده‌های به راحتی قابل دسترسی، بسیاری از شرکت‌ها شروع به برخورد با موانع می‌کنند و به سوی داده‌های مصنوعی حرکت می‌کنند.

**خط روند اینجا چیست؟ آیا انتظار دارید در سال‌های آینده وبسایت‌های بیشتری محدودیت‌های robots.txt را اعمال کنند؟**

**Longpre:** ما انتظار داریم که محدودیت‌ها هم در robots.txt و هم در شرایط استفاده افزایش یابد. این خط روند ها از کار ما بسیار روشن است، اما ممکن است توسط عوامل خارجی مانند قوانین و مقررات، تغییر سیاست‌های خود شرکت‌ها، نتیجه دعواهای حقوقی، و همچنین فشار جامعه از سوی انجمن‌های نویسندگان و مواردی از این قبیل تحت تأثیر قرار گیرد. و من انتظار داریم که کالا شدن افزایش یافته داده‌ها موجب ایجاد میدان نبرد بیشتری در این فضا شود.

**چه ارزویی برای استانداردسازی در صنعت یا تسهیل بیان ترجیحات وبسایت‌ها در مورد خزیدن دارید؟**

**Longpre:** ما در “ابتکار داده‌های مبدأ” مطمئناً امیدواریم که استانداردهای جدیدی پدید آیند و برای اجازه دادن به ایجادکنندگان برای بیان ترجیحات خود به صورت دقیق‌تر در مورد استفاده از داده‌های خود به کار گرفته شوند. این کار بار آنها را بسیار آسان‌تر می‌کند. فکر می‌کنم این موضوع بسیار واضح و یک برد برد است. اما مشخص نیست که وظیفه ایجاد یا اجرای این استانداردها بر عهده چه کسی است. اگر خود شرکت‌های [هوش مصنوعی] بتوانند به این نتیجه برسند و این کار را انجام دهند، شگفت‌انگیز خواهد بود. اما طراح استاندارد تقریباً به طور قطع نوعی سوگیری به سمت استفاده خود خواهد داشت، به ویژه اگر یک نهاد شرکتی باشد.

همچنین این موضوع وجود دارد که ترجیحات نباید در همه موارد رعایت شوند. به عنوان مثال، من فکر نمی‌کنم که دانشگاهیان یا خبرنگاران که تحقیقات پیشرو در زمینه اجتماعی انجام می‌دهند، لزوماً باید از دسترسی به داده‌ها با ماشین‌هایی که از قبل عمومی هستند، در وبسایت‌هایی که هر کسی می‌تواند به طور مستقل آنها را بازدید کند، محروم شوند. همه داده‌ها با هم برابر نیستند و همه استفاده‌ها با هم برابر نیستند.

مجله خبری تکنولوژی و موبایل