## بحران داده در هوش مصنوعی: آیا دوران طلایی داده به پایان رسیده است؟
اکثر افراد تصور میکنند که هوش مصنوعی مولد (Generative AI) به طور مداوم پیشرفت خواهد کرد. این روند تا به امروز ادامه داشته است و به نظر میرسد که این مسیر ادامه خواهد یافت. اما چیزی که بسیاری متوجه آن نیستند این است که مدلهای هوش مصنوعی مولد به اندازه مجموعههای دادهای عظیمی که بر روی آن آموزش میبینند، کارآمد هستند. این مجموعهها از دادههای اختصاصی شرکتهای پیشرو در هوش مصنوعی مانند OpenAI و Anthropic ساخته نشدهاند. در عوض، آنها از دادههای عمومی ساخته شدهاند که توسط همه ما ایجاد شدهاند، هر کسی که تا به حال یک پست وبلاگ نوشته، ویدیویی را منتشر کرده، در یک موضوع Reddit نظر داده یا اساساً هر کار دیگری را به صورت آنلاین انجام داده است.
یک گزارش جدید از “ابتکار دادههای مبدأ” (Data Provenance Initiative) که یک گروه داوطلبانه از محققین هوش مصنوعی است، به آنچه که با این دادهها در حال اتفاق افتادن است، نور میتاباند. این گزارش با عنوان “رضایت در بحران: کاهش سریع مشترکات دادههای هوش مصنوعی” (Consent in Crisis: The Rapid Decline of the AI Data Commons) به این موضوع اشاره میکند که تعداد قابل توجهی از سازمانها که خود را در معرض تهدید هوش مصنوعی مولد میبینند، اقدامات لازم برای مسدود کردن دادههای خود را انجام میدهند. مجله IEEE Spectrum با Shayne Longpre، محقق اصلی “ابتکار دادههای مبدأ” در مورد این گزارش و پیامدهای آن برای شرکتهای هوش مصنوعی گفتگو کرد.
**Shayne Longpre در مورد:**
* **محدود کردن دسترسی خزندهها به وبسایتها و دلایل آن**
* **دادههای ناپدید شونده و پیامدهای آن برای شرکتهای هوش مصنوعی**
* **دادههای مصنوعی، اوج داده و اتفاقات بعدی**
**تکنولوژی که وبسایتها برای محدود کردن خزندهها (Crawler) از آن استفاده میکنند، جدید نیست. پروتکل حذف ربات (Robots.txt)** **در سال 1995 ارائه شد. آیا میتوانید توضیح دهید که این پروتکل چیست و چرا در عصر هوش مصنوعی مولد ناگهان اهمیت زیادی پیدا کرده است؟**
**Shayne Longpre:** Robots.txt یک فایل قابل خواندن توسط ماشین است که خزندهها – رباتهایی که در وب حرکت میکنند و آنچه را که میبینند، ثبت میکنند – از آن استفاده میکنند تا تعیین کنند که آیا باید بخشهای خاصی از یک وبسایت را خزیده کنند یا خیر. این پروتکل در عصری که وبسایتها عمدتاً برای هدایت جستجوگر وب از آن استفاده میکردند، به یک استاندارد واقعی تبدیل شد. بنابراین، به Bing یا جستجوی Google فکر کنید. آنها میخواستند این اطلاعات را ثبت کنند تا بتوانند تجربه ناوبری کاربران در وب را بهبود بخشند. این یک رابطه کاملاً متقابل بود زیرا جستجوگر وب با ارسال ترافیک به وبسایتها کار میکند و وبسایتها به این ترافیک نیاز دارند. به طور کلی، اکثر وبسایتها با اکثر خزندهها به خوبی تعامل داشتند.
اجازه دهید در ادامه در مورد زنجیرهای از ادعاها صحبت کنم که برای درک این موضوع مهم هستند. مدلهای هوش مصنوعی با کاربرد عمومی و قابلیتهای بسیار چشمگیر آنها به مقیاس دادهها و محاسباتی که برای آموزش آنها استفاده شده است، بستگی دارند. مقیاس و دادهها واقعاً مهم هستند و منابع کمی وجود دارند که مقیاس عمومی مانند وب را ارائه میدهند. بنابراین، بسیاری از مدلهای بنیادی (Foundation Models) بر روی مجموعههای دادههایی آموزش دیدهاند که از خزیدن در وب تشکیل شدهاند. این مجموعههای دادههای محبوب و مهم در واقع فقط شامل وبسایتها و زیرساختهای خزیدن هستند که برای جمعآوری، بستهبندی و پردازش این دادهها استفاده میشوند. مطالعه ما نه تنها به مجموعههای دادهها، بلکه به سیگنالهای ترجیحی از وبسایتهای اصلی نگاه میکند. این زنجیره تأمین دادهها است.
اما در سال گذشته، بسیاری از وبسایتها شروع به استفاده از robots.txt برای محدود کردن رباتها کردهاند، به ویژه وبسایتهایی که از طریق تبلیغات و دیوارهای پرداخت (Paywall) درآمدزایی میکنند – مانند اخبار و هنرمندان. آنها به شدت نگران هستند، و شاید هم به درستی، که هوش مصنوعی مولد ممکن است به معیشت آنها آسیب برساند. بنابراین، آنها اقداماتی برای محافظت از دادههای خود انجام میدهند.
**وقتی یک وبسایت محدودیتهای robots.txt را اعمال میکند، مانند نصب یک تابلو “ورود ممنوع” است، درست است؟ این امر قابل اجرا نیست. باید به خزندهها اعتماد کنیم که به آن احترام بگذارند.**
**Longpre:** فاجعه این است که robots.txt قابل خواندن توسط ماشین است، اما ظاهراً از نظر قانونی قابل اجرا نیست. در حالی که شرایط استفاده (Terms of Service) ممکن است از نظر قانونی قابل اجرا باشد، اما قابل خواندن توسط ماشین نیست. آنها میتوانند در شرایط استفاده، ترجیحات خود را برای استفاده از دادهها به زبان طبیعی بیان کنند. بنابراین، آنها میتوانند چیزهایی مانند “میتوانید از این دادهها استفاده کنید، اما نه به صورت تجاری” را بیان کنند. اما در robots.txt، باید به طور جداگانه خزندهها را مشخص کنید و سپس بگویید که کدام قسمت از وبسایت را برای آنها مجاز یا ممنوع میکنید. این امر وبسایتها را تحت فشار قرار میدهد تا از میان هزاران خزنده مختلف، خزندههایی را که با استفادههای مورد نظر آنها مطابقت دارند و خزندههایی را که با آن مطابقت ندارند، تشخیص دهند.
**آیا میدانیم که خزندهها به طور کلی به محدودیتهای robots.txt احترام میگذارند؟**
**Longpre:** بسیاری از شرکتهای بزرگ اسنادی دارند که به طور صریح نحوه عمل یا رویههای خود را مشخص میکند. به عنوان مثال، در مورد Anthropic، آنها میگویند که به robots.txt برای ClaudeBot احترام میگذارند. با این حال، بسیاری از این شرکتها به تازگی در خبرها بودهاند زیرا آنها متهم به **عدم احترام به robots.txt** و خزیدن در وبسایتها بدون توجه به آن هستند. از دیدگاه بیرونی مشخص نیست که چرا بین آنچه که شرکتهای هوش مصنوعی میگویند انجام میدهند و آنچه که متهم به انجام آن هستند، اختلاف وجود دارد. اما بسیاری از گروههای پیشرو در زمینه اجتماعی که از خزیدن استفاده میکنند – استارتاپهای کوچک، دانشگاهیان، سازمانهای غیرانتفاعی، روزنامهنگاران – تمایل دارند به robots.txt احترام بگذارند. آنها هدف مورد نظر این محدودیتها نیستند، اما توسط آنها مسدود میشوند.
**در گزارش، شما به سه مجموعه داده آموزشی که اغلب برای آموزش سیستمهای هوش مصنوعی مولد استفاده میشوند، نگاه کردید که همه آنها از خزیدن در وب در سالهای گذشته ایجاد شدهاند. شما دریافتید که از سال 2023 تا 2024، افزایش بسیار قابل توجهی در تعداد دامنههای خزیده شده وجود داشته است که از آن زمان محدود شدهاند. آیا میتوانید در مورد این یافتهها صحبت کنید؟**
**Longpre:** آنچه که ما دریافتیم این است که اگر به یک مجموعه داده خاص نگاه کنید، مثلاً C4 را در نظر بگیرید، که بسیار محبوب است و در سال 2019 ایجاد شده است – در کمتر از یک سال، حدود 5 درصد از دادههای آن در صورت احترام یا رعایت ترجیحات وبسایتهای اصلی، محدود شده است. حالا 5 درصد ممکن است زیاد به نظر نرسد، اما وقتی متوجه میشوید که این بخش از دادهها عمدتاً مربوط به دادههای باکیفیتترین، نگهداری شدهترین و جدیدترین دادهها است، این موضوع اهمیت پیدا میکند. وقتی به 2000 وبسایت برتر در این مجموعه داده C4 نگاه کردیم – اینها 2000 وبسایت برتر از نظر اندازه هستند و عمدتاً شامل اخبار، سایتهای علمی بزرگ، رسانههای اجتماعی و وبسایتهای باکیفیت و نگهداری شده – 25 درصد از دادههای این 2000 وبسایت برتر از آن زمان محدود شده است. این بدان معناست که توزیع دادههای آموزشی برای مدلهایی که به robots.txt احترام میگذارند، به سرعت از اخبار باکیفیت، وبسایتهای علمی، انجمنها و رسانههای اجتماعی به سمت وبسایتهای سازمانی و شخصی، تجارت الکترونیکی و وبلاگها تغییر میکند.
**به نظر میرسد که این موضوع میتواند یک مشکل باشد اگر از یک نسخه آینده ChatGPT یا Perplexity بخواهیم سوالات پیچیده را پاسخ دهد و این سیستم اطلاعات را از وبلاگهای شخصی و سایتهای خرید آنلاین دریافت میکند.**
**Longpre:** دقیقا. اندازهگیری این موضوع که این امر چگونه بر مدلها تأثیر خواهد گذاشت، دشوار است، اما ما حدس میزنیم که شکافی بین عملکرد مدلهایی که به robots.txt احترام میگذارند و عملکرد مدلهایی که این دادهها را قبلاً بدست آوردهاند و مایل به آموزش بر روی آنها هستند، وجود خواهد داشت.
**اما مجموعههای دادههای قدیمیتر هنوز دست نخورده هستند. آیا شرکتهای هوش مصنوعی میتوانند فقط از مجموعههای دادههای قدیمیتر استفاده کنند؟ معایب این کار چیست؟**
**Longpre:** خب، تازگی پیوسته دادهها واقعاً مهم است. همچنین مشخص نیست که آیا robots.txt به طور پسگرایانه (Retroactively) قابل اجرا است یا خیر. ناشران احتمالاً استدلال میکنند که این امر قابل اجرا است. بنابراین، به “اشتهای” شما برای دعواهای حقوقی یا به جایی که فکر میکنید روندها به ویژه در ایالات متحده با دعواهای حقوقی در حال انجام پیرامون استفاده منصفانه از دادهها، جهت خواهد گرفت، بستگی دارد. واضحترین مثال، البته New York Times در برابر OpenAI و مایکروسافت است، اما اکنون انواع مختلفی از این دعواها وجود دارد. عدم اطمینان زیادی در مورد مسیر آینده این روند وجود دارد.
**این گزارش با نام “رضایت در بحران” نامگذاری شده است. چرا این موضوع را یک بحران میدانید؟**
**Longpre:** فکر میکنم این یک بحران برای ایجادکنندگان دادهها است، به دلیل مشکل در بیان آنچه که آنها از طریق پروتکلهای موجود میخواهند. همچنین برای برخی از توسعه دهندگان که غیرتجاری هستند و شاید حتی با هوش مصنوعی مرتبط نیستند – دانشگاهیان و محققان متوجه شدهاند که دسترسی به این دادهها دشوارتر میشود. و فکر میکنم این موضوع یک بحران است زیرا بسیار آشفته است. این زیرساخت برای رسیدگی به همه این موارد همزمان طراحی نشده بود. و این موضوع در نهایت به دلیل برخورد این صنایع عظیم با یکدیگر، مانند هوش مصنوعی مولد در برابر ایجادکنندگان اخبار و دیگران، به یک مشکل تبدیل شده است.
**اگر این روند ادامه یابد و دادههای بیشتری محدود شوند، شرکتهای هوش مصنوعی چه کاری میتوانند انجام دهند؟ برای ادامه آموزش مدلهای عظیم، آنها چه اقداماتی را انجام خواهند داد؟**
**Longpre:** شرکتهای بزرگ دادهها را به طور مستقیم مجوز خواهند داد. اگر بخش زیادی از این دادهها مسدود شده باشد یا جمعآوری آنها دشوار باشد، این ممکن است برای برخی از شرکتهای بزرگ یک نتیجه بد نباشد، فقط نیاز به سرمایه بیشتری برای ورود به این زمینه وجود خواهد داشت. فکر میکنم شرکتهای بزرگ بیشتر در خط لوله جمعآوری دادهها و بدست آوردن دسترسی پیوسته به منابع دادهای ارزشمند که توسط کاربران تولید شدهاند، مانند YouTube و GitHub و Reddit، سرمایه گذاری خواهند کرد. بدست آوردن دسترسی انحصاری به این سایتها احتمالاً یک بازی هوشمندانه در بازار است، اما از نظر ضد انحصار یک موضوع مشکلساز است. من به ویژه نگران رابطههای انحصاری در زمینه بدست آوردن دادهها هستم که ممکن است از این موضوع به وجود بیاید.
**آیا فکر میکنید که دادههای مصنوعی میتوانند این شکاف را پر کنند؟**
**Longpre:** شرکتهای بزرگ در حال حاضر از دادههای مصنوعی در مقدار زیاد استفاده میکنند. هر دو نگرانی و فرصت هایی در زمینه دادههای مصنوعی وجود دارد. از یک طرف، سری از کارها وجود دارد که پتانسیل “فروپاشی مدل” (Model Collapse) را نشان میدهد، که تخریب یک مدل به دلیل آموزش بر روی دادههای مصنوعی ضعیف است که با رهاسازی رباتهای مولد بیشتر و بیشتر ممکن است در وب بیشتر دیده شود. با این حال، فکر میکنم بعید است که مدلهای بزرگ زیاد در این زمینه آسیب ببینند زیرا آنها فیلترهای کیفیت دارند، بنابراین محتوای بی کیفیت یا تکراری قابل جداسازی است. و فرصتهای دادههای مصنوعی هنگامی است که این دادهها در یک محیط آزمایشگاهی برای ایجاد کیفیت بسیار بالا ساخته میشوند و هدف آنها به ویژه دامنههایی است که توسعه نیافته هستند.
**آیا شما به این ایده اعتقاد دارید که ممکن است ما در اوج داده (Peak Data) باشیم؟ یا فکر میکنید این یک نگرانی مبالغه آمیز است؟**
**Longpre:** دادههای نامحدودی در خارج وجود دارد. اما نکته جالب این است که بخش زیادی از آن در پشت PDFs پنهان شده است، بنابراین شما نیاز به OCR (تشخیص نویسه نوری) دارید. بسیاری از دادهها در دولتها، کانالهای اختصاصی، قالبهای بدون ساختار یا قالبهای دشوار برای استخراج مانند PDFs قفل شده است. فکر میکنم سرمایهگذاری بسیار بیشتری برای یافتن نحوه استخراج این دادهها انجام خواهد شد. من فکر میکنم از نظر دادههای به راحتی قابل دسترسی، بسیاری از شرکتها شروع به برخورد با موانع میکنند و به سوی دادههای مصنوعی حرکت میکنند.
**خط روند اینجا چیست؟ آیا انتظار دارید در سالهای آینده وبسایتهای بیشتری محدودیتهای robots.txt را اعمال کنند؟**
**Longpre:** ما انتظار داریم که محدودیتها هم در robots.txt و هم در شرایط استفاده افزایش یابد. این خط روند ها از کار ما بسیار روشن است، اما ممکن است توسط عوامل خارجی مانند قوانین و مقررات، تغییر سیاستهای خود شرکتها، نتیجه دعواهای حقوقی، و همچنین فشار جامعه از سوی انجمنهای نویسندگان و مواردی از این قبیل تحت تأثیر قرار گیرد. و من انتظار داریم که کالا شدن افزایش یافته دادهها موجب ایجاد میدان نبرد بیشتری در این فضا شود.
**چه ارزویی برای استانداردسازی در صنعت یا تسهیل بیان ترجیحات وبسایتها در مورد خزیدن دارید؟**
**Longpre:** ما در “ابتکار دادههای مبدأ” مطمئناً امیدواریم که استانداردهای جدیدی پدید آیند و برای اجازه دادن به ایجادکنندگان برای بیان ترجیحات خود به صورت دقیقتر در مورد استفاده از دادههای خود به کار گرفته شوند. این کار بار آنها را بسیار آسانتر میکند. فکر میکنم این موضوع بسیار واضح و یک برد برد است. اما مشخص نیست که وظیفه ایجاد یا اجرای این استانداردها بر عهده چه کسی است. اگر خود شرکتهای [هوش مصنوعی] بتوانند به این نتیجه برسند و این کار را انجام دهند، شگفتانگیز خواهد بود. اما طراح استاندارد تقریباً به طور قطع نوعی سوگیری به سمت استفاده خود خواهد داشت، به ویژه اگر یک نهاد شرکتی باشد.
همچنین این موضوع وجود دارد که ترجیحات نباید در همه موارد رعایت شوند. به عنوان مثال، من فکر نمیکنم که دانشگاهیان یا خبرنگاران که تحقیقات پیشرو در زمینه اجتماعی انجام میدهند، لزوماً باید از دسترسی به دادهها با ماشینهایی که از قبل عمومی هستند، در وبسایتهایی که هر کسی میتواند به طور مستقل آنها را بازدید کند، محروم شوند. همه دادهها با هم برابر نیستند و همه استفادهها با هم برابر نیستند.