سال 2017 فرصتهای بسیار و همچنین چالشهایی دشوار را در زمینهی دادهها وعده میدهد. بن لوریکا آنچه را که در پیش روی ماست، بررسی میکند.
حوزه شفافیت | داده باز | Open Data | Scope |
موضوع | راهنما، آموزشی | Learning, Educational | Subject |
نوع مطلب | متن | Text | Type |
زبان | فارسی | Farsi | Language |
منتشر کننده | شفافیت برای ایران | Transparency4Iran | Publisher |
1. تعداد بیشتری از متخصصین علم داده، استفاده از یادگیری عمیق را در پیش خواهند گرفت.
در سال 2016 شاهد پیشرفتهایی بزرگی بودیم؛ پیشرفتهایی در یادگیری عمیق و عرضهی ابزارهایی جدید برای آسانتر ساختن یادگیری عمیق و همچنین ابزارهایی که مستقیماً با بسترها و چارچوبهای موجود کلان دادهها ادغام میشدند. و از طریق یادگیری عمیق، میتوان کارهای مفید بسیاری انجام داد - کارهایی که کم کم برای عملکرد یک سازمان حیاتی خواهند بود، همچون سریهای زمانی و رویدادهای دادهها (از جمله تشخیص روندهای خلاف قاعده)، اینترنت اشیا (IoT) و تحلیل دادههای دریافت شده از سنسورها، تشخیص تکلم و توصیهگرهای متنکاوی - یادگیری عمیق در سال 2017 مهمتر از این است که توسط متخصصین علم داده نادیده گرفته شود.
2. تقاضا برای مهارتهای مهندسی داده، رو به افزایش خواهد بود.
سال 2012، نشریهی هاروارد بیزینس ریویو از متخصصین علم داده به عنوان «جذابترین» شغل قرن 21 نام برد. انتظار داریم سال 2017 تقاضا برای متخصصین علم داده ادامه یابد، اما شکاف مهارتی بیشتر در زمینهی مهارتهای مهندسی داده مطرح میشود (بیش از متخصصین علوم داده). شرکتها دنبال متخصصین علم دادهای هستند که میتوانند کدنویسی کنند. به متخصصین علم دادههایی نیاز خواهیم داشت که میتوانند در سیستمهای تولید موثر باشند. بله، این مهارتها بین متخصصین علم داده نایاب هستند، اما حقوقهای بسیار بالایی نیز در پی خواهند داشت.
3. شرکتهای بیشتری از خدمات مدیریت شده ابری استفاده خواهند کرد.
یک پرسشنامهی O’Reilly اخیراً به این نتیجه رسید که «پس از اینکه یک سازمان در زمینهی استفاده از کلاندادهها در قالب ابری مقداری تجربه کسب کند، با احتمال بیشتری استفاده خود از خدمات کلاندادهی مشابه را افزایش خواهد داد. به بیانی دیگر هنگامی که آب استخر را امتحان کردند، با احتمال بیشتری در استخر شیرجه میزنند.»
هماکنون شرکتها به گسترهی وسیعی از خدمات برای ذخیرهسازی، پردازش دادهها، مصورسازی، تجزیه و تحلیل و هوش مصنوعی دسترسی دارند. در حالی که در این زمینه مولفههای متنباز محبوبی در دسترس است، خدماتی که به صورت اختصاصی مدیریت میشوند، اثبات کردهاند که گزینهی محبوب و رایجی میباشند. چون ابزارها توسط ارائه دهندگان خدمات مدیریت خواهند شد، متخصصین دادهی درون سازمانها بیش از ابزارها، بر مشکلات جاری متمرکز خواهند بود؛ اگرچه لازم خواهد بود که طراحی، ساخت و مدیریت نرمافزارهایی که در فضای ابری اجرای میشوند را بیاموزند.
4. اما همه چیز به فضای ابری عمومی منتقل نخواهد شد.
سیستمهای قدیمی، دادههای حساس و امنیت، سازگاری و مسائل حریم خصوصی نیاز به ترکیبی از فضای ابری، سیستمهای حاضر در محل و نرمافزارهای ترکیبی خواهد داشت. همچنین نرمافزارهایی وجود خواهند داشت که از تامینکنندگان تخصصی یا حتی خصوصیِ فضای ابری همچون Predix برای اینترنت اشیای صنعتی یا فضای ابری CIA ساخته شده توسط خدمات وب آمازون استفاده کنند. سازمانها به معماران راه حلهایی نیاز خواهند داشت که میدانند چگونه از مزایای هر دو مورد بهره مند شوند.
5. ابزارهای سادهتر، کارهای بسیاری را سادهسازی خواهند کرد.
ابزارهای جدید برای تجزیه و تحلیل خود توسط خود، انجام برخی از انواع کارهای متنوع مربوط با تجزیه و تحلیل دادهها را آسانتر ساخته است. برخی نیاز به هیچگونه برنامهنویسی ندارند، در حالی که برخی از ابزارهای دیگر انجام ترکیبی از کدنویسی، گزینههای بصری و متنی را در محیط کار خود سادهتر ساختهاند. این ابزارها به کاربرانی که آماردان یا در زمینهی دادهها متخصص نیستند، قدرت انجام تحلیلهای منظم را میدهد، در نتیجه وقت متخصصین علم داده آزادتر خواهد بود تا بتوانند پروژههایی پیچیدهتر انجام دهند یا بر روی بهینهسازی پیوستهی نرمافزارها و خطوط ارتباطی تمرکز کنند.
چند سال است که این روند در جریان است، اما اخیراً شاهد ابزارهایی بودهایم که تجزیه و تحلیلهای پیشرفته را عمومیتر ساختهاند (برای مثال Microsoft Azure)، که استفاده از منابع دریافت دادهها در مقیاس بزرگ و یادگیری ماشینی پیشرفته (برای مثال بستری ابری گوگل و یادگیری ماشینی آمازون) را میسر ساختهاند.
6. جدایی ذخیرهسازی و محاسبات شتاب بیشتری خواهد یافت.
پروژه AMPLab در دانشگاه کالیفرنیا (برکلی)، نوامبر گذشته به پایان رسید، اما گروه مسئول Apache Spark و Alluxio تنها گروههایی نیستند که بر جدایی ذخیرهسازی و محاسبات تاکید میکنند. همانطور که بالاتر ذکر شد، محلهای ذخیرهسازی محبوب اشیا در فضای ابری و حتی برخی معماریهای یادگیری عمیق روی این الگو تاکید دارند.
7. لپتاپها و ابزارهای کار، مسیر تکامل ادامه خواهند داد.
Jupyter Notebook به طور گستردهای مورد استفاده متخصصین علم داده است چون یک معماری غنی از عناصری دارد که میتوانند برای گستره وسیعی از مسائل از جمله پاکسازی و دگرگونی دادهها، شبیهسازی اعداد، مدلسازی آماری و یادگیری ماشینی مورد استفاده و بازسازی قرار گیرند. (برای مثال O’Reilly از Jupyter Notebook به عنوان اساسی برای آموزشهای تعاملی Oriole استفاده میکند.) این دستگاه برای تیمهای دادهای مفید است چون میتوانید اسنادی ایجاد کنید که حاوی کد زنده، معادلات، مصورسازیها و متون توضیحی است و آنها را به اشتراک بگذارید. و با اتصال Jupyter به Spark، میتوانید با Spark، با یک رابط کاربری آسان، به جای استفاده از خط فرمان Linux یا Spark Shell ، کدهایی به زبان پایتون بنویسید.
متخصصین علم داده به استفاده از گسترهای از ابزارها ادامه خواهند داد. لپتاپهای Beaker از بسیاری از زبانهای برنامهنویسی پشتیبانی میکنند و اکنون چندین لپتاپ وجود دارد که برای کاربران Spark (Spark Notebook، Apache Zeppelin و Databricks Cloud) تولید شدهاند. در هر حال، تمام متخصصین داده از لپتاپها استفاده نمیکنند؛ لپتاپها مناسب مدیریت خطوط پیچیدهی ارتباطی دادهها نیستند؛ ابزارهای کار برای این امر مناسبتر هستند. و مهندسین داده به استفاده از ابزارهای مورد استفادهی توسعهدهندگان نرمافزار رغبت بیشتری دارند. با ورود یادگیری عمیق و دیگر تکنیکهای جدید به علم داده و جوامع کلانداده، ما پیشبینی میکنیم که ابزارهای موجود بیشتر تکامل پیدا خواهند کرد.
8. جامعهی داده، به ایجاد بهترین روش برای رسیدن به راه حلهایی برای رسیدگی به مسائلی همچون حریم خصوصی و مسائل اخلاقی ادامه خواهد داد.
با رواج یافتن یادگیری ماشینی، تنوع یافتن منابع دادهها و پیچیدهتر شدن الگوریتمها، دستیابی به شفافیت بسیار سختتر خواهد بود. دستیابی به عدالت در برنامههای دادهای، چالشبرانگیزتر از همیشه شده است. در سال 2017 منتظر بحث و گفتگوی بیشتری درباره سیاستهایی عمومی هستیم که به این نگرانیها بپردازد، بهترین روشها برای آزمایش تعصب و تبعیض ارائه کند و به یک افزایش آگاهی منجر شود که فرضیات جانبدارانه منجر به نتایج جانبدارانه میشود.